レス数が1スレッドの最大レス数(1000件)を超えています。残念ながら投稿することができません。
技術的特異点/シンギュラリティ【総合】避難所 34
-
RLでクリエイティブライティングを強化する場合、単語の非重複度合いを測ったりできますよね?それを報酬モデルとして作ればいい。ただ、ランダムな単語を滅茶苦茶な順序で出力するだけの言語モデルになってしまう可能性もあるのでインストラクションフォロイングやグラマーも測定する必要がありますよね?もし、数学やプログラミング以外の検証が難しい領域で強化学習する場合、どんな領域があり、どんな検証方法が考えられますか?また超人的レベルに至るにはどうしたら良いと思いますか?私は自己回帰トランスフォーマーと強化学習で基本的に全てのことは学習出来ると信じています。
https://chatgpt.com/share/6826c394-3b74-800e-9f1e-88ac88c104e4
掲示板管理者へ連絡
無料レンタル掲示板