技術的特異点/シンギュラリティ

154：名無しさん：2025/05/12(月) 18:51:56: minqi Jiang @MinqiJiang
RLが最終的にLLMポリシーを使用して複雑な実世界のタスクで機能するのを見るのはとても楽しいですが、RLの微調整がどのように一般化につながるかを理解していないことはますます明らかになっています。同じ週に、2つの（素晴らし
い）論文を受け取りました：絶対ゼロ推論：（無限の）コーディングタスクの自己プレイカリキュラム（オープンエンドのオートカリキュラム /監視されていない環境デザインの勝利）の自己プレイカリキュラムのトレーニングによるコードと
数学の改善。 1-Shot RLVR：しかし、待ってください！数学から何度も何度も1つの例でトレーニングすると、すべての数学ベンチマークで同様の改善が得られます。実際、ポリシーの損失を完全に削除し、エントロピー損失のみを
訓練する場合、数学を改善します。これらの作品はどちらも素晴らしいと思いますが、この分野で多くのフォローアップ作業を刺激すると思います。
しかし、一緒に見て、彼らはパラドックスを提示します：RL微調整のための両極端なデータキュレーションでは、最終的に匹敵する結果を達成します。 *単一の *データポイントでの「無限」データとトレーニングは、5つの標準Math
ベンチマークの28％→40％精度で28％→40％精度を下回る7BスケールでQWEN2.5シリーズモデルをもたらします。同様に、両方の論文は、Llama 3.1の指示モデルの約3％の改善を示しています。この結果を説明できま
すか？プレイにはいくつかの要因があると思います。-現在のRLメソッドは、ベースモデルに既存の機能を引き出すために主に機能しています。ここでの直感は、RLが何でも学習するためには、モデルはすでに報酬を達成する出力の完了を既
に可能にしなければならないということです。
RL目的は、ベースモデルがすでにわずかな時間を達成できるように、これらの良好な動作を選択的に強化します。セルフプレイは最終的にモデル自身の出力でトレーニングするため、プロセスはトレーニング前から得た潜在能力によって確立さ
れた自然の天井に到達することを期待するかもしれません。このようにして、トレーニング前とRLはNature Vs Nurtureのようなものです

※書き込む際の注意事項はこちら

※画像アップローダーはこちら

（画像を表示できるのは「画像リンクのサムネイル表示」がオンの掲示板に限ります）