レス数が1スレッドの最大レス数(1000件)を超えています。残念ながら投稿することができません。
技術的特異点/シンギュラリティ【総合】避難所 25
-
https://twitter.com/omarsar0/status/1837228446839361984
RL による LLM の自己修正のトレーニング
Google Deepmind は、LLM の自己修正機能を向上させるために、マルチターンのオンライン強化学習アプローチを開発しました。
SFT は自己修正の学習には効果がないことが判明しており、トレーニング データとモデル応答の間に分布の不一致が生じます。
この問題に対処するために、彼らはまず修正行動を最適化し、次に報酬ボーナスを使用してトレーニング中の自己修正を強化する 2 段階のアプローチを提案しています。これは完全に自己生成データに基づいています。
Gemini 1.0 Pro および 1.5 Flash モデルに適用すると、最先端の自己修正パフォーマンスが実現され、MATH および HumanEval ベンチマークでベースモデルの自己修正がそれぞれ 15.6% および 9.1% 向上します。
掲示板管理者へ連絡
無料レンタル掲示板