レス数が1スレッドの最大レス数(1000件)を超えています。残念ながら投稿することができません。

技術的特異点/シンギュラリティ【総合】避難所 25

925：名無しさん (ﾜｯﾁｮｲ 685d-da42)：2024/09/22(日) 11:46:59 ID:SNjKwyl200: https://twitter.com/omarsar0/status/1837228446839361984

RL による LLM の自己修正のトレーニング

Google Deepmind は、LLM の自己修正機能を向上させるために、マルチターンのオンライン強化学習アプローチを開発しました。

SFT は自己修正の学習には効果がないことが判明しており、トレーニングデータとモデル応答の間に分布の不一致が生じます。

この問題に対処するために、彼らはまず修正行動を最適化し、次に報酬ボーナスを使用してトレーニング中の自己修正を強化する 2 段階のアプローチを提案しています。これは完全に自己生成データに基づいています。

Gemini 1.0 Pro および 1.5 Flash モデルに適用すると、最先端の自己修正パフォーマンスが実現され、MATH および HumanEval ベンチマークでベースモデルの自己修正がそれぞれ 15.6% および 9.1% 向上します。

掲示板管理者へ連絡無料レンタル掲示板