レス数が1スレッドの最大レス数(1000件)を超えています。残念ながら投稿することができません。
技術的特異点/シンギュラリティ【総合】避難所 30
-
こちらのツイによればまず英語圏でDeepSeek-R1が大絶賛されてるのに対して中国圏ではピンと来てない人多すぎらしい(そうなのか)ぶっちゃけR1はGeminiとかLlamaよりも偉業だと言う。R1は「たった500万ドルのトレーニングでo1並みの性能!」ってとこだけ持ち上げられてるけど、安くトレーニングできたのは結果であって、何故それが可能になったかの方が重要。で、それを可能にしたのが純粋な結果報酬の強化学習を使ったから。それまでは推論モデルを学習するにはプロセス報酬モデルを使う事が必須だと思われていた。プロセス報酬モデルってのは推論の過程を評価して採点する手法。というのもファイナルアンサーの答えだけ評価しても途中の推論が間違ってたら意味無いから、色々工夫をこねくり回してMCTSとか使って手間とコストをかけて途中の推論プロセス評価をやってた。そんな中、DeepSeekは「そんなの関係ねえ!」つって我が道を行って純粋な結果報酬の強化学習でトレーニングした。つまりAIのファイナルアンサーだけを見て、推論過程はノールックで見ない。こういうやり方じゃ上手く行かないとてっきりみんな思い込んでたけど、実際やってみたらメッチャ性能上がりました。マジかよ。あと結果しか評価しなかったのに、トレーニング途中でAIが「アハ体験!」か言って自力で推論の間違いを修正とかしだしたのも、つまりプロセスを全然見てなかったのに自力で推論修正能力を獲得したのがすごいという話らしい。それでAI業界はみんな手のひらドリルしてDeepSeekの手法を一斉に真似し始めてる…という事らしい。この方がシンプルで手っ取り早いから、だから安くトレーニングできたってだけ。じゃあお次は大金かけて同じ事やったらもっとスケーリングするのでは?って話になるから、AIの伸びしろに期待が高まった →RT
https://fxtwitter.com/umiyuki_ai/status/1883511926686396714
掲示板管理者へ連絡
無料レンタル掲示板