レス数が1スレッドの最大レス数(1000件)を超えています。残念ながら投稿することができません。
技術的特異点/シンギュラリティ【総合】避難所 34
-
Artificial Analysis@ArtificialAnlys
DeepseekのR1は、Xai、Meta、および人類を飛び越えて、世界の#2 AIラボおよび議論の余地のないオープンウェイトリーダーとして縛られています
Deepseek R1 0528は、人工分析インテリジェンスインデックスで60から68にジャンプしました。これは、すべての主要なモデルで独立して実行される7つの主要な評価のインデックスです。これは、OpenaiのO1とO3(62〜70)の違いと同じ大きさです。
これにより、Deepseek R1は、XaiのGrok 3 Mini(High)、NvidiaのLlama Nemotron Ultra、MetaのLlama 4 Maverick、AlibabaのQwen 3 253、GoogleのGemini 2.5 Proに等しいものよりも高いインテリジェンスを位置付けています。
モデルの改善の内訳:
インテリジェンスが全面的に増加します:AIME 2024(競技数学、+21ポイント)、LiveCodeBench(コード生成、+15ポイント)、GPQAダイヤモンド(科学的推論、+10ポイント)、人類の最後の試験(推論と知識、+6ポイント)で見られる最大のジャンプ
アーキテクチャへの変更なし:R1-0528は、V3/R1アーキテクチャに変更なしでトレーニング後の更新です - 37Bのアクティブパラメーターを備えた大きな671Bモデルのままです
コーディングスキルの大幅な飛躍:R1は現在、人工分析コーディングインデックスでGemini 2.5 Proを一致させており、O4-Mini(High)とO3のみの背後にあります
トークンの使用量の増加:R1-0528は、9,900万トークンを使用して、人工分析インテリジェンスインデックスのEVALSを完了しました。新しいR1は、元のR1よりも長く考えています。これはまだ見た最高のトークン使用数ではありません:Gemini 2.5 ProはR1-0528よりも30%多くのトークンを使用しています
AIのテイクアウト:
オープンモデルとクローズドモデルの間のギャップはこれまで以上に小さくなっています。オープンウェイトモデルは、独自のモデルとのインテリジェンスの利益を維持し続けています。 1月のDeepseekのR1リリースは、Open-Weightsモデルが#2ポジションを達成したのは初めてであり、DeepseekのR1アップデートは今日それを同じポジションに戻します
中国は米国と首と首のままです。中国に本拠を置くAIラボのモデルは、米国のカウンターパートに完全に追いついています。このリリースは、新たな傾向を継続しています。今日の時点で、Deepseekは人工分析インテリジェンスインデックスにおける人類やメタを含む米国ベースのAIラボをリードしています
強化学習によって駆動される改善:DeepSeekは、元のDeepSeek R1リリースと同じアーキテクチャとプレトレインを使用して、大幅なインテリジェンスの改善を示しています。これは、特に強化学習(RL)技術で訓練された推論モデルのために、トレーニング後の継続的な重要性を強調しています。 Openaiは、O1とO3の間のRL計算の10倍のスケーリングを開示しました-DeepSeekは、これまでのところ、OpenaiのRLコンピューティングスケーリングに追いつくことができることを実証しました。スケーリングRLは、トレーニング前のスケーリングよりも少ない計算を必要とし、GPUの少ないAIラボをサポートするインテリジェンスの利益を達成する効率的な方法を提供します
以下のさらに分析を参照してください
2025年05月29日 21:49
https://pbs.twimg.com/media/GsHhANtaUAE-N_C.jpg
https://x.com/ArtificialAnlys/status/1928071179115581671
|
|
|
掲示板管理者へ連絡
無料レンタル掲示板