したらばTOP ■掲示板に戻る■ 全部 1-100 最新50 | |

【ChatGPT】AIチャット総合 避難所【Gemini・Claude】

284名無しさん:2025/07/19(土) 23:17:12 ID:rVDLu1.g
IMO 2025での現状のフロンティアモデルの評価(MathArenaによる)
> 最高得点は Gemini 2.5 Pro の 13/42 点(31 %) で、銅メダルに必要な 19 点には届かず。他モデルはさらに低得点で、いずれもメダル水準には達しませんでした。
> best-of-32 による選別が不可欠で、未選別の解答群では想定スコアが 10 % 未満に落ち込むと推定されています。
> 大量サンプリングと自己審査を駆使しても、現行 LLM は IMO レベルではまだ「銅メダルの壁」を越えられていません。論理飛躍の削減や証明構造の整合性向上が、今後の性能向上に向けた鍵といえます。
https://chatgpt.com/s/t_687ba8256b6c8191a725e616cea45c6c
https://chatgpt.com/share/687ba812-e604-8006-96e7-c0b6c8435119


新着レスの表示


名前: E-mail(省略可)

※書き込む際の注意事項はこちら

※画像アップローダーはこちら

(画像を表示できるのは「画像リンクのサムネイル表示」がオンの掲示板に限ります)

掲示板管理者へ連絡 無料レンタル掲示板