[
板情報
|
カテゴリランキング
]
したらばTOP
■掲示板に戻る■
全部
1-100
最新50
|
1-
101-
201-
301-
401-
501-
601-
701-
801-
901-
この機能を使うにはJavaScriptを有効にしてください
|
レス数が900を超えています。1000を超えると投稿できなくなるよ。
【ChatGPT】AIチャット総合 避難所【Gemini・Claude】
981
:
名無しさん
:2025/10/19(日) 00:43:34 ID:9CDSQN0U
436 ななしのAIさん 2025/10/18(土) 11:52:08.55 ID:tADfd1Wa0
- FrontierMath Tier 1-3に対するGPT-5の成績から、GPT-5を「無限回」実行できたと仮定して既存の結果を単純に外挿すると、正答率の上限は46-50%程度
- 他のモデルも含めた「pass@the-kitchen-sink」で複数モデル・複数回実行の結果をすべて集約すると、全体で57%
- このうちChatGPT Agentだけが、他のモデルが解けなかった問題を単独で多く解いた(ChatGPT AgentだけがWeb検索機能を持つため。FrontierMathではWeb検索を認めている)
- ChatGPT Agentの外挿推定では最終的な上限は56%未満と推定
- 他のモデル群のスケーリングを予測するのは難しいが、仮にChatGPT Agentと同程度と仮定すれば、全モデル総合の上限は70%程度
- しかし57%の一度でも解けた問題をより安定的に解く方向に進化するのか、まだ誰も解けていない新領域を切り開くのかは未知数
https://epoch.ai/gradient-updates/less-than-70-percent-of-frontiermath-is-within-reach-for-todays-models
https://chatgpt.com/share/68f30015-cbc4-8006-bba3-4c94650d01a2
新着レスの表示
名前:
E-mail
(省略可)
:
※書き込む際の注意事項は
こちら
※画像アップローダーは
こちら
(画像を表示できるのは「画像リンクのサムネイル表示」がオンの掲示板に限ります)
スマートフォン版
掲示板管理者へ連絡
無料レンタル掲示板