したらばTOP ■掲示板に戻る■ 全部 1-100 最新50 | |
レス数が900を超えています。1000を超えると投稿できなくなるよ。

【ChatGPT】AIチャット総合 避難所【Gemini・Claude】

981名無しさん:2025/10/19(日) 00:43:34 ID:9CDSQN0U
436 ななしのAIさん 2025/10/18(土) 11:52:08.55 ID:tADfd1Wa0
- FrontierMath Tier 1-3に対するGPT-5の成績から、GPT-5を「無限回」実行できたと仮定して既存の結果を単純に外挿すると、正答率の上限は46-50%程度
- 他のモデルも含めた「pass@the-kitchen-sink」で複数モデル・複数回実行の結果をすべて集約すると、全体で57%
- このうちChatGPT Agentだけが、他のモデルが解けなかった問題を単独で多く解いた(ChatGPT AgentだけがWeb検索機能を持つため。FrontierMathではWeb検索を認めている)
- ChatGPT Agentの外挿推定では最終的な上限は56%未満と推定
- 他のモデル群のスケーリングを予測するのは難しいが、仮にChatGPT Agentと同程度と仮定すれば、全モデル総合の上限は70%程度
- しかし57%の一度でも解けた問題をより安定的に解く方向に進化するのか、まだ誰も解けていない新領域を切り開くのかは未知数

https://epoch.ai/gradient-updates/less-than-70-percent-of-frontiermath-is-within-reach-for-todays-models
https://chatgpt.com/share/68f30015-cbc4-8006-bba3-4c94650d01a2


新着レスの表示


名前: E-mail(省略可)

※書き込む際の注意事項はこちら

※画像アップローダーはこちら

(画像を表示できるのは「画像リンクのサムネイル表示」がオンの掲示板に限ります)

掲示板管理者へ連絡 無料レンタル掲示板