したらばTOP ■掲示板に戻る■ 全部 1-100 最新50 | |

【ChatGPT】AIチャット総合 避難所【Gemini・Claude】

839名無しさん:2025/09/26(金) 14:30:05 ID:DLy6O1Ak
152 ななしのAIさん 2025/09/26(金) 01:55:35.06 ID:aGxO2t8e0
OpenAIから、AIモデルの進歩を現実の経済的に価値あるタスクで測るための新しい評価指標 GDPval
Measuring the performance of our models on real-world tasks
https://openai.com/index/gdpval/
https://chatgpt.com/share/68d57257-188c-8006-b875-237926ae7475

学術試験型(例:MMLU、GPQA)や狭い領域の競技型(例:SWE系)では捉えきれない、現場の“成果物”品質を評価対象とする

結果
Claude Opus 4.1:美的品質(体裁・レイアウト)で優勢
GPT-5:正確性(指示遵守・計算正確性)で優勢
GPT-4o(2024春)→GPT-5(2025夏)でほぼ線形に向上
勝率(勝ち+引き分け)は、人間対比で約47.6%

失敗様式(クラスター分析)
Claude/Grok/Geminiは指示不遵守や参照無視/形式不一致が主要因
GPT-5は体裁・書式のミスが目立つ一方、指示不遵守は少ない。正確性エラーは少数


新着レスの表示


名前: E-mail(省略可)

※書き込む際の注意事項はこちら

※画像アップローダーはこちら

(画像を表示できるのは「画像リンクのサムネイル表示」がオンの掲示板に限ります)

掲示板管理者へ連絡 無料レンタル掲示板