レス数が900を超えています。1000を超えると投稿できなくなるよ。

【ChatGPT】AIチャット総合避難所【Gemini・Claude】

839：名無しさん：2025/09/26(金) 14:30:05 ID:DLy6O1Ak: 152 ななしのAIさん 2025/09/26(金) 01:55:35.06 ID:aGxO2t8e0
OpenAIから、AIモデルの進歩を現実の経済的に価値あるタスクで測るための新しい評価指標 GDPval
Measuring the performance of our models on real-world tasks
https://openai.com/index/gdpval/
https://chatgpt.com/share/68d57257-188c-8006-b875-237926ae7475

学術試験型（例：MMLU、GPQA）や狭い領域の競技型（例：SWE系）では捉えきれない、現場の“成果物”品質を評価対象とする

結果
Claude Opus 4.1：美的品質（体裁・レイアウト）で優勢
GPT-5：正確性（指示遵守・計算正確性）で優勢
GPT-4o（2024春）→GPT-5（2025夏）でほぼ線形に向上
勝率（勝ち＋引き分け）は、人間対比で約47.6%

失敗様式（クラスター分析）
Claude/Grok/Geminiは指示不遵守や参照無視／形式不一致が主要因
GPT-5は体裁・書式のミスが目立つ一方、指示不遵守は少ない。正確性エラーは少数

新着レスの表示

※書き込む際の注意事項はこちら

※画像アップローダーはこちら

（画像を表示できるのは「画像リンクのサムネイル表示」がオンの掲示板に限ります）

掲示板管理者へ連絡無料レンタル掲示板