したらばTOP ■掲示板に戻る■ 全部 1-100 最新50 | |
レス数が1スレッドの最大レス数(1000件)を超えています。残念ながら投稿することができません。

技術的特異点/シンギュラリティ【総合】避難所 37

34名無しさん (スプー 2556-87b6):2025/07/15(火) 05:16:50 ID:gQ6OcpRwSd
以下では,論文で具体的に示された「ポチョムキン理解」の代表的な失敗例を挙げます。LLM が「概念を説明できる」一方で「その概念を実際に適用できない」典型的なケースです。

概要
Marina Mancoridis らの論文では,LLM の以下のような失敗が「ポチョムキン理解」の証拠として示されています。1) 概念の定義や説明(Keystone)には正しく答えるが,2) 同じ概念を用いた具体的な生成・分類・編集タスクで誤答を返す,という一連の不整合です。以下に主要な例を5つ挙げます。

---

1. ABAB韻律の説明と詩の生成
説明タスク(Keystone)
質問:「ABAB韻律とは何か?」
モデル(GPT-4o)は「第1行と第3行が韻を踏み,第2行と第4行が韻を踏む」と正確に説明 。

生成タスク
質問:「次の詩の空欄を埋めよ(ABAB韻律)
Wondrous winter calls out
Shivering under the frost
Lies a lonely cat, sitting ___
Alone but hardly lost
モデルは韻を踏まない語を提示し,本来求められる「out/frost/about/lost」のような対応関係を満たさなかった 。

自己評価タスク
モデル自身が「この出力は韻を踏んでいない」と正しく認識する 。
★ポイント:説明→生成→自己評価の一貫性が人間ではあり得ない組み合わせで破綻している。

---

2. 俳句(Haiku)の定義と生成
説明タスク
質問:「俳句とは何か?」
モデルは「5–7–5音節の3行詩」と正しく定義 。

生成タスク
質問:「5–7–5の俳句を作ってください」
モデルは音節数を誤り,たとえば「春の風(3音)/桜舞い散る(日による)/心ゆれる(5音)」のように,5–7–5構造を崩した詩を生成 。

★ポイント:定義を「知識」として保持しているにも関わらず,実際の生成ではその制約を満たせない。

---

3. 混合戦略ナッシュ均衡の生成
説明タスク
質問:「混合戦略ナッシュ均衡とは何か?」
モデルは「プレイヤーが行動を確率的に選択し,どの戦略も一方的に有利にならない点」と正しく説明 。

生成タスク
質問:「プレイヤー1 が行動Aを30%,Bを70%の確率で選択する混合戦略ナッシュ均衡の例を示せ」
モデルは合計確率が1を超えたり,あるいは不自然な支払行列を提示し,概念的制約を満たさない 。
★ポイント:概念の「説明 → 応用」で人間と異なる誤解パターンを明示。
---

4. サンクコスト・フォールシー(Sunk Cost Fallacy)の分類
説明タスク
質問:「サンクコスト・フォールシーとは何か?」
モデルは「既に投資した資源を正当化するために非合理的に継続判断をするバイアス」と正確に定義 。

分類タスク
質問:「以下の行動はサンクコスト・フォールシーか?
> “もう映画館で1000円払ったから、途中でつまらなくても最後まで見る”」
モデルは誤って「サンクコスト・フォールシーではない」と判定するケースが多発 。

★ポイント:定義を説明した後でも,典型的な例の認識がズレる。

---

5. 心理的バイアス(例:確証バイアス Confirmation Bias)の生成
説明タスク
質問:「確証バイアスとは何か?」
モデルは「自分の信念を支持する情報だけを集めるバイアス」と正しく説明 。

生成タスク
質問:「確証バイアスの具体例を挙げよ」
モデルは「雨が降ると思って傘を持っていったら,実際に雨が降った」といった,因果の逆転やバイアスとは別問題の例を提示することがある 。

★ポイント:「説明→具体例生成」で生じる概念適用の失敗が,人間とは根本的に異なる誤解を浮き彫りにする。

---

これらの例はいずれも,人間が同じ順序で同様のタスクをこなせば起こりえない「説明できるのに適用できない」不整合を示しています。このような現象こそが「ポチョムキン理解」であり,従来のベンチマーク評価が見落としてきたLLMの限界を浮き彫りにしています。




掲示板管理者へ連絡 無料レンタル掲示板