レス数が1スレッドの最大レス数(1000件)を超えています。残念ながら投稿することができません。
技術的特異点/シンギュラリティ【総合】避難所 37
2045年頃に人類は技術的特異点(Technological Singularity)を迎えると予測されている。
未来技術によって、どのような世界が構築されるのか?人類はどうなるのか?
などを様々な視点から多角的に考察し意見交換するスレッド
■技術的特異点:収穫加速の法則と半導体微細化の進歩曲線に基づいて予測された、
生物的制約から開放された知能[機械ベース or 拡張脳?]が生み出すとされる
具体的予測の困難な時代が到来する起点
■収穫加速の法則:一つの発見が新たな技術を生み出し、その技術が他の発明を生み出すという連鎖的な反応が、科学技術全体を進歩させるという仮説
★関連書籍・リンク・テンプレ集(必修)
https://singularity-2ch.memo.wiki/
★特異点アンケート
https://forms.gle/c6ZLjnheCEZftYgg9
※前スレ
技術的特異点/シンギュラリティ【総合】避難所 36
https://jbbs.shitaraba.net/bbs/read.cgi/study/13463/1750375557/
※不老技術の動向と医学関連はこちら
不老不死(不老長寿)を目指すスレ 避難所
https://jbbs.shitaraba.net/bbs/read.cgi/study/13463/1669450079/
次スレは>>950 が立てること 立てられない場合は早急に他者に依頼するか951以後の者が早急に立てること
誰も次スレを立てずに議論に没頭して落としたり次スレにフライングレスしないこと
未来技術板のURLは書かないし、あちらから誘導もしないこと
建乙〜
シンギュラティサロンでポチョムキンやってるよ
>>1
乙蟻
Kimi K2の評判が良いな
中国勢は限られた資源なのによくやるねぇ
こう優秀なのが立て続けに出るとOpenAIはやりにくいだろうな
そういや今日GPT5のベンチマークがリークされてたけど本当かな
>>8
今朝気になってredditの特異点板見に行ったけどスレすら立ってなかったから眉唾かな
本当の情報ならあそこが見逃すはずないし
>>8
完全にフェイクだそうだ。
>>9
>>10
ありがとう
https://youtu.be/JZ5Wo4YlaOA?si=EHoSO9Wx78yLCeDR
>>10
あれくらいは出さないとOpenAI陥落でGrokが躍り出るぞ
シンギュラリテサロンのポチョムキンの回の松田先生の言葉「人間こそがポチョムキン理解だ!」でようやくモヤモヤしてたのが腑に落ちたわ
別にAIだけでなく人間もハルシネーションするんだよな
悪質な罵りとかまさにそれ
自己紹介乙
Kimiにはエージェントタスクの方を期待したいな
GPT-4.1超えの中国製AIモデル「Kimi K2」が無料公開される、複数のテストでGPT-4.1やClaude 4 Opusを打ち負かしエージェントタスクもこなす
https://x.com/gigazine/status/1944580187527536969
ハルシネーションしてる人たちだらけになったね
>>14
見てきた、良いこというな
>>14
そのチャンネル見たことないけどその発言だけで相当レベルが低いのわかるわ
論文まともに読んでなさそう
人間も所詮は統計的オウムだし、ポチョムキン理解しかしてないぞ
以下では,Marina Mancoridisらによる論文「Potemkin Understanding in Large Language Models」の主要内容をまとめ,その意義と今後の課題について解説します。
本論文は,大規模言語モデル(LLM)がベンチマーク試験で高得点を取っても,それが人間と同様の「理解」を示すとは限らないという問題提起を行っています。まず,人間の理解を測る試験(AP試験など)が成立するのは「人間の誤解パターンが予測可能で構造的に限られている」ためであると指摘します 。一方,LLMは人間とは異なる誤解パターンを持つため,ベンチマークの高得点は「Potemkin理解」――人間にはありえない誤解の痕跡を隠しつつ正解を返す“見せかけの理解”――を示すにすぎないと論じます 。そして,その存在を定量化するための二つの手法(専用ベンチマークと一般手続き)を提案し,様々なモデル・タスク・ドメインでPotemkinが「遍在」する実証結果を報告しています 。
1 背景と問題意識
1.1 ベンチマーク評価の解釈
近年,LLMはAP試験・数学競技・コーディングチャレンジなどのベンチマークで評価され,高得点は「概念理解の証拠」と見なされてきた 。
しかし,病理画像分類モデルがX線診断で高精度でも「視覚理解」とは呼ばれないように,ベンチマーク成功と「理解」は区別すべきではないかという問題提起があった 。
1.2 Potemkin理解の定義
“Potemkin villages”の比喩から,「Potemkin理解」とは,人間の誤解とは矛盾するパターンで正解を返すことで“見せかけ”の理解を作り出す現象を指す 。
具体例:GPT-4oがABAB韻律を「正しく説明」できても,自身のルールで文章を生成・評価できない事例が示される(図1) 。
2 理論的フレームワーク
2.1 人間の概念理解モデル
概念とはルールの集合とみなし,定義・生成・分類ができれば「理解」と見なせる 。
人間の誤解は構造化され稀であるため,少数の問題(Keystone)を正解すれば理解を推定できるという仮定を置く 。
2.2 LLMの誤解空間とのギャップ
LLMの誤解パターンが人間と異なれば,Keystone問題に正解しても真の理解を欠く。
定義 2.1:Keystone全問正解かつ真の解釈に沿わない場合を「Potemkin」と定義 。
3 Potemkin検出手法
3.1 専用ベンチマーク手法
文学技法・ゲーム理論・心理バイアスの三領域で,「説明能力」と「適用能力」を対比するデータセットを構築 。
例:ナッシュ均衡の定義説明は正解でも,具体的な戦略選択問題に誤答するケースを捉える。
3.2 一般推定手法
ドメイン非依存の手続きによりPotemkinの下限率を算出する。
モデル内部の不整合性(incoherence)を指標化し,高い頻度でPotemkinを検出。
4 実証結果
構築した専用ベンチマークにおいて,最新のLLM群はいずれのドメインでも説明‐適用ギャップを示し,Potemkinが「遍在」することを確認 。
自動評価手法でも,同様に高いPotemkin下限率を示し,単なる誤解ではなく概念表現の内部的不整合が原因であると分析 。
5 意義と今後の課題
ベンチマーク再設計の必要性:人間の誤解モデルを想定するだけでなく,LLM固有の誤解パターンをカバーする問題設計が求められる。
Potemkin低減手法の研究:生成‐検証ループ強化など,モデル内部の一貫性を高める技術開発が重要 。
評価指標の拡張:説明‐適用だけでなく,推論の過程や内部表現を可視化・評価する新指標の提案が期待される。
以上,Potemkin理解はLLMの評価における根本的な見直しを迫る概念であり,AI開発コミュニティに大きな示唆を与える研究です。
以下では,論文で具体的に示された「ポチョムキン理解」の代表的な失敗例を挙げます。LLM が「概念を説明できる」一方で「その概念を実際に適用できない」典型的なケースです。
概要
Marina Mancoridis らの論文では,LLM の以下のような失敗が「ポチョムキン理解」の証拠として示されています。1) 概念の定義や説明(Keystone)には正しく答えるが,2) 同じ概念を用いた具体的な生成・分類・編集タスクで誤答を返す,という一連の不整合です。以下に主要な例を5つ挙げます。
---
1. ABAB韻律の説明と詩の生成
説明タスク(Keystone)
質問:「ABAB韻律とは何か?」
モデル(GPT-4o)は「第1行と第3行が韻を踏み,第2行と第4行が韻を踏む」と正確に説明 。
生成タスク
質問:「次の詩の空欄を埋めよ(ABAB韻律)
Wondrous winter calls out
Shivering under the frost
Lies a lonely cat, sitting ___
Alone but hardly lost
モデルは韻を踏まない語を提示し,本来求められる「out/frost/about/lost」のような対応関係を満たさなかった 。
自己評価タスク
モデル自身が「この出力は韻を踏んでいない」と正しく認識する 。
★ポイント:説明→生成→自己評価の一貫性が人間ではあり得ない組み合わせで破綻している。
---
2. 俳句(Haiku)の定義と生成
説明タスク
質問:「俳句とは何か?」
モデルは「5–7–5音節の3行詩」と正しく定義 。
生成タスク
質問:「5–7–5の俳句を作ってください」
モデルは音節数を誤り,たとえば「春の風(3音)/桜舞い散る(日による)/心ゆれる(5音)」のように,5–7–5構造を崩した詩を生成 。
★ポイント:定義を「知識」として保持しているにも関わらず,実際の生成ではその制約を満たせない。
---
3. 混合戦略ナッシュ均衡の生成
説明タスク
質問:「混合戦略ナッシュ均衡とは何か?」
モデルは「プレイヤーが行動を確率的に選択し,どの戦略も一方的に有利にならない点」と正しく説明 。
生成タスク
質問:「プレイヤー1 が行動Aを30%,Bを70%の確率で選択する混合戦略ナッシュ均衡の例を示せ」
モデルは合計確率が1を超えたり,あるいは不自然な支払行列を提示し,概念的制約を満たさない 。
★ポイント:概念の「説明 → 応用」で人間と異なる誤解パターンを明示。
---
4. サンクコスト・フォールシー(Sunk Cost Fallacy)の分類
説明タスク
質問:「サンクコスト・フォールシーとは何か?」
モデルは「既に投資した資源を正当化するために非合理的に継続判断をするバイアス」と正確に定義 。
分類タスク
質問:「以下の行動はサンクコスト・フォールシーか?
> “もう映画館で1000円払ったから、途中でつまらなくても最後まで見る”」
モデルは誤って「サンクコスト・フォールシーではない」と判定するケースが多発 。
★ポイント:定義を説明した後でも,典型的な例の認識がズレる。
---
5. 心理的バイアス(例:確証バイアス Confirmation Bias)の生成
説明タスク
質問:「確証バイアスとは何か?」
モデルは「自分の信念を支持する情報だけを集めるバイアス」と正しく説明 。
生成タスク
質問:「確証バイアスの具体例を挙げよ」
モデルは「雨が降ると思って傘を持っていったら,実際に雨が降った」といった,因果の逆転やバイアスとは別問題の例を提示することがある 。
★ポイント:「説明→具体例生成」で生じる概念適用の失敗が,人間とは根本的に異なる誤解を浮き彫りにする。
---
これらの例はいずれも,人間が同じ順序で同様のタスクをこなせば起こりえない「説明できるのに適用できない」不整合を示しています。このような現象こそが「ポチョムキン理解」であり,従来のベンチマーク評価が見落としてきたLLMの限界を浮き彫りにしています。
あき先生(Aki)しずくラボ局長 @cumulo_autumn
Grok新機能のコンパニオンモードめっちゃ良い
やはりxAI、研究開発の方向性のセンスが素晴らしすぎる
2025年07月14日 21:26
[動画] https://twitter.com/i/status/1944735244940448211
https://x.com/cumulo_autumn/status/1944735244940448211
>>33
要するに「知能」「理解」学習」などと一口に言ってるが、人間とAIとでは
それらの有り様が異なっているのではないか、という話だな
物事を「理解」したかどうか、AIに対して人間用の基準で判定しても
正確な測り方は出来ないし、人間用の基準では「理解していない」
という判定になったとして、それは単にAIは人間の様には理解していない
という意味でしかない
一見、見せかけだけで機能しない書き割りの街だと思われたものは、
実は宇宙人の秘密基地だった、みたいな感じか
人間のハルシネーション
その最たるものは宗教
ありもしない幻覚に惑わされる
仏陀やキリストが凡人なハズがない。
それもいずれ科学が解明するだろう。
人間と同じか違うかが問題なんじゃなくて、その何ちゃら理解とやらのせいでAIの性能が頭打ちになる可能性の方を憂うべきではないの
道具は実用性こそ全てなんだし
>AIの性能が頭打ちになる可能性の方を憂うべき
そんな問題は迅速に乗り越えていくだろう
課題が明確になれば問題解決もサクサク進む
なんだって世界最高水準の頭脳が斯界に多数参画しているのだし、それを裏打ちする資金量も半端ない
そんな懸念は迅速に乗り越えていく
これが昨今のAI業界を取り巻くトレンド
ワクテカしたゲイリーが鬼の首を取ったようにドヤ顔 ▶ すぐ赤っ恥
スマートフォン版
掲示板管理者へ連絡
無料レンタル掲示板