レス数が1スレッドの最大レス数(1000件)を超えています。残念ながら投稿することができません。
技術的特異点/シンギュラリティ【総合】避難所 37
-
2045年頃に人類は技術的特異点(Technological Singularity)を迎えると予測されている。
未来技術によって、どのような世界が構築されるのか?人類はどうなるのか?
などを様々な視点から多角的に考察し意見交換するスレッド
■技術的特異点:収穫加速の法則と半導体微細化の進歩曲線に基づいて予測された、
生物的制約から開放された知能[機械ベース or 拡張脳?]が生み出すとされる
具体的予測の困難な時代が到来する起点
■収穫加速の法則:一つの発見が新たな技術を生み出し、その技術が他の発明を生み出すという連鎖的な反応が、科学技術全体を進歩させるという仮説
★関連書籍・リンク・テンプレ集(必修)
https://singularity-2ch.memo.wiki/
★特異点アンケート
https://forms.gle/c6ZLjnheCEZftYgg9
※前スレ
技術的特異点/シンギュラリティ【総合】避難所 36
https://jbbs.shitaraba.net/bbs/read.cgi/study/13463/1750375557/
※不老技術の動向と医学関連はこちら
不老不死(不老長寿)を目指すスレ 避難所
https://jbbs.shitaraba.net/bbs/read.cgi/study/13463/1669450079/
次スレは>>950が立てること 立てられない場合は早急に他者に依頼するか951以後の者が早急に立てること
誰も次スレを立てずに議論に没頭して落としたり次スレにフライングレスしないこと
未来技術板のURLは書かないし、あちらから誘導もしないこと
-
建乙〜
-
シンギュラティサロンでポチョムキンやってるよ
-
>>1
乙蟻
-
Kimi K2の評判が良いな
-
中国勢は限られた資源なのによくやるねぇ
-
こう優秀なのが立て続けに出るとOpenAIはやりにくいだろうな
-
そういや今日GPT5のベンチマークがリークされてたけど本当かな
-
>>8
今朝気になってredditの特異点板見に行ったけどスレすら立ってなかったから眉唾かな
本当の情報ならあそこが見逃すはずないし
-
>>8
完全にフェイクだそうだ。
-
>>9
>>10
ありがとう
-
https://youtu.be/JZ5Wo4YlaOA?si=EHoSO9Wx78yLCeDR
-
>>10
あれくらいは出さないとOpenAI陥落でGrokが躍り出るぞ
-
シンギュラリテサロンのポチョムキンの回の松田先生の言葉「人間こそがポチョムキン理解だ!」でようやくモヤモヤしてたのが腑に落ちたわ
-
別にAIだけでなく人間もハルシネーションするんだよな
悪質な罵りとかまさにそれ
-
自己紹介乙
-
Kimiにはエージェントタスクの方を期待したいな
GPT-4.1超えの中国製AIモデル「Kimi K2」が無料公開される、複数のテストでGPT-4.1やClaude 4 Opusを打ち負かしエージェントタスクもこなす
https://x.com/gigazine/status/1944580187527536969
-
ハルシネーションしてる人たちだらけになったね
-
>>14
見てきた、良いこというな
-
>>14
そのチャンネル見たことないけどその発言だけで相当レベルが低いのわかるわ
論文まともに読んでなさそう
-
人間も所詮は統計的オウムだし、ポチョムキン理解しかしてないぞ
-
以下では,Marina Mancoridisらによる論文「Potemkin Understanding in Large Language Models」の主要内容をまとめ,その意義と今後の課題について解説します。
本論文は,大規模言語モデル(LLM)がベンチマーク試験で高得点を取っても,それが人間と同様の「理解」を示すとは限らないという問題提起を行っています。まず,人間の理解を測る試験(AP試験など)が成立するのは「人間の誤解パターンが予測可能で構造的に限られている」ためであると指摘します 。一方,LLMは人間とは異なる誤解パターンを持つため,ベンチマークの高得点は「Potemkin理解」――人間にはありえない誤解の痕跡を隠しつつ正解を返す“見せかけの理解”――を示すにすぎないと論じます 。そして,その存在を定量化するための二つの手法(専用ベンチマークと一般手続き)を提案し,様々なモデル・タスク・ドメインでPotemkinが「遍在」する実証結果を報告しています 。
1 背景と問題意識
1.1 ベンチマーク評価の解釈
近年,LLMはAP試験・数学競技・コーディングチャレンジなどのベンチマークで評価され,高得点は「概念理解の証拠」と見なされてきた 。
しかし,病理画像分類モデルがX線診断で高精度でも「視覚理解」とは呼ばれないように,ベンチマーク成功と「理解」は区別すべきではないかという問題提起があった 。
1.2 Potemkin理解の定義
“Potemkin villages”の比喩から,「Potemkin理解」とは,人間の誤解とは矛盾するパターンで正解を返すことで“見せかけ”の理解を作り出す現象を指す 。
具体例:GPT-4oがABAB韻律を「正しく説明」できても,自身のルールで文章を生成・評価できない事例が示される(図1) 。
2 理論的フレームワーク
2.1 人間の概念理解モデル
概念とはルールの集合とみなし,定義・生成・分類ができれば「理解」と見なせる 。
人間の誤解は構造化され稀であるため,少数の問題(Keystone)を正解すれば理解を推定できるという仮定を置く 。
2.2 LLMの誤解空間とのギャップ
LLMの誤解パターンが人間と異なれば,Keystone問題に正解しても真の理解を欠く。
定義 2.1:Keystone全問正解かつ真の解釈に沿わない場合を「Potemkin」と定義 。
3 Potemkin検出手法
3.1 専用ベンチマーク手法
文学技法・ゲーム理論・心理バイアスの三領域で,「説明能力」と「適用能力」を対比するデータセットを構築 。
例:ナッシュ均衡の定義説明は正解でも,具体的な戦略選択問題に誤答するケースを捉える。
3.2 一般推定手法
ドメイン非依存の手続きによりPotemkinの下限率を算出する。
モデル内部の不整合性(incoherence)を指標化し,高い頻度でPotemkinを検出。
4 実証結果
構築した専用ベンチマークにおいて,最新のLLM群はいずれのドメインでも説明‐適用ギャップを示し,Potemkinが「遍在」することを確認 。
自動評価手法でも,同様に高いPotemkin下限率を示し,単なる誤解ではなく概念表現の内部的不整合が原因であると分析 。
5 意義と今後の課題
ベンチマーク再設計の必要性:人間の誤解モデルを想定するだけでなく,LLM固有の誤解パターンをカバーする問題設計が求められる。
Potemkin低減手法の研究:生成‐検証ループ強化など,モデル内部の一貫性を高める技術開発が重要 。
評価指標の拡張:説明‐適用だけでなく,推論の過程や内部表現を可視化・評価する新指標の提案が期待される。
以上,Potemkin理解はLLMの評価における根本的な見直しを迫る概念であり,AI開発コミュニティに大きな示唆を与える研究です。
|
|
|
掲示板管理者へ連絡
無料レンタル掲示板