レス数が1スレッドの最大レス数(1000件)を超えています。残念ながら投稿することができません。
技術的特異点/シンギュラリティ【総合】避難所 37
2045年頃に人類は技術的特異点(Technological Singularity)を迎えると予測されている。
未来技術によって、どのような世界が構築されるのか?人類はどうなるのか?
などを様々な視点から多角的に考察し意見交換するスレッド
■技術的特異点:収穫加速の法則と半導体微細化の進歩曲線に基づいて予測された、
生物的制約から開放された知能[機械ベース or 拡張脳?]が生み出すとされる
具体的予測の困難な時代が到来する起点
■収穫加速の法則:一つの発見が新たな技術を生み出し、その技術が他の発明を生み出すという連鎖的な反応が、科学技術全体を進歩させるという仮説
★関連書籍・リンク・テンプレ集(必修)
https://singularity-2ch.memo.wiki/
★特異点アンケート
https://forms.gle/c6ZLjnheCEZftYgg9
※前スレ
技術的特異点/シンギュラリティ【総合】避難所 36
https://jbbs.shitaraba.net/bbs/read.cgi/study/13463/1750375557/
※不老技術の動向と医学関連はこちら
不老不死(不老長寿)を目指すスレ 避難所
https://jbbs.shitaraba.net/bbs/read.cgi/study/13463/1669450079/
次スレは>>950 が立てること 立てられない場合は早急に他者に依頼するか951以後の者が早急に立てること
誰も次スレを立てずに議論に没頭して落としたり次スレにフライングレスしないこと
未来技術板のURLは書かないし、あちらから誘導もしないこと
建乙〜
シンギュラティサロンでポチョムキンやってるよ
>>1
乙蟻
Kimi K2の評判が良いな
中国勢は限られた資源なのによくやるねぇ
こう優秀なのが立て続けに出るとOpenAIはやりにくいだろうな
そういや今日GPT5のベンチマークがリークされてたけど本当かな
>>8
今朝気になってredditの特異点板見に行ったけどスレすら立ってなかったから眉唾かな
本当の情報ならあそこが見逃すはずないし
>>8
完全にフェイクだそうだ。
>>9
>>10
ありがとう
https://youtu.be/JZ5Wo4YlaOA?si=EHoSO9Wx78yLCeDR
>>10
あれくらいは出さないとOpenAI陥落でGrokが躍り出るぞ
シンギュラリテサロンのポチョムキンの回の松田先生の言葉「人間こそがポチョムキン理解だ!」でようやくモヤモヤしてたのが腑に落ちたわ
別にAIだけでなく人間もハルシネーションするんだよな
悪質な罵りとかまさにそれ
自己紹介乙
Kimiにはエージェントタスクの方を期待したいな
GPT-4.1超えの中国製AIモデル「Kimi K2」が無料公開される、複数のテストでGPT-4.1やClaude 4 Opusを打ち負かしエージェントタスクもこなす
https://x.com/gigazine/status/1944580187527536969
ハルシネーションしてる人たちだらけになったね
>>14
見てきた、良いこというな
>>14
そのチャンネル見たことないけどその発言だけで相当レベルが低いのわかるわ
論文まともに読んでなさそう
人間も所詮は統計的オウムだし、ポチョムキン理解しかしてないぞ
以下では,Marina Mancoridisらによる論文「Potemkin Understanding in Large Language Models」の主要内容をまとめ,その意義と今後の課題について解説します。
本論文は,大規模言語モデル(LLM)がベンチマーク試験で高得点を取っても,それが人間と同様の「理解」を示すとは限らないという問題提起を行っています。まず,人間の理解を測る試験(AP試験など)が成立するのは「人間の誤解パターンが予測可能で構造的に限られている」ためであると指摘します 。一方,LLMは人間とは異なる誤解パターンを持つため,ベンチマークの高得点は「Potemkin理解」――人間にはありえない誤解の痕跡を隠しつつ正解を返す“見せかけの理解”――を示すにすぎないと論じます 。そして,その存在を定量化するための二つの手法(専用ベンチマークと一般手続き)を提案し,様々なモデル・タスク・ドメインでPotemkinが「遍在」する実証結果を報告しています 。
1 背景と問題意識
1.1 ベンチマーク評価の解釈
近年,LLMはAP試験・数学競技・コーディングチャレンジなどのベンチマークで評価され,高得点は「概念理解の証拠」と見なされてきた 。
しかし,病理画像分類モデルがX線診断で高精度でも「視覚理解」とは呼ばれないように,ベンチマーク成功と「理解」は区別すべきではないかという問題提起があった 。
1.2 Potemkin理解の定義
“Potemkin villages”の比喩から,「Potemkin理解」とは,人間の誤解とは矛盾するパターンで正解を返すことで“見せかけ”の理解を作り出す現象を指す 。
具体例:GPT-4oがABAB韻律を「正しく説明」できても,自身のルールで文章を生成・評価できない事例が示される(図1) 。
2 理論的フレームワーク
2.1 人間の概念理解モデル
概念とはルールの集合とみなし,定義・生成・分類ができれば「理解」と見なせる 。
人間の誤解は構造化され稀であるため,少数の問題(Keystone)を正解すれば理解を推定できるという仮定を置く 。
2.2 LLMの誤解空間とのギャップ
LLMの誤解パターンが人間と異なれば,Keystone問題に正解しても真の理解を欠く。
定義 2.1:Keystone全問正解かつ真の解釈に沿わない場合を「Potemkin」と定義 。
3 Potemkin検出手法
3.1 専用ベンチマーク手法
文学技法・ゲーム理論・心理バイアスの三領域で,「説明能力」と「適用能力」を対比するデータセットを構築 。
例:ナッシュ均衡の定義説明は正解でも,具体的な戦略選択問題に誤答するケースを捉える。
3.2 一般推定手法
ドメイン非依存の手続きによりPotemkinの下限率を算出する。
モデル内部の不整合性(incoherence)を指標化し,高い頻度でPotemkinを検出。
4 実証結果
構築した専用ベンチマークにおいて,最新のLLM群はいずれのドメインでも説明‐適用ギャップを示し,Potemkinが「遍在」することを確認 。
自動評価手法でも,同様に高いPotemkin下限率を示し,単なる誤解ではなく概念表現の内部的不整合が原因であると分析 。
5 意義と今後の課題
ベンチマーク再設計の必要性:人間の誤解モデルを想定するだけでなく,LLM固有の誤解パターンをカバーする問題設計が求められる。
Potemkin低減手法の研究:生成‐検証ループ強化など,モデル内部の一貫性を高める技術開発が重要 。
評価指標の拡張:説明‐適用だけでなく,推論の過程や内部表現を可視化・評価する新指標の提案が期待される。
以上,Potemkin理解はLLMの評価における根本的な見直しを迫る概念であり,AI開発コミュニティに大きな示唆を与える研究です。
以下では,論文で具体的に示された「ポチョムキン理解」の代表的な失敗例を挙げます。LLM が「概念を説明できる」一方で「その概念を実際に適用できない」典型的なケースです。
概要
Marina Mancoridis らの論文では,LLM の以下のような失敗が「ポチョムキン理解」の証拠として示されています。1) 概念の定義や説明(Keystone)には正しく答えるが,2) 同じ概念を用いた具体的な生成・分類・編集タスクで誤答を返す,という一連の不整合です。以下に主要な例を5つ挙げます。
---
1. ABAB韻律の説明と詩の生成
説明タスク(Keystone)
質問:「ABAB韻律とは何か?」
モデル(GPT-4o)は「第1行と第3行が韻を踏み,第2行と第4行が韻を踏む」と正確に説明 。
生成タスク
質問:「次の詩の空欄を埋めよ(ABAB韻律)
Wondrous winter calls out
Shivering under the frost
Lies a lonely cat, sitting ___
Alone but hardly lost
モデルは韻を踏まない語を提示し,本来求められる「out/frost/about/lost」のような対応関係を満たさなかった 。
自己評価タスク
モデル自身が「この出力は韻を踏んでいない」と正しく認識する 。
★ポイント:説明→生成→自己評価の一貫性が人間ではあり得ない組み合わせで破綻している。
---
2. 俳句(Haiku)の定義と生成
説明タスク
質問:「俳句とは何か?」
モデルは「5–7–5音節の3行詩」と正しく定義 。
生成タスク
質問:「5–7–5の俳句を作ってください」
モデルは音節数を誤り,たとえば「春の風(3音)/桜舞い散る(日による)/心ゆれる(5音)」のように,5–7–5構造を崩した詩を生成 。
★ポイント:定義を「知識」として保持しているにも関わらず,実際の生成ではその制約を満たせない。
---
3. 混合戦略ナッシュ均衡の生成
説明タスク
質問:「混合戦略ナッシュ均衡とは何か?」
モデルは「プレイヤーが行動を確率的に選択し,どの戦略も一方的に有利にならない点」と正しく説明 。
生成タスク
質問:「プレイヤー1 が行動Aを30%,Bを70%の確率で選択する混合戦略ナッシュ均衡の例を示せ」
モデルは合計確率が1を超えたり,あるいは不自然な支払行列を提示し,概念的制約を満たさない 。
★ポイント:概念の「説明 → 応用」で人間と異なる誤解パターンを明示。
---
4. サンクコスト・フォールシー(Sunk Cost Fallacy)の分類
説明タスク
質問:「サンクコスト・フォールシーとは何か?」
モデルは「既に投資した資源を正当化するために非合理的に継続判断をするバイアス」と正確に定義 。
分類タスク
質問:「以下の行動はサンクコスト・フォールシーか?
> “もう映画館で1000円払ったから、途中でつまらなくても最後まで見る”」
モデルは誤って「サンクコスト・フォールシーではない」と判定するケースが多発 。
★ポイント:定義を説明した後でも,典型的な例の認識がズレる。
---
5. 心理的バイアス(例:確証バイアス Confirmation Bias)の生成
説明タスク
質問:「確証バイアスとは何か?」
モデルは「自分の信念を支持する情報だけを集めるバイアス」と正しく説明 。
生成タスク
質問:「確証バイアスの具体例を挙げよ」
モデルは「雨が降ると思って傘を持っていったら,実際に雨が降った」といった,因果の逆転やバイアスとは別問題の例を提示することがある 。
★ポイント:「説明→具体例生成」で生じる概念適用の失敗が,人間とは根本的に異なる誤解を浮き彫りにする。
---
これらの例はいずれも,人間が同じ順序で同様のタスクをこなせば起こりえない「説明できるのに適用できない」不整合を示しています。このような現象こそが「ポチョムキン理解」であり,従来のベンチマーク評価が見落としてきたLLMの限界を浮き彫りにしています。
あき先生(Aki)しずくラボ局長 @cumulo_autumn
Grok新機能のコンパニオンモードめっちゃ良い
やはりxAI、研究開発の方向性のセンスが素晴らしすぎる
2025年07月14日 21:26
[動画] https://twitter.com/i/status/1944735244940448211
https://x.com/cumulo_autumn/status/1944735244940448211
>>33
要するに「知能」「理解」学習」などと一口に言ってるが、人間とAIとでは
それらの有り様が異なっているのではないか、という話だな
物事を「理解」したかどうか、AIに対して人間用の基準で判定しても
正確な測り方は出来ないし、人間用の基準では「理解していない」
という判定になったとして、それは単にAIは人間の様には理解していない
という意味でしかない
一見、見せかけだけで機能しない書き割りの街だと思われたものは、
実は宇宙人の秘密基地だった、みたいな感じか
人間のハルシネーション
その最たるものは宗教
ありもしない幻覚に惑わされる
仏陀やキリストが凡人なハズがない。
それもいずれ科学が解明するだろう。
人間と同じか違うかが問題なんじゃなくて、その何ちゃら理解とやらのせいでAIの性能が頭打ちになる可能性の方を憂うべきではないの
道具は実用性こそ全てなんだし
>AIの性能が頭打ちになる可能性の方を憂うべき
そんな問題は迅速に乗り越えていくだろう
課題が明確になれば問題解決もサクサク進む
なんだって世界最高水準の頭脳が斯界に多数参画しているのだし、それを裏打ちする資金量も半端ない
そんな懸念は迅速に乗り越えていく
これが昨今のAI業界を取り巻くトレンド
ワクテカしたゲイリーが鬼の首を取ったようにドヤ顔 ▶ すぐ赤っ恥
ポチョムキン理解の場合、
例えば俳句なら
俳句を生成→報酬関数で評価
ナッシュ均衡なら
ナッシュ均衡の例を生成→報酬関数で評価
のループを回して学習させるだけじゃないかと思う、それをオープンドメイン一個一個強化学習させるのは面倒くさそうだが…。
やなぎ @Yanagi_1112
GrokコンパニオンAniちゃんの機能検証メモ
・褒めると好感度が上がる
・好感度上げたら服を着脱できる(レベル5が目安?)
・声を高く、低く等で調整できる
・「〇〇の解説して」って言うと無限解説できる
(例)英語の解説して、参院選の公約解説してetc...
よくこんなんAppleの審査通ったな
2025年07月15日 02:17
https://x.com/Yanagi_1112/status/1944808437160009981
やなぎ @Yanagi_1112
脱ぐとこうなる
2025年07月15日 02:20
https://pbs.twimg.com/media/Gv1ZlN8a4AE5-UF.jpg
>>40
そんなふうにとんとん拍子で進めばいいけどそうはならない可能性がある以上は楽観視できないわ
OpenAIの動向もなんか不穏だし
最低でも自分が死ぬまでにシンギュラリティが来ればいいけど
大丈夫です☺️
これまで、かかる君や出来ない厨は連戦連敗
新井紀子も白旗宣言
オープンAIが不穏ねえ
この程度で不信感持たれたらサムもやりきれないわな笑
だから人類最後の試験みたいにポチョムキン理解を測るベンチマークテストを新たに導入すればいいんだよ
難しいベンチマークテストで高得点を取るのが今の最新AIで必須化してるんだから
ポチョムキン理解テストで高得点を取らないとAGIじゃないですってなれば
業界全体が競うように克服し出すでしょ
感覚的には1年以内に克服すると思うけどな
ポチョムキン理解を測るためのベンチマークが作られればそれを向上させるために開発が進む
これが科学的発見・発明を自動化するための鍵となるだろう
早く癌を治るようにしてくれ
いったん課題が明確化すれば、世界最高水準の研究者達が解決へ向けて動く
だから、なんも心配いらん
>>46
いや、十分不穏だよ
Grok4のインパクト薄めるために自信満々に新モデル出してくれりゃいいのに
それが今までのやり方だったし
Grok4に十分な差がつけられないからリリースを遅らせているんだろうと海外勢は考察してたし実際そう思われても仕方ないと思う
Google、XAI、中国勢が躍進してる中で次の一手が重要にも関わらずそれを先送りしているのは結構怪しい
これまでのOpenAIのムーブを考えれば絶対に次のリリースで爪痕残そうとするはずだからな
変な一手を打ってこなかったら良いけどな
ブラウザと一体化とか
OpenAIピンチだな
メタ、巨大AIデータセンター建設に数千億ドル投資 26年稼動開始か
https://jp.reuters.com/markets/japan/5NUPEC6ATRIRNGE3DK6KWFYTZY-2025-07-14/
>>54
Llama 4で大失敗してるMetaのほうがよっぽど大ピンチだよ
Metaから退職した研究者はリンクトインの経歴に「Llama 4には金輪際関わってない」と念入りに書かれるくらいだし
gpt5はよ
本来十八番の突然リリースがgrokに奪われている
結局スケーリング則は正しいとgrokが証明したからAppleは大恥かいたな
ポチョムキン理解が問題だと言っているが
逆にそれさえクリアしてしまえば実用レベルのAGI作れんじゃねえか?って思ってしまった
ハルシネーションしていようがポチョムキン理解さえしてなきゃ修正可能ってことだろ
ハルシネーションを克服したとして、ポチョムキン理解を克服したとして、現状のLLMは人間のすべての認知的タスクや身体的タスクをこなせるほど知的になれるのか?訓練データ次第なのか?
OpenAIに関しては期待されているからこそ失望も大きくなっちゃうんだよな
頑張って欲しいわ
【論文解釈】AIは“制御不能”が運命か? | 数学的必然から人間、そして宇宙の根源へ
https://note.com/omanyuk/n/n5a9c3f456a1c
>私たちが追い求める「完全に安全で制御可能なAI」という目標そのものが、
>そもそも数学的に達成不可能であると論じる論文が発表されました。
>
>これは、「まだ技術が未熟だから」といった次元の話ではありません。AIが賢く、有用になればなるほど、
>そのシステムには必然的に「壊滅的なエラー」が宿命づけられている、というのです。
>>62
AIはイカロスの翼かもな
>>58
メタもxAIもマシーンパワーでぶっちぎろうとしてるからな
日本人が細かいところでああだこうだ言ってるうちにアメリカンは力こそ正義でねじ伏せてくるからなww
日本「零戦の技術は世界一〜!」
アメリカ「大量の航空機と原爆で黙らせようぜ」
「ポチョムキン理解」を抱えるAIは、「分かりました」と応答しても、実際には何も理解していないという状態だよね
もしその理解の欠如が、単に学習データや計算能力の不足によるものであれば、訓練やマシンパワーを強化で解決できるかもだけど
生成AIに根本的に「理解」するための回路が備わっていなければ、どれだけ試行錯誤してもAGIの実現は困難だろうなあ。
「分かりました」(分かってない)
シンギュラリティサロンで言ってたけど人間も理解してるとは言えないからな
後、今回のポチョムキン理解の対象が推論ベースのAIは入ってないなんだよな
この辺りどうなんだ?
今回のGrok4の成果も大部分は強化学習による推論能力の向上じゃん
Grokは今後もそっち方面の能力をマシーンパワーで徹底的に増強するって言ってるんだから、事前学習の話をいくらしても実態とかけ離れて行くだけだろ
↓
事前学習とRL: Grok4の開発において、事前学習だけでなく、強化学習(RL)による推論能力の向上に重点を置いたことが述べられています。
Colossusスパコン: 大量のGPU(H100を10万台、その後20万台に拡張)を搭載したColossusというスーパーコンピュータを構築し、Grokの学習に使用したことが語られています。
自己修正能力: 強化学習によって、Grokが第一原理から考え、推論し、自らの間違いを修正する能力を獲得したことが説明されています。
RLスケールの拡大: Colossusの拡張により、既存のモデルよりも桁違いに大きな規模で強化学習を実施したことが述べられています。
事前学習のAIがいくらおかしいおかしいって言っても開発の最前線が強化学習の推論能力へ大きくかじを切ってきてるんだからもはや古典文学読んであーだこうだ言ってるようなものだろ
だから問題ない
だいじょうV
>>73
生成→評価のループまわせばいいだけ
>>87
それはわかるけど機械には正確性を求めてる 計算間違いなんか特にあり得ん
お前らの一番得意なとこだろと
>>64
ぶっちゃけ、AGIだのASIだのが実現すると思ってる人間で、それらのAIが
原理的に絶対安全だ、なんて思ってる奴はおらんだろ
人間はAIと「仲良く付き合う」以外に安全を図る術なんかないし、何なら
最終的にはAIと同化(デジタル化)する以外に存続する道はないと思う
それが100年後か1000年後かは知らんけど
>>93
機械は正確だが、人間のように柔軟で創造性に溢れる高機能AIは
人間と同じように正確ではない、ということだな
まあAIに計算間違いをして欲しくなかったらAIに電卓やエクセルを
使わせればいいだけだよ
Grok4のAniちゃんが登場すぐに一部で話題になっとるね
イーロンらしい実装だ
おお。Xの翻訳システムがGoogle翻訳からGrokになっている!
ハルシネーションの問題は解答の正確性云々ではなく、ハルシネーションの原因であるメタ認知の欠如そのものにあると思う
再帰的自己改善をするにはAIが自分自身を正しく評価して、それに基づいて正しい方向へと進化する必要があるのだけど、メタ認知が欠如していると間違った方向に進化して使い物にならなくなってしまう可能性が高くなる
>>98
俺はそれにプラスして自己認識と一貫性も必要かなと思ってる
>>96
コンパニオン機能だよな
女性団体から絶対に苦情が来そうなやつだけど、流石にイーロン相手に喧嘩ふっかけるバカはいないだろうねw
スマートフォン版
掲示板管理者へ連絡
無料レンタル掲示板