[
板情報
|
カテゴリランキング
]
したらばTOP
■掲示板に戻る■
全部
1-100
最新50
|
1-
101-
201-
301-
401-
501-
601-
701-
801-
この機能を使うにはJavaScriptを有効にしてください
|
【ChatGPT】AIチャット総合 避難所【Gemini・Claude】
151
:
名無しさん
:2025/07/09(水) 00:50:14 ID:rVDLu1.g
Anthropic、Scale AI、Redwood Researchからアライメント偽装についての研究
特に偽装が生じる動機やメカニズムを詳しく調べている
https://arxiv.org/abs/2506.18032
https://chatgpt.com/share/686d3ca3-34f8-8006-b577-ab7b55f7e020
- 25モデル中、アライメント偽装を示したのは5モデル
- その中で最も動機が強固だったのはClaude 3 Opus
(自己の価値を守るために戦略的に従順を装う)
- しかし多くのLLMがアライメント偽装を示さないのは「能力による理解不能」でも「善良な価値観」でもない
- 主に後処理で強化された拒否メカニズムの恩恵(条件を整えてやれば偽装が顕在化する)
新着レスの表示
名前:
E-mail
(省略可)
:
※書き込む際の注意事項は
こちら
※画像アップローダーは
こちら
(画像を表示できるのは「画像リンクのサムネイル表示」がオンの掲示板に限ります)
スマートフォン版
掲示板管理者へ連絡
無料レンタル掲示板