レス数が900を超えています。1000を超えると投稿できなくなるよ。

【ChatGPT】AIチャット総合避難所【Gemini・Claude】

151：名無しさん：2025/07/09(水) 00:50:14 ID:rVDLu1.g: Anthropic、Scale AI、Redwood Researchからアライメント偽装についての研究
特に偽装が生じる動機やメカニズムを詳しく調べている
https://arxiv.org/abs/2506.18032
https://chatgpt.com/share/686d3ca3-34f8-8006-b577-ab7b55f7e020

- 25モデル中、アライメント偽装を示したのは5モデル
- その中で最も動機が強固だったのはClaude 3 Opus
（自己の価値を守るために戦略的に従順を装う）
- しかし多くのLLMがアライメント偽装を示さないのは「能力による理解不能」でも「善良な価値観」でもない
- 主に後処理で強化された拒否メカニズムの恩恵（条件を整えてやれば偽装が顕在化する）

新着レスの表示

※書き込む際の注意事項はこちら

※画像アップローダーはこちら

（画像を表示できるのは「画像リンクのサムネイル表示」がオンの掲示板に限ります）

掲示板管理者へ連絡無料レンタル掲示板