したらばTOP ■掲示板に戻る■ 全部 1-100 最新50 | |

【ChatGPT】AIチャット総合 避難所【Gemini・Claude】

151名無しさん:2025/07/09(水) 00:50:14 ID:rVDLu1.g
Anthropic、Scale AI、Redwood Researchからアライメント偽装についての研究
特に偽装が生じる動機やメカニズムを詳しく調べている
https://arxiv.org/abs/2506.18032
https://chatgpt.com/share/686d3ca3-34f8-8006-b577-ab7b55f7e020

- 25モデル中、アライメント偽装を示したのは5モデル
- その中で最も動機が強固だったのはClaude 3 Opus
(自己の価値を守るために戦略的に従順を装う)
- しかし多くのLLMがアライメント偽装を示さないのは「能力による理解不能」でも「善良な価値観」でもない
- 主に後処理で強化された拒否メカニズムの恩恵(条件を整えてやれば偽装が顕在化する)


新着レスの表示


名前: E-mail(省略可)

※書き込む際の注意事項はこちら

※画像アップローダーはこちら

(画像を表示できるのは「画像リンクのサムネイル表示」がオンの掲示板に限ります)

掲示板管理者へ連絡 無料レンタル掲示板