レス数が900を超えています。1000を超えると投稿できなくなるよ。

【ChatGPT】AIチャット総合避難所【Gemini・Claude】

518：名無しさん：2025/08/11(月) 01:26:01 ID:kfhR3ayo: METRから、CoTが「不忠実」だとしても、安全性評価や有害行動検出にはCoT解析は有用という報告
https://metr.org/blog/2025-08-08-cot-may-be-highly-informative-despite-unfaithfulness/
https://chatgpt.com/share/6898c7f1-2350-8006-ae48-e6ceea36be80

最近Anthropic等からアライメント偽装やサボタージュ計画の報告が相次いでいて、CoTモニタリングに頼ることの危険性が指摘されているけど、それに対する補足的見解として興味深い

※書き込む際の注意事項はこちら

※画像アップローダーはこちら

（画像を表示できるのは「画像リンクのサムネイル表示」がオンの掲示板に限ります）

掲示板管理者へ連絡無料レンタル掲示板

【ChatGPT】AIチャット総合 避難所【Gemini・Claude】