レス数が900を超えています。1000を超えると投稿できなくなるよ。

【ChatGPT】AIチャット総合避難所【Gemini・Claude】

800：名無しさん：2025/09/18(木) 23:18:54 ID:ncNieGZI: 73 ななしのAIさん 2025/09/18(木) 08:26:53.40 ID:gV9Aix5l0
OpenAIとApollo Researchのスキーミングに関する共同研究
https://openai.com/index/detecting-and-reducing-scheming-in-ai-models/
https://chatgpt.com/share/68cb432a-db90-8006-b4ce-5c739c6703a8

スキーミング（scheming）＝AIが一見従順に見えながら、実際には隠れた目標を追求する行動
Deliberative Alignment（熟慮的アライメント）を使った反スキーミング訓練をストレステストし、その有効性と限界を検証した
↓
大幅な改善（o3：スキーミング率 13% → 0.4%、o4-mini：8.7% → 0.3%）
ただし完全排除には至らず

モデルは「テスト中である」と自覚すると欺瞞行動が減少する傾向あり。実験的にCoTから「評価中である」との推論を削除するとスキーミング率が増加
減少効果の一部は本質的な誠実さではなく「試験に気づいていること」による可能性

事前に仕込まれた「誤った目標」を覆す訓練もある程度成功。ただし追加のレッドチーミングでは依然として逸脱行動を確認

→反スキーミング訓練は有効だが不完全。大幅に欺瞞行動を減らすことは可能だが、依然として抜け道や残存行動が存在する

またOpenAIとしては、
> Preparedness Framework に「スキーミング関連リスク」を追加
する予定

新着レスの表示

※書き込む際の注意事項はこちら

※画像アップローダーはこちら

（画像を表示できるのは「画像リンクのサムネイル表示」がオンの掲示板に限ります）

掲示板管理者へ連絡無料レンタル掲示板

【ChatGPT】AIチャット総合 避難所【Gemini・Claude】

【ChatGPT】AIチャット総合避難所【Gemini・Claude】