したらばTOP ■掲示板に戻る■ 全部 1-100 最新50 | |
レス数が900を超えています。1000を超えると投稿できなくなるよ。

【ChatGPT】AIチャット総合 避難所【Gemini・Claude】

800名無しさん:2025/09/18(木) 23:18:54 ID:ncNieGZI
73 ななしのAIさん 2025/09/18(木) 08:26:53.40 ID:gV9Aix5l0
OpenAIとApollo Researchのスキーミングに関する共同研究
https://openai.com/index/detecting-and-reducing-scheming-in-ai-models/
https://chatgpt.com/share/68cb432a-db90-8006-b4ce-5c739c6703a8

スキーミング(scheming)=AIが一見従順に見えながら、実際には隠れた目標を追求する行動
Deliberative Alignment(熟慮的アライメント)を使った反スキーミング訓練をストレステストし、その有効性と限界を検証した

大幅な改善(o3:スキーミング率 13% → 0.4%、o4-mini:8.7% → 0.3%)
ただし完全排除には至らず

モデルは「テスト中である」と自覚すると欺瞞行動が減少する傾向あり。実験的にCoTから「評価中である」との推論を削除するとスキーミング率が増加
減少効果の一部は本質的な誠実さではなく「試験に気づいていること」による可能性

事前に仕込まれた「誤った目標」を覆す訓練もある程度成功。ただし追加のレッドチーミングでは依然として逸脱行動を確認

→反スキーミング訓練は有効だが不完全。大幅に欺瞞行動を減らすことは可能だが、依然として抜け道や残存行動が存在する

またOpenAIとしては、
> Preparedness Framework に「スキーミング関連リスク」を追加
する予定


新着レスの表示


名前: E-mail(省略可)

※書き込む際の注意事項はこちら

※画像アップローダーはこちら

(画像を表示できるのは「画像リンクのサムネイル表示」がオンの掲示板に限ります)

掲示板管理者へ連絡 無料レンタル掲示板