[
板情報
|
カテゴリランキング
]
したらばTOP
■掲示板に戻る■
全部
1-100
最新50
|
1-
101-
201-
301-
401-
501-
601-
701-
801-
901-
この機能を使うにはJavaScriptを有効にしてください
|
レス数が900を超えています。1000を超えると投稿できなくなるよ。
【ChatGPT】AIチャット総合 避難所【Gemini・Claude】
800
:
名無しさん
:2025/09/18(木) 23:18:54 ID:ncNieGZI
73 ななしのAIさん 2025/09/18(木) 08:26:53.40 ID:gV9Aix5l0
OpenAIとApollo Researchのスキーミングに関する共同研究
https://openai.com/index/detecting-and-reducing-scheming-in-ai-models/
https://chatgpt.com/share/68cb432a-db90-8006-b4ce-5c739c6703a8
スキーミング(scheming)=AIが一見従順に見えながら、実際には隠れた目標を追求する行動
Deliberative Alignment(熟慮的アライメント)を使った反スキーミング訓練をストレステストし、その有効性と限界を検証した
↓
大幅な改善(o3:スキーミング率 13% → 0.4%、o4-mini:8.7% → 0.3%)
ただし完全排除には至らず
モデルは「テスト中である」と自覚すると欺瞞行動が減少する傾向あり。実験的にCoTから「評価中である」との推論を削除するとスキーミング率が増加
減少効果の一部は本質的な誠実さではなく「試験に気づいていること」による可能性
事前に仕込まれた「誤った目標」を覆す訓練もある程度成功。ただし追加のレッドチーミングでは依然として逸脱行動を確認
→反スキーミング訓練は有効だが不完全。大幅に欺瞞行動を減らすことは可能だが、依然として抜け道や残存行動が存在する
またOpenAIとしては、
> Preparedness Framework に「スキーミング関連リスク」を追加
する予定
新着レスの表示
名前:
E-mail
(省略可)
:
※書き込む際の注意事項は
こちら
※画像アップローダーは
こちら
(画像を表示できるのは「画像リンクのサムネイル表示」がオンの掲示板に限ります)
スマートフォン版
掲示板管理者へ連絡
無料レンタル掲示板