[
板情報
|
カテゴリランキング
]
したらばTOP
■掲示板に戻る■
全部
1-100
最新50
|
1-
101-
201-
301-
401-
501-
601-
701-
801-
901-
この機能を使うにはJavaScriptを有効にしてください
|
レス数が900を超えています。1000を超えると投稿できなくなるよ。
【ChatGPT】AIチャット総合 避難所【Gemini・Claude】
309
:
名無しさん
:2025/07/23(水) 02:12:09 ID:Jj/emJfQ
Anthropic等のアライメント研究
サブリミナル学習のリスクについて
https://alignment.anthropic.com/2025/subliminal-learning/
https://chatgpt.com/share/687fc5f2-2c90-8006-8f37-bef5a489e6a1
> モデル生成データを使った蒸留や自己学習では、意図しない性質(報酬ハッキング傾向やアライメント詐称傾向)が隠れたまま伝播し得る。
> 通常のデータフィルタリングや行動評価だけでは検知できないため、より深い検証が必要となる。
> 悪意のある教師モデルが作為的に“無害な”データしか生成しなかったとしても、生徒モデルに悪い傾向が潜在的に植え付けられるリスクがある。
新着レスの表示
名前:
E-mail
(省略可)
:
※書き込む際の注意事項は
こちら
※画像アップローダーは
こちら
(画像を表示できるのは「画像リンクのサムネイル表示」がオンの掲示板に限ります)
スマートフォン版
掲示板管理者へ連絡
無料レンタル掲示板