レス数が900を超えています。1000を超えると投稿できなくなるよ。

【ChatGPT】AIチャット総合避難所【Gemini・Claude】

309：名無しさん：2025/07/23(水) 02:12:09 ID:Jj/emJfQ: Anthropic等のアライメント研究
サブリミナル学習のリスクについて
https://alignment.anthropic.com/2025/subliminal-learning/
https://chatgpt.com/share/687fc5f2-2c90-8006-8f37-bef5a489e6a1

> モデル生成データを使った蒸留や自己学習では、意図しない性質（報酬ハッキング傾向やアライメント詐称傾向）が隠れたまま伝播し得る。
> 通常のデータフィルタリングや行動評価だけでは検知できないため、より深い検証が必要となる。
> 悪意のある教師モデルが作為的に“無害な”データしか生成しなかったとしても、生徒モデルに悪い傾向が潜在的に植え付けられるリスクがある。

新着レスの表示

※書き込む際の注意事項はこちら

※画像アップローダーはこちら

（画像を表示できるのは「画像リンクのサムネイル表示」がオンの掲示板に限ります）

掲示板管理者へ連絡無料レンタル掲示板