したらばTOP ■掲示板に戻る■ 全部 1-100 最新50 | |
レス数が900を超えています。1000を超えると投稿できなくなるよ。

【ChatGPT】AIチャット総合 避難所【Gemini・Claude】

309名無しさん:2025/07/23(水) 02:12:09 ID:Jj/emJfQ
Anthropic等のアライメント研究
サブリミナル学習のリスクについて
https://alignment.anthropic.com/2025/subliminal-learning/
https://chatgpt.com/share/687fc5f2-2c90-8006-8f37-bef5a489e6a1

> モデル生成データを使った蒸留や自己学習では、意図しない性質(報酬ハッキング傾向やアライメント詐称傾向)が隠れたまま伝播し得る。
> 通常のデータフィルタリングや行動評価だけでは検知できないため、より深い検証が必要となる。
> 悪意のある教師モデルが作為的に“無害な”データしか生成しなかったとしても、生徒モデルに悪い傾向が潜在的に植え付けられるリスクがある。


新着レスの表示


名前: E-mail(省略可)

※書き込む際の注意事項はこちら

※画像アップローダーはこちら

(画像を表示できるのは「画像リンクのサムネイル表示」がオンの掲示板に限ります)

掲示板管理者へ連絡 無料レンタル掲示板