「CoTの監視がAI安全性向上に役立つが、最適化圧で容易に破壊されうる」という既知の知見の整理、内容的にはそれほど目新しさは無い
ただし、OpenAI, Anthropic, Google DeepMindなどの大手AI企業、Apollo Research, UK AI Security Instituteなどの研究機関が同じ評価プロトコルを適用し、「この問題は業界共通リスク」という認識を公式に揃えたという点での意義がある
@sama
woke up early on a saturday to have a couple of hours to try using our new model for a little coding project.
done in 5 minutes. it is very, very good.
not sure how i feel about it...