レス数が1スレッドの最大レス数(1000件)を超えています。残念ながら投稿することができません。
技術的特異点/シンギュラリティ【総合】避難所 32
!Attention is NOT all you need !
Using only 8 GPU's (not a cluster), we trained a Qwerky-72B (and 32B), without any transformer attention With evals far surpassing GPT 3.5 turbo, and closing in on 4o-mini. All with 100x++ lower inference cost, via RWKV linear scaling
https://x.com/picocreator/status/1904250680266956903
このツイートは、AIモデルの新しいアプローチである「Qwerky-72B(および32B)」について説明しており、従来のトランスフォーマーモデルのアテンション機構に依存せず、RWKVという線形スケーリング技術を用いて高い性能を達成したことを主張しています。以下に、その内容をわかりやすく解説します。
---
### 1. **主張の核心: "Attention is NOT all you need"**
- トランスフォーマーモデルの有名な論文「Attention is All You Need」(2017年)では、アテンション機構が自然言語処理(NLP)の鍵とされていました。しかし、このツイートでは「アテンションがすべてではない」と挑戦的に述べています。
- Qwerky-72Bは、トランスフォーマーのアテンション(QKV: Query, Key, Value)を使わず、RWKVという代替技術を採用し、それでも高い性能を発揮したと報告しています。
---
### 2. **モデルの特徴とトレーニング**
- **規模とリソース**: Qwerky-72B(72億パラメータ)と32B(32億パラメータ)は、わずか8台のGPU(大規模クラスタではない)でトレーニングされました。これは通常のトランスフォーマーモデルに比べて非常に少ない計算資源です。
- **変換プロセス**:
1. 既存のトランスフォーマーモデル(おそらくQwen 2.5など)からスタート。
2. FFN(Feed-Forward Network、またはMLP: Multi-Layer Perceptron)を凍結(変更しない)。
3. QKVアテンション機構を削除。
4. RWKV(線形アテンション機構)に置き換え。
5. 5億トークン未満のデータで再トレーニング。
- **驚くべき点**: 通常、AIモデルは数十億〜数兆トークンでトレーニングされますが、Qwerky-72Bは5億トークン未満で大幅な性能向上を実現。これは、モデルの「知識や知能」の大部分がアテンション層ではなくFFN層にあるという証拠だとしています。
---
### 3. **性能**
- **評価結果**: Qwerky-72Bは、GPT-3.5 Turboを大きく上回り、GPT-4o-miniに迫る性能を示したとされています。特に、ArcやWinograndeといったベンチマークで顕著な改善が見られたようです。
- **同クラスとの比較**: 同じパラメータ数のトランスフォーマーモデルと互角に戦える性能を持っています。
---
### 4. **RWKVの利点**
- **線形スケーリング**: トランスフォーマーのアテンションはシーケンス長に対して計算コストが二次的(quadratic)に増大しますが、RWKVは線形的(linear)にスケールするため、推論コストが劇的に削減されます(100倍以上安価)。
- **リソース効率**: VRAM(ビデオメモリ)と計算要件が大幅に減少し、同じハードウェアでより多くのタスクを処理可能。
---
### 5. **新しい視点: 知能はFFNにある**
- **仮説**: ツイートでは、AIモデルの「知識や知能」の大部分がアテンション層ではなくFFN/MLP層に存在すると主張しています。アテンションはむしろ「記憶管理や焦点の調整」の役割を果たしている可能性があると提案しています。
- **証拠**: アテンション層を削除してRWKVに置き換え、FFNを再利用しただけで高い性能を維持できたことから、この仮説を裏付けているとしています。
---
### 6. **今後の展望**
- **再利用可能なFFN**: FFNを独立した「再利用可能なブロック」とみなすことで、RWKVアーキテクチャの改良を大規模かつ迅速に検証できるようになると述べています。
- **開発サイクル**: 約6か月ごとに大きなアップデートを予定しており、さらに効率的で強力なモデル(例: DeepSeekの変換)が期待されています。
- **コスト革命**: 二次的スケーリング(quadratic scaling)は企業収益には良いがコスト面では非効率的。RWKVのような準二次的(sub-quadratic)アーキテクチャは、少ないリソースで高性能を実現し、AIの民主化を加速する可能性があります。
---
### 7. **まとめ**
このツイートは、Qwerky-72Bがトランスフォーマーの限界(高い推論コスト、アテンション依存)を打破する革新的なモデルであることを強調しています。RWKVを活用することで、効率性と性能を両立させ、AIモデルの知能がアテンションではなくFFNに依存しているという新しい視点を提供しています。詳細は論文待ちとのことですが、これが事実なら、AI研究におけるパラダイムシフトのきっかけとなるかもしれません。
スマートフォン版
掲示板管理者へ連絡
無料レンタル掲示板