したらばTOP ■掲示板に戻る■ 全部 1-100 最新50 | |
レス数が1スレッドの最大レス数(1000件)を超えています。残念ながら投稿することができません。

おちゃめくらぶ掲示板

621御茶目菜子:2011/06/18(土) 15:52:04
LlanoはSandyBridgeより3倍速い!?
AMDが新型のFusion APUであるAMD Aシリーズ「Llano(ラノ)」を発表したにょ。
http://pc.watch.impress.co.jp/docs/news/20110614_452881.html
すでにFusion APUとしては新設計のBobcatコアのCPUを軸としてそれに80spのGPUを内蔵
したEシリーズ(Zacate)、Cシリーズ(Ontario)が発表されているけど今回のLlanoは
従来のPhenom(K10コア)ベースのCPUとRADEON HD5xxx(Redwood)ベースのGPUを統合
したものでありアーキテクチャそのものの革新性はないにょ。
しかし、AMDでは初の32nmプロセスのプロセッサであり微細化によって両者を1つのダイへ
統合したということの恩恵は大きいにょ。

IntelもSandyBridgeにてようやくメインストリームCPUにおいてCPUとGPUを1つのダイへの
統合を行ったにょ。
このような1つのダイへの統合には下記のようなメリットがあるにょ。

 (1)省電力化
 (2)高性能化
 (3)低コスト化

(1)従来はCPUは最新の製造プロセスで製造されていたけどGPUが内蔵されているノース
ブリッジは多くの場合は1世代前のプロセスとなっていたにょ。
微細化によってはリーク問題があるとはいえ、「ダイサイズが小さくなる」「駆動電圧を
抑えられる」というメリットがあり、CPUに統合され最新製造プロセスで製造されることで
省電力が可能になるにょ。
OakTrailのTDPが大幅に小さくなったのは従来130nmで製造されていたチップセットである
US15Wのノースブリッジ部分がCPUへと統合されて45nmで製造されるようになったことが
非常に大きいにょ。

(2)チップが分離しているとレイテンシも無視できないレベルになるにょ。
AMDはAthlon64において従来はノースブリッジにあったメモリーコントローラをCPUに内蔵
したのもそのレイテンシを少しでも減らすのが目的だったからね。
また、(1)のようにダイサイズが小さくなり省電力が可能になったことで従来と同じTDPで
あればよりクロックを高めることが可能になりクロックに比例した高性能化も可能に
なるにょ。
また、トータルのダイサイズが小さくなるためダイサイズを同じであればより多くの
トランジスタ数を搭載可能(GPUであればSP数を増やすことができる)であるためそれに
よって高性能化も可能になるにょ。

(3)多くの場合はこの低コスト化が理由になっているにょ。
IntelのAtom(PineView)、AMDのEシリーズ・Cシリーズのようにローエンド以下において
メインストリーム向けより早く統合化が進んだのはチップ点数を減らせることで低コストに
繋がるという恩恵があるからにょ。

ただ、(3)はメインストリーム向けとしては強くアピールするものではないためやはり
(1)と(2)が大きいと思われるにょ。
AMDが今回発表したLlanoも単にGPUを内蔵したCPUというものではなくGPGPUとしての活用を
大きく視野に入れているにょ。
このことは、私も昨年11月4日に書いたにょ。
GPGPUとして活用した場合にはLlanoの最上位モデルの理論性能は355GFlopsに達すると発表
されているにょ。

1GFlopsは1秒間に浮動小数点演算を1ギガ回(10億回)行うことができるという単位だけど
355GFlopsと言ってもどの程度のものかピンと来ないと思うにょ。
したがって、今までのCPUとの比較をすることでそれをまずは実感してもらいたいにょ。
IntelにおいてはPentium以降は浮動小数点演算機能がCPUにデフォとして搭載されるように
なったのでそれ以降で見てみるにょ。(80486の頃は浮動小数点演算基がオプションの
486SXが存在していた)

 Pentium・PentiumII・・・・・・・・・・1GHzあたり1GFlops
                    (※Pentium200MHzならば0.2GFlops)
 Pen3、PenM、Core Duo・・・・・・・・・1コア、1GHzあたり1.5GFlops
                    (※PenM2GHzならば3GFlops)
 Pen4、PenD・・・・・・・・・・・・・・1コア、1GHzあたり2GFlops
                    (※PenD3GHzならば12GFlops)
 Core2Duo、Core i7(SandyBridge以外)・1コア、1GHzあたり4GFlops
                    (※4コアのCore i7 3GHzならば48GFlops)
 Core i7(SandyBridge)・・・・・・・・1コア、1GHzあたり8GFlops
                    (※4コアのCore i7 3.5GHzならば112GFlops)

Pen3以降飛躍的に数字が伸びているのは高クロック化やマルチコア化の影響だけではなく
SIMD演算基(SSE)の実装が大きいにょ。
一度に128bitの演算ができ32bitの単精度浮動小数点演算ならば一度に4つ実行が可能
だからね。
Pen4では1回のSIMD命令の実行に2クロック必要だったのがCore2Duoでは1クロックになり
1コア、1GHz当たりの理論演算性能も一気に2倍になったにょ。
そして、SandyBridgeでは256bitの演算が可能なAVXの実装によってさらに2倍になったにょ。
しかし、現在では最速クラスとなるSandyBridgeの3.5GHzでさえ112GFlopsであり今回
AMDが発表のLlanoはその約3倍になるにょ。
では、Llanoの性能はSandyBridgeの3倍あるかというとそういうわけではないにょ。

現在のRADEONでは1SP、1クロックあたり2Flopsとなっているにょ。
したがって、Llanoに内蔵している400SP、444MHzのGPUコアは2x400x0.444≒355GFlopsと
なるわけにょ。
ただし、これを見てのようにこの演算性能が発揮可能なのは800個の並列演算をした場合に
限られるにょ。
GPUはDirectX8以降ピクセルシェーダ機能の搭載によって演算が可能になり、DirectX9では
命令数や命令長の制限が緩和されDirectX10では従来ピクセルシェーダ、バーテックス
シェーダと分離していたものが統合型シェーダとなりより汎用的な演算も可能になって
GPGPUとしての活用が可能になったにょ。
しかし、グラフィック演算(ピクセルシェーダ)としてGPUを活用する場合は並列性が
非常に高く数100万ピクセルの演算を行うためにより高い並列性が求められているため
シェーダプロセッサ数(SP数)はどんどん増加の一途を辿ったのだけどそれがGPGPUとして
活用する場合においては必ずしもメリットとはならないわけにょ。

GPGPUとして使う場合に問題となるのは粒度の大きさにょ。
CPUは1つのコアごとで1つのSIMD演算が実行可能であるため粒度は128〜256bit(単精度
浮動小数点演算ならば4〜8個)となるにょ。
Llanoに内蔵のGPUは400spだけどこれはシェーダプロセッサ数が400あるというだけであって
その400個は完全に独立したものではないにょ。
5つのSPを1つのクラスタとして構成し16個のクラスタ、つまり80spが1つのユニットと
なるにょ。
この1ユニットが一般的なCPUの1コアと同じく完全独立動作が可能なものであり粒度が極めて
大きいことが分かるにょ。
8個しか並列演算ができないのであれば実効性能は10分の1まで落ちてしまうからね。
この粒度の大きさこそがRADEONをGPGPUとして使用する場合の弱点となっているにょ。

CPUの場合はPentium以降に導入されたスーパースケーラの導入によって複数命令の同時
実行が可能になったり、SIMD命令などの拡張命令を追加しているもののベースとなって
いるのはx86命令でありどれだけ古いコードであっても動作させることは可能になって
いるにょ。
しかし、GPUの場合はそうもいかないにょ。
GeForceの場合はGT200コア(GTX280)から大幅にアーキテクチャが変わり、RADEONも
HD2xxx以降大幅にアーキテクチャが変わり現在に至っているにょ。
RADEONとGeForceでは全くアーキテクチャが異なるだけではなくGeForce内、RADEON内でも
アーキテクチャが異なるにょ。
GPGPUは最近になって徐々に開発環境が整いつつあるけどそのパフォーマンスを十分に
発揮するのは様々なアーキテクチャの混在によってCPUとは比べものにならないくらい
パフォーマンスを発揮するのが難しくなっているにょ。
したがって、Llanoの理論性能がSandyBridgeの3倍といっても実効性能ではそうなることは
ほとんど無いと思われるにょ。

しかし、単体GPUと比べCPUの出荷量は桁違いにょ。
アーキテクチャが同じGPUが大量に溢れるとそれがGPGPUにおいてはデファクトスタンダード
となり、アプリ側もそれに対応するようになると思われるにょ。
ネックとなる粒度の大きさはCPUとうまく使い分けることによって克服可能だし、次世代の
RADEONはGPGPUでの実効性能を高めるために粒度を小さくするとのことなのでこれが
CPUへと統合されればGPGPUの普及にいっそう弾みがつくにょ。

今回のLlanoはSandyBridgeと比べるとCPUコアは完敗(1コア、1クロック当たりの性能は
HTTのあるCore i5の6割程度)しかないけどこれは設計思想による違いが大きいにょ。
http://pc.watch.impress.co.jp/docs/column/tawada/20110614_452835.html
何せダイサイズの約半分がGPUによって占められているからね。
このGPUをいかに活用するかでLlanoの価値が変わってくるにょ。
GPGPUとしてみるとソフト側の最適化が進んでないためかやはり理論値がいくら高くても実効
ではあまりその性能を発揮できていないにょ。(今後のソフトの最適化次第で変わってくる
だろうけど粒度が大きい分だけ最適化も難しいと思われる)
単純にGPUとして見るとSandyBridgeに内蔵のIntel HD Graphics 3000はベンチ性能こそ
高いけど実際のゲームになるとあまり振るわない(動作しないものもある)ということで
Llanoの圧勝にょ。
これだけの性能があればコアなゲーマーでない限りは単体GPUが無くても大きな不満が
起こることは無さそうにょ。
これは単体GPUを後から追加できないノートPCや省スペース型デスクトップPCで有用と
思われるにょ。
GPUを使ったアプリはゲームに止まらずIE9なども活用されておりCPU性能だけではPCの
性能を測る時代はもう終わろうとしているにょ。

現在は最大355GFlopsのLlanoだけど2020年のFusion APUは10TFlopsに達する見込みと
なっているにょ。
よりGPGPUに適したアーキテクチャが採用されGPUとCPUで同じメモリ空間を使用可能になり
実効性能が上がればCPUの中のx86部分の役割は今よりも小さくなりヘテロジニアスマルチ
コアCPUとしてより完成度の高いものになりそうにょ。




掲示板管理者へ連絡 無料レンタル掲示板