Geforce GTX970におけるVRAM周りの「数字のマジック」

Skyrimからちょっと脱線気味ですが、グラボ検討した記事の流れでもう1個。

GTX970のVRAM3.5GBが騒がれたのは1月頃だったと思うので、もう半年も前のネタを今更、という感がある上、どれだけニーズあるやらといった所ですが。

メモリアクセスの「帯域」に関しては色々数字のマジックがあるのですが、970は特にマジックが強い気がしたのでまとめてみます。

グラボの設計は経験が無く、マザーボードしかやったこと無いので、ちょっとエアですけども。

メモリアクセスの概要
- 1個使いの場合
- 8個使いの場合
GTX980のVRAMアクセス
GTX970のVRAMアクセス
それでも「256bit」と公称できるのは何故？
- 物理的なバス幅は256bitあるから
- (妄想)どこかに256bitアクセスできる領域作ってない？
おまけ
- 高クロックのレジ
- バス幅の広いレジ

メモリアクセスの概要

GTX980/70で使われているのと同じ、4GbのGDDR5(多分8ｘ32bit ｘ16bank)の使い方を考えてみます。

1個使いの場合

1個ならこんな感じでMC(Memory Controller)と32bitで繋げます。容量は4Gbなのでbyte換算すれば0.5GB。

1個使いでのメモリ接続

動作クロックが7GHz相当(圧縮は考慮外)であれば、1個での帯域は28GB/sになります。

8個使いの場合

これを使って4GBのメモリ空間が欲しい場合は、8個使うしか有りません。最も効率的な使い方は、8個を並列に256bit幅で繋ぐ方法になります。

256bit幅のメモリ接続

８パラ接続ができれば、容量4GB、帯域は単純に8倍した224GB/sになります。

※GM204のMCは32bit単位のユニットが並列接続されてるみたいですが、ここでは物理的な概略図として1個にしてます。

また、上記の帯域は電気的特性の話で、実際にはメモリ圧縮により298.7GB/s相当らしいです。

実質的には256bit幅で容量4GBのメモリが1個あるのと等価です。シンプルですね。

4GB256bitのメモリと等価

これが本来の普通なメモリの使い方です。

GTX980のVRAMアクセス

説明したのと同じメモリの使い方をしています。4GB 256bitのRAMが1個あるのと同じです。256bit幅でのDATA転送においては、理論値の帯域が出る筈です。特に問題ありません。

GTX970のVRAMアクセス

これが1月に騒ぎになった話ですね。上位0.5GBが低速になるというやつです。こんなブロック図が出回りました。

GM204-200のブロック図

グラボの開発したことないので、僕の認識が間違ってたらすいません(合ってるとは思ってますが)。

L2キャッシュが1個削除されているということばかりクローズアップされてましたけど(大事には違いありませんが)、これはあくまでトリガであり、その結果どうなっているのか？というのがあまり言及されてなかった気がします。

同じような図にしてみました。問題のキャッシュを削った0.5GBを「Upper Segment」として上位アドレスにマッピングしているとのこと。

GTX970のメモリバス

256bitアクセスは、前述の通りメモリを8個使いして「256bit幅 4GBのメモリが1個」とみなせる状態において、はじめて可能になります。

ところが GTX970は先の説明の通り、問題の1個をUpper Segmentに振り分けています。メモリ１個だけを上位0.5GBにマッピングしている訳です。

これはつまり、Lower Segmentである3.5GB空間はメモリ7個使いで構成されていることを意味しているので、

Lower Segment 3.5GBは32bit x 7=224bit

Upper Segment0.5GBは32bit x 1=32bit

のバス幅でのアクセスということになります。つまり、メインで使う3.5GB空間に対して256bitアクセスが発生することはありません。

さりげなく速度が「1/7」になると言ってたマジックですね。「1/8」ではなく･･･

それでも「256bit」と公称できるのは何故？

正直詐欺的だとは思いますけど、おそらく256bitと呼称しても、法的問題は回避可能かも知れません。

物理的なバス幅は256bitあるから

224bit+32bitという変則ですけど、256本のバス線があることは事実なんですね。通常であればこういう設計することは有り得ないです。物理的に256本アートワーク引きながら、フルに使わない理由が無いので。

もし最大224bit幅のアクセスにしたければ、普通はこんな感じで作ります。

※あくまで机上の話です。DDR5程の高速系でこれやったら、実機はAC特性アウトだと思います。

通常の224bitバス幅の図

左の6個で192bit、右の2個のうちどちらか１つを足して224bitアクセスにします。アドレスデコーダを工夫すればいいだけなので、右の２つのメモリは単純にバス線を束ねるだけ。わざわざ256本引く意味が全くありません。基板面積的にアートワーク苦しくなるだけです。ただし、これを256bitと表示したら確実にアウトです。

何故GM204はこんな無駄に見えることをしているかといえば、ご存知の通り歩留まり向上目的です。普通から見れば極めてトリッキーな構造ですが、これのおかげでGTX980になれなかった石でも、「256bit 4GBのGTX970」に転生してます。この構造が無かった場合は、224bit 3.5GBという仕様をぶら下げて発売されることになってたでしょう。

「256bit 4GB」という表示をしたいが故の無茶仕様な気もするのですが。Upper Segment、XP時代に余剰メモリをRAMDISK化したような使い方してるんでしょうか。主記憶にスワップした分を掴みにいくよりは速いんですかね、これでも。オンメモリとして処理されたら酷いことになりそうです･･･