• トップ
  • G-DEPについて
  • ご購入ガイド
  • サポート
  • お問い合わせ

G-DEPトップ  >  G-DEPの高速演算記  >  高速演算記 第1回 「Fermi解説その1-新しい階層型のメモリアーキテクチャ」

高速演算記 第1回 「Fermi解説その1-新しい階層型のメモリアーキテクチャ」


2010年5月にNVIDIA社から待望の新世代GPUであるFermi(Tesla C2050 / GeForce GTX 480 / GeForce GTX 470)が発売されました。大きな期待をもって既に購入された方も多いかと思いますが、Fermiで十分なパフォーマンスを達成された方は、まだ多くはないのではないでしょうか。

 

FermiはこれまでのGPUとは異なった、まったく新しいアーキテクチャになっています。したがって、GPU上で実行するアルゴリズムによっては、単にGPUボードを差し替えただけでは十分なスピードアップ効果が得られない場合があり、Fermiのポテンシャルを引き出すには、まだまだ多くの研究の余地がありそうです。

Fermiのアーキテクチャには、汎用的なGPUコンピューティングを目指した数多くのイノベーションが含まれています。その中から、計算工学やエンジニアリングの観点から大きな意味を持つと思われる点は、次の3つになります。

  1.  L1キャッシュメモリと共有L2キャッシュメモリの搭載
  2. 倍精度演算能力の強化(倍精度FMA演算の強化)
  3. C++をフルサポートした統合アドレス空間

今回は1)について解説し、2)~3)については回を改めてレポートしようと思います。

一般にコンピュータの演算速度をスピードアップしようとする時に最大のボトルネックとなるのは、メモリから演算コアにデータを送る「メモリ転送速度」です。よく知られているようにCPUのクロックアップは2004年の段階でほぼ限界に達してしまい、それ以降はクロックを上げるのではなく演算コアの個数を増やす、いわゆるマルチコア化・メニーコア化が進んでいます。しかし、演算コアの個数が増えれば増えるほど、メモリから演算コアまでデータを転送する際の経路の容量、すなわち、メモリバンド幅が大きな問題になってきます。単純に演算コア数を増やすだけでは、メモリから肝心のデータが届かず、いくら演算コア数を増やしても、スピードアップにつながらないということになってしまうのです。

GPUは数百個もの演算コアから成り立っており、これらの非常に多くの演算コアをGPUのメモリ(これをVRAMまたはデバイスメモリといいます)に直接接続してしまうと、メモリから演算コアへのデータ転送の速度が追いつきません。そこで、数個の演算コアをまとめて、それらの演算コアにごく近い場所に「共有メモリ」と呼ばれるメモリを用意し、数個の演算コアと「共有メモリ」との間で、超高速にデータ転送を行うようになっています。そして、その先に「デバイスメモリ」が接続されるという階層構造になっています。したがって、GPUコンピューティングで十分な高速演算を達成するためには、この「共有メモリ」を十分に使いこなせるがどうかが一つのポイントになります。

具体的なアプリケーションでは、画像処理の問題やN体問題では、メモリへのアクセスが比較的規則的に行われるために、共有メモリを使いこなすことは比較的容易です。一方で、構造解析や流体解析など、エンジニアリングで出てくる問題の多くは、アルゴリズム上、メモリへのアクセスが不規則になる場合が多く、その結果、共有メモリを十分に活用することが難しく、スピードアップの効果がおもわしくないという場合が多々ありました。

今回のFermiアーキテクチャでは、GPUコンピューティングのエンジニアリング等への応用を意識したと想像され、メモリアーキテクチャにおいて大幅な改良がなされています。一世代前のGPU(GT200アーキテクチャ)では、メモリの階層は、基本的にはGPUチップ内にある16KBの「小さな共有メモリ」と、GPUチップの外にある「デバイスメモリ」の2つしかありませんでした。今回のFermiアーキテクチャでは、「共有メモリ」が(「L1キャッシュ」と共通で)64KBの大きさに拡大されたのみならず、「共有メモリ」と「デバイスメモリ」の間に768KBもの「広大な共有L2キャッシュメモリ」がGPUチップの中に設けられたのです。図の中央に占める青い領域が、この「共有L2キャッシュメモリ」になっています。

各種のプログラムを実装して、実際にベンチマークテストをしてみないと確かなことは言えませんが、おそらく、この「共有L2キャッシュメモリ」を有効利用することにより、エンジニアリング分野のアプリケーションでも、今まで以上の高速化が実現できるのではないかと考えています。今後、ベンチマークの結果が出次第、レポートしていきたいと思います。

(G-DEP副理事長 藤澤智光)


(出展: NVIDIA Corporation ホワイトペーパー)