• トップ
  • G-DEPについて
  • ご購入ガイド
  • サポート
  • お問い合わせ

G-DEPトップ  >  G-DEPの高速演算記  >  高速演算記 第4回 「GTCレポートその1 NVIDIA CEOによる基調講演」

高速演算記 第4回 「GTCレポートその1 NVIDIA CEOによる基調講演」

NVIDIAが主催するカンファレンスGPU Technology Conferece 2010が米国サンノゼで開始されました。
G-DEPでも最新のGPU事情をお届けする目的で参加しています。

初日はJen-Hsung Huang 社長兼CEOの基調講演がありましたので今回はそこで発表されたものについて紹介することにしました。


NVIDIAではVisual Computing, Parallel Computing, Mobile Computingと3つの分野に注力していることについて最初に触れました。
Teslaはクラウドに代表されるような大量計算が必要とされるサーバマシンに、Quadroはワークステーション用に、GeForceは一般用、そしてTegraは組込みモバイル用途に位置づけた製品である説明をしていました。

Fermiのハードウェア性能について、3点を強調しています。第一にFermiアーキテクチャで特に注力しているTesselation機能です。
以前のアーキテクチャに比べ、6倍の差がでるほどに演算能力が強化され、今までよりも高精細なモデルを表現することが可能になったということを説明していました。そのデモとして、レンダリングされた仮想都市の風景をスクリーンに投影していました。1000以上の光源を使用し、秒間1.4兆ポリゴン相当を処理しているとのことで、一秒あたり80GBに相当するデータ量でありPCIEx16の転送能力を一桁ほど上回っているため、Tesselationを用いることでこれだけの表現力が可能となっていることを説明しています。



また、Fermiの演算能力を強調するため、リアルタイムシミュレーションについて2つ程デモンストレーションをおこないました。
代表例として出しているのは、流体シミュレーションをリアルタイムで行っているもので、100万粒子程度の煙の流れをリアルタイムで計算し、煙がシミュレーション内の剛体による影響を受けることができ、あらかじめ計算されたものでないことをアピール。ゲームなどよりリアルになっていくことが期待されます。

ファン氏は2007年にBerkeley大学パターソン教授の論文について触れています。コンピューティングに対する常識は変わってきており、トランジスタ数を気にしていた所を今は電力の方に制限され、演算に処理時間かかっていたのが今ではメモリのロード・ストアに引っ張られ、ハードウェアのout of order実行やコンパイラー技術によって得られる並列化効果も下がってきている。これから先は並列化を念頭に置いた新しい方法が必要になってくるという内容でした。

CUDAが可能とするGPUの並列演算利用はそれに対する1つの解として示し、今後もGPUコンピューティングに力をいれていくことを示してくれました。

CUDAの受け入れの指標として3つの数値を掲げています。開発者の受け入れを示すものとしてCUDA SDKのダウンロード数を出しました。もちろん、1つの開発者が複数回ダウンロードしたり、一つのダウンロードを社内サーバに置いたりといったことから正確な指標といったものではないが、2009年は 293,000件のアクセスがあったものが、2010年には倍の668,000件のアクセスがあったことを明らかにしました。

次にエンドユーザの興味を示すものとしてサーバを提供するOEMベンダの数が去年の1社から、2010年は9社に増えたことを示しました。例としてCray, IBMのブレードサーバが出されています。また、研究分野での利用を示すものとして去年 GTCへの投稿数が67件あったものが、2010年は334と、大幅にペーパーの投稿数が増えたことを示しました。

基調講演の最後として、幾つかの重要なアプリケーションのGPU採用について紹介がありました。一つ目はCUDAで記述されたカーネルからx86コードを生成してくれるコンパイラがPGIグループから発売されるということです。これによりGPUを持っていない環境でもCPUコアを利用したプログラムを生成することが可能となり、CPU用、GPU用コードを別々に用意することがないことを示しています。

第2番目の紹介は科学数値計算の分野で存在感あるmatlabについての紹介がありました。matlabのparallel computing toolboxはmatlab関数の100以上をGPU上で実行できるように対応し、複数GPUを搭載するクラスタでmatlabを使用可能としたことについて言及しています。行列演算関数は主に密行列を高速化に対応させたもので、通常のmatlab関数をほぼそのままの形式で使用できるようでした。

最後にファンCEOは今後のロードマップについて少し触れています。一定である電力供給環境ではワットあたりの性能は性能そのものと同等という主張のもとで、Fermiの倍精度演算能力は約1.5 GFLOPS/ワットであると言及。2011年投入予定のKeplerと呼ばれるアーキテクチャは3-4倍の性能を予定しており、2013年に予定しているMaxwellはTeslaと比べ16倍の性能になるということを触れていました。そしてこれからは性能だけでなくプリエンプションや仮想メモリなど、要望されていた機能も追加されていくとのことでした。また、CPUが介入する必要性、CPUとのデータ転送の必要性が少なくなるような改良も今後引き続き行われていくことについて触れています。

(G-DEP CUDAエンジニア 田原哲雄)