• トップ
  • G-DEPについて
  • ご購入ガイド
  • サポート
  • お問い合わせ

G-DEPトップ  >  G-DEPの高速演算記  >  高速演算記 第17回 QLogic Limited日本支社 郡司 茂樹様

高速演算記 第17回 QLogic Limited日本支社 郡司 茂樹様

今回の高速演算記 第17回は、第15回にインターコネクト選択で失敗しないためのポイントをご紹介頂きました、
QLogic Limited日本支社 郡司 茂樹様よりGPGPUクラスターが近い将来どのように発展していくのか、
特にInfiniBandとの関連性から見えてくる部分についてご寄稿頂きました。
 

GPU搭載ノードをつなぐ技術
      ~GPGPUクラスターの今後の展望~ 

前回はGPGPUクラスターを組む際に考慮したい、InfiniBandの選択ポイントについて解説した。InfiniBandはオープンスタンダード技術ではあるのだが、その実装方法はInfiniBandベンダー毎に異なっている。そのためGPU Directとの親和性や、さらには性能特性も異なってくることを、前回はAMBERを例に紹介した。

しかしGPUもInfiniBandも、今後とも進化を続けていく技術である。そこで今回は、GPGPUクラスターが近い将来どのように発展していくのか、特にInfiniBandとの関連性から見えてくる部分について展望してみたい。
 

2012年の展望

G-DEPの高速演算記で、いきなりCPUがらみの話から入るのもどうかとは思うが、2012年、GPGPUにとって重要な変化が訪れる。Sandy Bridgeマイクロアーキテクチャーを採用するサーバープロセッサー、Intel Xeon E5シリーズが登場するのだ。何がGPGPUにとって重要かというと、Xeon E5シリーズ用に用意されるRomleyプラットフォームでは、新たにPCI Express 3.0 (PCIe Gen3)がサポートされる予定になっている。

これにより、GPU側もPCIe Gen3に対応すれば、通信帯域(有効帯域幅)が約2倍に拡張される。大量かつ頻繁に、ホスト-GPU間のデータ転送を行う必要があるプログラムにとっては、これは良いニュースとなる。しかしこうしたプログラムは、そもそもGPGPUに向かない面もあるため、せっかくGPUコンピューティングを行うなら、その導入効果を高めるためにも、ホスト-GPU間のデータ転送の削減が引き続き重要であることは言うまでもない。

実はもう1つ、PCIeに関する変更が、Xeon E5シリーズでは用意されている。PCIeのルート・コンプレックスがCPUへ統合されるのだ。そのため Gen3に限らず、あらゆる世代のPCIeデバイスで、遅延の短縮効果が期待できる。しかし良い面ばかりではない。2ソケットサーバー向けのSandy Bridge-EPや、4ソケットサーバー向けSandy Bridge-EXでは、少し事情は複雑だ。

2ソケットサーバーを模式的に描いた下の図を使って説明しよう。簡単のためGPUは省略してある。この図ではInfiniBandはCPU 0番に直接つながっている。InfiniBandから見れば、下図の CPU 0番はローカルソケット、CPU 1番はリモートソケットということになる。ローカルソケットで動くMPIプロセスからは確かにInfiniBandは低遅延に利用可能だが、リモートソケット上で動くプロセスからはそうではない。初期的なテスト結果によると、ユーザーが感じる遅延、すなわちMPIから見た遅延は、ローカルソケットと較べて50%も悪化してしまう。

 一足先にコントローラーがCPUに統合されたメモリーの場合も、CPUから近いローカルメモリーと、CPUから遠いリモートメモリーという階層構造が生じた。そしてOSやアプリケーションがNUMA(Non-Uniform Memory Access)に対応するまでの間、なかなか性能があがらない時期が続いたが、同様のことがPCIeデバイスでも起きようとしている。

 

遅延の悪化を食い止めろ!

なぜこれほどまでに遅延が悪化してしまうのか?実はInfiniBandもGPUも、効率よいデータ転送のためにDMA(またはRDMA)を行うが、これがXeon E5での遅延悪化と深く関係している。DMAでは・・・

続きを読むには...

この記事は会員限定のため、G-DEP会員登録(無料)が必要となります。
未登録の方は「登録」ボタンをクリックしG-DEP会員登録を行ってください。
※会員登録をされますと記事の閲覧の他、コメント投稿も可能になります。

新規登録  ログイン