• トップ
  • G-DEPについて
  • ご購入ガイド
  • サポート
  • お問い合わせ

G-DEPトップ  >  G-DEPの高速演算記  >  高速演算記 第19回 「GTC JAPAN 2012レポート」

高速演算記 第19回 「GTC JAPAN 2012レポート」

 先日7/26(木)、エヌビディアジャパンが主催する「GPU Technology Conference Japan(GTC Japan)」2012が東京ミッドタウンホール&カンファレンスにて開催されました。

GTC JAPAN 2012

総括

 本カンファレンスは毎年開催されている国内最大のGPGPUイベントです。今年は40社を超えるスポンサー、47の講演および23のポスターセッション、そして参加総人数1000名以上と大盛況に終わり、年々規模が大きくなっている事がわかります。これはGPUコンピューティングが幅広い分野で益々普及している事の、あるいは、GPUのテクノロジーが様々なメディアに取り込まれている事の証であると言えるでしょう。

 

Steve Scott氏(NVIDIA CTO)、Steve Furney-Howe氏(NVIDIA Japan CEO)による講演

 午前中はエヌビディア TeslaビジネスユニットCTO Steve Scott氏による基調講演と、エヌビディア日本代表 Steve Furney-Howe氏による日本国内でのGPUコンピューティングの現状に関する講演がありました。

 Steve Scott氏からは、Kepler世代のTeslaであるK20について説明がありました。Kepler世代のTeslaには、単精度に特化した既にリリース済みのK10と、倍精度に特化したK20があります。これらは搭載されているチップが違っており、K10にはチップ「GK104」が、K20にはチップ「GK110」が搭載されます。K20は当初の発表通り、今年度のエヌビディアの第4四半期(11月~1月)にリリース予定にあるとの事です。その性能も期待通りのものがでており、倍制度は1Tflops以上となるそうです。また、N体問題のBarnes-Hutシミュレーションを例に挙げて、GK110から利用可能になるDynamic Parallelismを利用すればこのようなコードを簡単に書けるようになるとのアピールもありました。

 Steve Furney-Howe氏の講演では、エヌビディアは開発者への支援に注力しており、各種プレゼンビデオのYoutubeでの公開、CUDAやOpenACCのトレーニングプログラム等を増やし、スキルアップの機会を充実することを心がけているとの説明がありました。また、若い層への教育も重要と考え、東京工業大学と協力して高校生向けの「CUDAサマーキャンプ」も実施しています。今後、GPUコンピューティングを更なる発展に導くためには、こうしたベンダーと開発者との関係性が非常に重要であると考えているとの事です。

 

CUDAフェローに選ばれた東工大教授の青木先生

 エヌビディアは、CUDAアーキテクチャやGPUコンピューティングに関した研究、教育などを通じて、その普及に特に多大なる貢献を行ってこられた方をCUDAフェローとして招き、表彰しています。これまで10名のCUDAフェローがいらっしゃいましたが、今回日本人で初めて東京工業大学教授の青木先生が招待されました。Steve Furney-Howe氏の講演中に呼びかけにより登壇され、CUDAフェローに選ばれた経緯と、ゴードンベル賞を受賞された研究内容についてお話されました。

 

話題のトピックス

 午前の基調講演が終わると、午後は8つの各テーマに分かれたセッションおよびGPGPUに関する研究のポスターセッションが行われました。
    セッションの詳細はコチラ⇒http://www.gputechconf.jp/page/sessions.html
講演および各セッションを通して、特にホットな話題について御報告させて頂きます。

 

HA-PACS 次世代計算システム開発

 GPUを利用している研究者による研究紹介も多く行われました。ゴードンベル賞を受賞したフェーズフィールド法によるシミュレーション、津波解析、信号処理等の様々なアカデミック分野の講演が行われました。

 大規模なシミュレーションも多く行われるようになっており、計算機を利用する研究者と計算機システムの研究者が密にコミュニケーションをとる事が益々大事になっています。そんな中、本カンファレンスでは、そのコンセプトに昔から忠実に取り組んできた筑波大学 計算科学研究センターの朴先生より、エヌビディアGPUを搭載したHA-PACSクラスタの紹介がありました。本システムの目的は、素粒子物理や重力多体問題、生命科学といった分野にターゲットを絞り超並列GPUアプリケーションを開発する事、及び、高速なノード間通信を実現できるアーキテクチャを提案する事だと説明されていました。

 GPUはメモリバンド幅と演算性能が優れている一方で、その利用においてはPCI通信のバンド幅や通信レイテンシがボトルネックになる事がしばしばあります。これを乗り越えてゴードンベル賞クラスの計算がされています。ただ、もっと色々な問題に簡単に対処できれば理想的です。そこで朴先生のグループでは、ノード間の通信レイテンシの改善に取り組まれています。通常のInfiniBandシステムでは、異なるノードに属するGPU間のデータ転送を行う際、物理的には、GPUメモリからシステムメモリにコピーし、それをInfiniBandで他ノードのシステムメモリにコピーし、そこから転送先のGPUにコピーするという3ステップを踏みます。HA-PACSでは、PCI通信を使ってアドレス空間上での直接通信を可能にするチップ(PEACH2)とボードを開発されています。朴先生はこのノード間通信の事を ”True GPU Direct” と呼ばれていました。来年から16ノード程度の小さなクラスタで実験が進む予定だそうです。

 

Kepler世代 Tesla K20

 今最もホットなGPUの話題といえば、Scott氏の講演にでてきたK20でしょう。スポンサーの出展会場内ではCUDAの講習会等のチュートリアルが行われていましたが、そこでエヌビディアジャパン 馬路氏により、K20への入門講義が行われました。馬路氏は、元々並列度の高いアプリケーションを扱っていたGPUがGeForce8シリーズでシェーダ機能が汎用化されて超並列処理装置になったところから振り返り、Fermi世代、Kepler世代と続く進化をわかりやすく解説されました。

 Fermi世代では倍精度演算性能の強化に加え、L1/L2キャッシュとECCメモリが搭載されました。新しいKepler世代では、アーキテクチャ、回路、デバイスが大きく改造され、各種スペックが一層向上します。また、Fermi世代までは1つしかなかったワークキューが、K20のチップGK110では32にまで増えます。これがHyper-Qと呼ばれている機能です。これにより、あるストリームに属する順番待ちをしているカーネルを他ストリーム内のカーネルが追越せるようになり、GPUをより効率的に使えるようになります。Compute Capability 2.0以降では同時に最大16個のカーネルを実行可能でしたが、ワークキューが1つであるためそれを活かす事は難しく、コード内でうまく実行順序を組む必要がありました。GK110ではHyper-Qにより、その点が大幅に改善されます。最後には、エヌビディアは今後Maxwell世代GPUの開発に注力していく、という力強い言葉も飛び出しました。

 

広がりを見せるOpenACC

 今回の目玉の一つでもある、OpenACCを用いたディレクティブベースの並列化に関する講演も幾つか行われておりました。OpenACCの最大の利点は何と言ってもそのコストパフォーマンス性にあるでしょう。

  • 既存のプログラム(C、FORTRAN)にディレクティブ(挿入文)を追加するだけで自動的にGPU(アクセラレータ)に対応した並列化を行う
  • CUDAと異なり、数行の追加でGPU用の並列化が可能となるため、非常に簡便
  • 細かいオプションも設定可能なため、チューニングが容易
  • GPUがない環境では挿入文が無視されてコンパイルされるため、ポータビリティを失わない

CUDAで並列化させるよりも多少性能が落ちる(それでもCPUよりも遥かに高速)、OpenACCに対応したコンパイラが必要といった点はありますが、これまでその敷居の高さからGPUコンピューティングの導入を諦めていた方、開発にコストをかけずに並列化を行いたいといった方には、最適な手法ではないでしょうか。(ちなみに、OpenACCに関するチュートリアルとして、「ゼロから始めるコンピューティング」の第10~12回においても紹介しておりますので、宜しければそちらもご参考ください。)

 今回は

  1. 実践 PGI OpenACCディレクティブを使用したポーティング((株)ソフテック 加藤努 様)
  2. OpenACCによるFDTD法のGPU実装の高速化評価(仙台高等専門学校 園田潤 様)
  3. CAPS OpenACCおよびHMPPによるディレクティブベースでのMany-coreプログラミング(JCCギミック 小野寺高之 様)
  4. OpenACCとCray XKシステム向け科学計算ライブラリ/Libsci_ACCによるアクセラレータ・プログラミング(Cary Inc. 寺西慶太 様)
  5. GPUディレクティブに関するパネル討論会(NVIDIA Japan 平野幸彦 様)

とOpenACCの概要・導入から応用例まで幅広い層を対象とした講演がありました。いずれもOpenACCのインパクトがよく分かる内容で、今後のGPUコンピューティングには欠かせない手法の一つであることが確信できました。

 最後には、OpenACCのベンダー及びユーザーの皆様によるパネルディスカッションが行われました。どのようなプログラミングモデルでも、それが将来的に長く普及し続けるためには、それが簡単である事、それを使えば効果がでる事、の2つが必要です。例えばC/C++/Fortran、MPI等がそうです。ベンダーサイドからは、OpenACCもまたこの2つの条件を強く満たしているので心配なく利用していただける、という説明がありました。実際、OpenACCユーザーからは「OpenMPと同じだけ普及する感覚がある」、非ユーザーからは「解析はしたいがプログラムはなるべく書きたくない。ディレクティブだけで簡単に高速化できるなら魅力であり、是非使ってみたい」といった意見が飛び出し、OpenACCの有用性が明確にされたディスカッションとなりました。ベンダーの皆様も、今後はOpenACCのサンプルコード等の技術情報を積極的に提供し、その普及活動に注力していく事を約束されました。

 

イベントの様子

各スポンサー様の展示(左)およびポスターセッション(右)
 
弊社G-DEPの展示の様子
多くの方々に足を運んで頂きました。有難うございます!

 

以上、GTC JAPAN 2012に関するレポートでした。GTC Japan 2012 当日の講演ビデオはYoutube エヌビディア ジャパン チャンネル で公開されていますので、よろしければ是非ご覧下さい。

G-DEPは今後もさらなるGPUコンピューティングの発展に期待を寄せています。

(G-DEP 河井、岡安)