今回の高速演算記 第17回は、第15回にインターコネクト選択で失敗しないためのポイントをご紹介頂きました、 QLogic Limited日本支社 郡司 茂樹様よりGPGPUクラスターが近い将来どのように発展していくのか、 特にInfiniBandとの関連性から見えてくる部分についてご寄稿頂きました。 GPU搭載ノードをつなぐ技術 ~GP...
今回の高速演算記第16回は私共G-DEPが技術指導を頂いております東北大学大学院情報科学研究科の滝沢寛之先生に 11月米国シアトルで開催されたSC11のレポートをご寄稿頂きました。 滝沢寛之先生 プロフィール はじめに 今年、高性能計算分野の最高峰会議であるSC11は、米国シアトルで開催されました。すでに日本でも大々的に報道されたとおり...
今回の高速演算記 第15回はQLogic Limited日本支社 郡司 茂樹様より インターコネクト選択で失敗しないためのポイントをご紹介していただきます。 GPU搭載ノードをつなぐ技術  ...
今回の高速演算記第14回は前回に引き続き、私共G-DEPのユーザーであり、先日行われたNVIDIA GTC Workshop Japan 2011テクニカルセッションのプログラムでもご登壇された分子科学研究所 丸山豊博士に、「multi-GPUへの実装と3D-RISM理論の創薬への適用」に関して寄稿頂きました。 multi-GPUへの実装と3D-RISM理論の創薬へ...
今回の高速演算記第13回は私共G-DEPのユーザーであり、先日行われたNVIDIA GTC Workshop Japan 2011テクニカルセッションのプログラムでもご登壇された分子科学研究所 丸山豊博士に、「分子性液体の積分方程式理論(3D-RISM理論)の解法とGPUによる高速化」と題して寄稿頂きました。 分子性液体の積分方程式理論(3D-RISM理論)の解法と...
以前よりGeForceシリーズでは512個のFermiコアを搭載した GeForce GTX 580 が販売されていますが, この度, Teslaシリーズでも512個のFermiコアが搭載された Tesla M2090 が発売されることになりました. 今回, NVIDIAの協力を頂き, Tesla M2090の販売開始にあたって, テクニカルサンプルを貸与頂き, 評価する機会を...
高速演算記第11回 「特別寄稿」 セールス・エンジニア テクノロジー、エヴァンジュリスト ウルフラム・リサーチ・アジア・リミテッド 中村英史 プロフィール Mathematica8 と HPC 本稿では、Mathematica V8 から見た GPU の他、先端的な技術としての GPU について論じてみたいと思います。 (*本記事...
今回の高速演算記第10回は前回に引き続き私共G-DEPが技術指導を頂いております東北大学大学院情報科学研究科の滝沢寛之先生にGPUとCPUの性能比較について寄稿頂きました。 滝沢寛之先生 プロフィール 1.はじめに 最近、「GPUを使ったら××倍の速度向上を達成できました!!」というような景気のよい宣伝文句をよく聞くよ...
今回の高速演算記第9回は私共G-DEPが技術指導を頂いております東北大学大学院情報科学研究科の滝沢寛之先生に、先日行われたSC'10について寄稿頂きました。 滝沢寛之先生 プロフィール 1. GPUスパコンの台頭 ACM/IEEE Supercomputing Conference(通称SC)は毎年11月中旬に開催されているHPC分野最大かつ最高峰の国際会議です。例年1万人程度の参加者数...
以前より紹介しているFermiの新機能、今回はハードウェアの改良によって充実されたC++機能のサポートについて紹介したいと思います。Fermiでは40bitのアドレス空間を新たに設け、それまでは別々の命令によってアクセスしていたローカルメモリ、共有メモリ、グローバルメモリが統合された空間に配置され、一つの命令によってアクセスすることが可能となりました。ポインタが指すアドレスによって、どのメモ...
今回はCUDAのSDK[1]に含まれるサンプルプログラム reduction を例に実際のカーネル記載について説明していきたいと思います。プログラム本体はNVIDIA社の開発者サイトからCUDA SDKをインストールすることによりご覧頂くことが可能です。 リダクションとは総和計算などn個の配列要素から、演算により一つの値を求める作業です。本例では総和計算をCUDAカーネルで記述する場合を説...
GTC現地レポート3回目は開催期間中に展示されていたポスター、セッション内容についてレポートしたいと思います。 今年は3日間にかけて1回50分のセッションが開設されていましたが、1コマにつき14程度の講演が同時進行していたため数点のみピックアップしてレポートしていきます。ポスターセッションの一つでスタンフォード大学で行われているモーションキャプチャについての展示がありました。深度情報を出力...
GTCレポート2回目ではGPUの計算利用がどのような分野で応用されているかを紹介していきたいと思います。 GTC2日目の招待講演では計算生物学でのGPU利用が紹介されました。発表者はイリノイ大学のKlaus Schulten教授で彼は2006に同大学のDavid Kirk教授とWen Mei Hwu教授にGPUコンピューティングを紹介されました。そして、Schulten教授はGPUの潜在能...
NVIDIAが主催するカンファレンスGPU Technology Conferece 2010が米国サンノゼで開始されました。G-DEPでも最新のGPU事情をお届けする目的で参加しています。初日はJen-Hsung Huang 社長兼CEOの基調講演がありましたので今回はそこで発表されたものについて紹介することにしました。 NVIDIAではVisual Computing, Parallel...
今回はFermi解説から一旦はずれ、実際にプログラムを開発する際のチューニングポイントを紹介したいと思います。CPUで実行していたコードをそのままGPU上で動作させても速度向上が得られない場合は以下の点を確認してみてはいかがでしょうか。まずはじめに基本機能のおさらいをしたいと思います。前回からご紹介している通り、Fermi内部ではマルチプロセッサと呼ばれる実行ユニットが複数存在しています。各...
前回コラムではFermiに採用された新メモリアーキテクチャについて紹介しました。Fermiは新しくL1キャッシュとL2キャッシュを搭載し、グローバルメモリアクセスが改善されています。そしてCUDA Toolkit 3.1に含まれているPTX ISA 2.1のマニュアルには、このキャッシュに関連する記載が新たに加わっています。 今回は新たに加わった命令をもとに、L1, L2キャッシュについてレ...
2010年5月にNVIDIA社から待望の新世代GPUであるFermi(Tesla C2050 / GeForce GTX 480 / GeForce GTX 470)が発売されました。大きな期待をもって既に購入された方も多いかと思いますが、Fermiで十分なパフォーマンスを達成された方は、まだ多くはないのではないでしょうか。 FermiはこれまでのGPU...