
並列計算技術研究の第一人者である東京大学・奥田洋司教授とプロメテック・ソフトウェア株式会社の共同研究のもと製品化された、マルチGPUとマルチコアCPUに両対応した共役勾配法(CG法)のライブラリです。
ユーザーが開発する流体・構造解析等のプログラムで、連立一次方程式の求解部分がホットスポットとなっている場合には、その部分をPrometech MCLに置き換えるだけで、簡単にマルチGPUを活用してプログラムを高速化することができます。
マルチGPUやマルチコアCPUを手軽なアクセラレータとして活用したい研究者や技術者にお奨めのライブラリです。
製品の特徴
-
利用方法はユーザーのプログラムから疎行列データをPrometech MCLに渡すだけ!
-
GPU上で計算性能を出すための手間のかかるハンドチューニングは不要!
-
マルチGPU特有の煩雑なスレッドパターン管理・エラー管理は不要!
1台のPCでCore i7(1core)の10~15倍の計算速度を実現!
|
下記は典型的な疎行列及び粒子法シミュレーションにおいて生成される疎行列を例として、NVIDIA Tesla C2050を使用した場合のスピードアップを実測したものです(MAS-i7WSを使用)。
スピードアップのパフォーマンスは疎行列のサイズと性質によって異なりますが、NVIDIA Tesla C2050を3枚使用して、おおむね、10~15倍の計算速度(※)を実現することができます。
※連立一次方程式の求解計算部分が10~15倍速になるという意味であり、本ライブラリを組み込んだアプリケーション全体の実行速度が10~15倍速になる訳ではありませんので、ご注意下さい。
|
 |
 |
組み込みは簡単!
|
ユーザーのプログラムで連立一次方程式の求解計算を行う部分の疎行列データをCSR形式でPrometech MCLに渡すだけで、マルチGPUを活用して高速に計算を行うことができます。ユーザーのプログラムの疎行列データがCSR形式で表現されていれば、Prometech MCLをユーザーのプログラムに組み込むのに要する時間は30分~半日程度です。
CUDAやGPU向けコンパイラを使用して、十分なパフォーマンスを達成するために、GPUアーキテクチャを意識したチューニングや効果的なコンパイラディレクティブの記述が必要になりますが、Prometech MCLでは、既に共役勾配法アルゴリズムに最適なチューニングが施されていますので、ユーザーはGPUのアーキテクチャを意識する必要がありません。
もちろん、上級ユーザーは連立一次方程式の求解計算以外の部分について、ユーザー自身でCUDAプログラミングを行うことも可能です。
|
|
 |
日進月歩で進化するGPUアーキテクチャにも柔軟に対応!
|
GPUコンピューティングの技術革新のスピードは速く、ハードウェアのアーキテクチャは毎年のように進化しています。
ユーザーが自分でCUDAプログラミングを行う場合には、ハードウェアのアーキテクチャが変更される度に、CUDAプログラムのチューニングをやり直さなければいけませんが、Prometech MCLを利用してプログラムを開発しておけば、新しいGPUカードが発売された場合には、GPUカードを最新のものに差し替えるとともに、Prometech MCLを最新のバージョンにアップデートするだけで、ユーザーのプログラムには大きな変更を加えることなく、最新のGPUの演算性能を活用することができます。
|
|
 |
CPUとGPUの両方に対応!
|
近年のCPUやGPUの高度なアーキテクチャを十分に活用するには、ハードウェア寄りのチューニングテクニックだけなく、アルゴリズムレべルでの継続的な研究研究が不可欠です。Prometech MCLは、東京大学との堅固な共同研究体制のもと、継続的な機能や性能の向上を目指しています。
また、Prometech MCLは、自社のアプリケーション「Particleworks」での高速化エンジンとして利用されているのみならず、サードパーティーのソフトベンダーにもOEM提供することで、実務での運用実績を積み重ねています。
|
|
 |
パフォーマンス確認のための無料評価ライセンスをご用意
30日間機能限定なしでPrometech MCLを試用できる無料評価ライセンスをご用意しております。
ユーザーのプログラムに組込んで頂き、パフォーマンスをお試し下さい。
無料評価ライセンスにつきましては、「評価版お申込み」タブからお申込み頂けます。 |
|
適用事例:構造解析(有限要素法) |
適用事例:流体解析(粒子法) |
 |
 |
提供:東京大学奥田研究室
プロメテックMCL
|
製品名 |
反復解法高速化ライブラリ Prometech MCL Ver.1.0 |
|
対応CPU |
Intel社製・AMD社製 x86互換 2GHz以上 |
対応GPU※1
(演算用GPU) |
倍精度演算に対応したNVIDIA社製GPU
(NVIDIA®RTeslaシリーズ、NVIDIA®GeForceシリーズ、NVIDIA®Quadroシリーズ) |
|
対応OS※2 |
Windows XP以降 (32bit/64bit)
RedHat社製 RedHat Enterprise Linux (32bit/64bit)
Novell社製 SuSE Linux Enterprise (32bit/64bit)
Fixstars社製 Yellow Dog Enterprise Linux for CUDA
Cent OS 5.5 (32bit/64bit)
Mac OS 10.5 (32bit/64bit)
|
|
対応コンパイラ |
Windows |
Microsoft Visual C++ (VisualStudio 2008以降)
Intel compiler 11.1 |
|
Linux |
gcc compiler 4.1, 4.3, 4.4
Intel compiler 11.1 |
|
Mac |
gcc compiler 4.0 |
|
連立方程式の求解アルゴリズム |
前処理付き共役勾配法 |
|
前処理行列 |
ヤコビ(対角スケーリング) |
(CPUでの計算、シングル/マルチGPUでの計算に対応) |
|
IC0(不完全コレスキー) |
(CPUでの計算、シングルGPUでの計算で対応) |
|
SSOR(対称逐次過緩和) |
(CPUでの計算、シングルGPUでの計算で対応) |
|
計算精度※3 |
単精度(float), 倍精度計算(double, float2), 拡張倍精度(long double, double2) |
|
API |
C++及びC |
|
疎行列のデータ格納形式※4 |
行列入力:CSR形式、対称正定値実数行列 |
|
マルチノード対応※5 |
同一のマザーボード上に装着された複数のGPUカードに対応しております。 |
※1 NVIDIA社製以外のGPUには対応しておりません。
※2 上記以外のLinuxでも動作する場合がありますので、お問合せ下さい。
※3 long doubleは単独CPU環境で対応
※4 非対称行列, 複素数には対応しておりません。
※5 マルチノード(PCクラスター)には対応しておりませんので、ご注意下さい。
ライセンス形態及び価格
・年間ライセンス 475,000円(※1)
・買取ライセンス 1,200,000円(※2)
・教育用年間ライセンス 185,000円(※3)
・無料評価ライセンス 30日間機能限定なしで無料で評価可能
(※1)年間ライセンスはライセンス有効期間中(1年間)のサブスクリプション込みの価格です。
(※2)買取ライセンスはご購入日から1年間のサブスクリプション込みの価格です。ご購入日から2年目以降のサブスクリプションは買取ライセンス価格の20%(240,000円/年)になります。
(※3)教育用年間ライセンスは教育機関のみご購入できます。ライセンス有効期間中(1年間)はバージョンアップ版を無償で提供致します。但し、教育用年間ライセンスにはテクニカルサポートは付属しておりません。テクニカルサポートを必要とされるお客様は、通常の「年間ライセンス」をご購入下さい。
サブスクリプションについて
サブスクリプションの内容は、契約期間中のテクニカルサポート及びバージョンアップ版の無償提供になります。
テクニカルサポートについて
・原則メールベースでのサポートとなります。
・サポートは土日・休日を除く平日に対応させて頂きます。
・お客様のプログラムの高速化に関する個別のコンサルティングは別途有償となります。
・無料評価ライセンス、教育用年間ライセンス及びサブスクリプションの契約期間が満了している場合は、サポートの対象外となりますので、予めご了承下さい。
・お問い合わせ内容によっては回答にお時間をいただく場合がございます。