====== 次世代スーパーコンピュータプロジェクトとデータ解析融合チームの研究に関する Q and A ====== 次世代スーパーコンピュータプロジェクトおよびデータ解析融合チームの研究している内容について Q and A 形式でまとめました. 文責:データ解析融合チームリーダ 宮野 悟 ===== 次世代スパコンプロジェクトはハードウェア(スパコン本体)を作るだけなのですか?次世代スパコンを使う研究はしていますか? ===== 次世代スーパーコンピュータプロジェクトでは,「(1)世界最先端・最高性能の『次世代スーパーコンピュータ』の開発・整備」の他に「(2)次世代スーパーコンピュータを最大限利活用するためのソフトウェア(=グランドチャレンジ・アプリケーション)の開発・普及」,「(3)次世代スーパーコンピュータの共同利用と学術情報ネットワークを介した全国のスーパーコンピュータの利用環境の整備」及び「(4)次世代スーパーコンピュータを中核とする世界最高水準のスーパーコンピューティング研究教育の拠点の形成」の 4 つを同時に進めています. 従って,次世代スーパーコンピュータ(以下,次世代スパコンと呼ぶ)のハードウェアを作るだけなのではなく,次世代スパコンを設置する建物の建設,次世代スパコンを利活用するソフトウェアの開発や新しい研究拠点の形成(研究設備の建設)も同じプロジェクト内(予算内)で同時に進められています. 次世代スパコンを使うための研究として上に掲げられている「(2)次世代スーパーコンピュータを最大限利活用するためのソフトウェア(=グランドチャレンジ・アプリケーション)の開発・普及」の具体的な中身(研究課題)として,ライフサイエンス(生命科学)分野から「次世代生命体統合シミュレーションソフトウェアの研究開発」及びナノテクノロジー分野から「次世代ナノ統合シミュレーションソフトウェアの研究開発」の 2 つのテーマで研究が進んでいます. 参考ウェブページ:http://www.nsc.riken.jp/project.html ===== 次世代生命体統合シミュレーションソフトウェアの研究開発とは何ですか? ===== 次世代スパコンを利活用するための研究開発プロジェクトとして「次世代生命体統合シミュレーションソフトウェアの研究開発」が,次世代スーパーコンピュータプロジェクトとしてハードウェア(次世代スパコン本体)の開発・製造と同時に行われています. このプロジェクトは理化学研究所が中心となって進めており,「次世代スーパーコンピュータの性能を十分に発揮させ,分子から全身まで生体内で起こる種々の現象を統合的に理解するためのシミュレーションソフトウェアの研究開発」を行うことを目的としています. 研究内容の概要としては「基礎原理(方程式・モデル)に基づいて現象に迫る『解析的アプローチ』と大量の実験データから未知の経路と法則に迫る『データ駆動型アプローチ』により,ミクロからマクロまで,異なるスケールの研究と実験データを統合的かつ有機的に結びつけ,次世代スーパーコンピュータの性能を最大限に発揮するペタフロップス・スケールのシミュレーションソフトウェアの開発に挑戦」するとし,また「得られた研究成果を,医療診断・創薬・ヘルスサイエンスなどの分野へ応用するため,実社会での活用を目指して,産業界との連携を積極的に進めていきます」という目標を掲げています. 参考・引用元ウェブページ: http://www.nsc.riken.jp/pamphlet2009/p7.html ===== 次世代計算科学研究開発プログラムとは何ですか? ===== 次世代計算科学研究開発プログラムは、次世代スーパーコンピュータプロジェクトにおけるグランドチャレンジアプリケーションのライフサイエンス分野の研究開発拠点として、「次世代生命体統合シミュレーションソフトウェアの研究開発」の研究開発を実際に行っている理化学研究所の研究プログラムです. 次世代計算科学研究開発プログラムウェブサイト:http://www.csrp.riken.jp/index_j.html 参考ウェブページ(概要): http://www.csrp.riken.jp/outline_j.html ===== データ解析融合チームとは何ですか? ===== 理化学研究所の次世代計算科学研究開発プログラムで進められている「次世代生命体統合シミュレーションソフトウェアの研究開発」は以下の 6 分野が集結し,次世代スパコンを利活用するソフトウェアの研究開発を進めています.データ解析融合チームはその内の 1 つです. * 分子スケール研究開発チーム * 細胞スケール研究開発チーム * 臓器全身スケール研究開発チーム * データ解析融合研究開発チーム * 脳神経系研究開発チーム * 生命体基盤ソフトウェア開発・高度化チーム データ解析融合チームは「膨大化するゲノムや遺伝子関連データをペタスケールで解析するアルゴリズムなどの応用技術を開発すると共に,データ同化によるデータとシミュレーションモデルの融合を図るモデル構築技術を開発」することを目的とし,「肺がんと薬」を共通の軸として研究しています. データ解析融合チームでは 4 つの研究課題を掲げ,それぞれを担当する 4 拠点から構成されています. * 大規模遺伝子ネットワーク推定とその応用 (東京大学 医科学研究所 ヒトゲノム解析センター) * 大規模ゲノム多型データと表現型データを関連付ける新規アルゴリズムの開発と、妥当性、有用性の検討 (理化学研究所 ゲノム医科学研究センター) * 大規模タンパク質ネットワーク推定とその応用 (東京工業大学情報理工学研究科) * 生命体シミュレーションのためのデータ同化技術の開発 (統計数理研究所) 参考ウェブページ 1:http://www.csrp.riken.jp/outline_j.html 参考ウェブページ 2:http://www.csrp.riken.jp/team_j.html 参考ウェブページ 3:http://dnagarden.ims.u-tokyo.ac.jp/petacom/doku.php?id=project ===== どのようなソフトウェアを開発していますか? ===== データ解析融合チームで開発している次世代スパコン用ソフトウェアはデータ解析融合チームウェブサイト内の「[[software|開発ソフトウェア]]」のページに掲載されています. ===== 研究の成果は公開されますか?開発されたソフトウェアを使用することは出来ますか? ===== 研究の成果は逐次,学術論文として公開されております.これまで発表した論文のリストは 「[[publications|発表論文]]」ページに掲載しております.開発されたソフトウェアは次世代スパコンの利用資格があれば利用できるようになる予定です.開発しているソフトウェアによってはソースコードなどがすでに公開されているものもあります. ===== スパコンでがんの研究をしていると聞きましたが両者が結びつきません.詳しく教えてください ===== ヒトゲノム計画により 2004 年にはヒトゲノムの完全解読が終了し,がんなどの疾患特異的ゲノム異常探索の基盤ツールとなるリファレンス配列が整備されました.このヒトゲノム計画の進展とともに,がんの分子レベルの解析において,遺伝多型(SNP)をベースにしたゲノムワイド関連解析 (GWAS) によるがん関連遺伝子の探索のほか,発現アレイや DNA チップを用いたゲノムコピー数解析,網羅的遺伝子発現解析(トランスクリプトーム),質量分析装置による網羅的蛋白解析(プロテオーム),代謝物質解析(メタボローム),さらに、がん特異的糖鎖修飾(グライコーム)などの研究が精力的に進められ、がんとゲノムの関係を多角的に捉えるための準備が整いつつあります.しかしながら,ゲノム上の個人差やゲノム・エピゲノム異常とそれらに起因するプロテオーム・メタボロームの変化が関わる,がん化に伴う細胞内プロセスについての基礎的理解を深めるためには,洪水のように集積された様々なゲノム網羅的な情報を適切に処理・解析し,有用な情報を抽出する必要が生じます.そこで,これら集積された膨大な情報を解析するために,10 ペタフロップス級のスパコンが必要となります. ===== 海外にもスパコンを使用してがんの研究を行おうとしているところはあるのでしょうか?もしあるとすれば,どのくらいの規模と研究費でですか? ===== あります.例えば,アメリカでは,国立衛生研究所 (NIH) の国立癌研究所 (National Cancer Institute) がシステム生物学の新展開として, 統合がん生物学プログラムICSB (Integrative Cancer Biology Program; http://icbp.nci.nih.gov) を発足させ、2007年までに9カ所のセンターを選定しました. その中で,がんシステム生物学センター (Centers for Cancer Systems Biology) の公募が行われ,2010年2月よりプロジェクトが運用される予定となっています. これは,(i) 実験システム生物学,(ii) がんの基礎生物学及び臨床応用に焦点をおいた数理モデリング・コンピュータシミュレーション,(iii) 人材養成の3つを主眼とするプロジェクトで, 1 センターあたり年間 2 億ドル(プロジェクト総額は年間 22.5 億ドル,5 年間で総額で 112.5 億ドル)の巨費を投じる予定になっています. この額を聞くだけで、如何にこの分野の今後の進展に対する期待が大きいかが分かると思います.これらのセンターでは, がんを複雑なバイオシステムとして解析する研究を促進することにより,最終的には様々ながんプロセスを予測できるコンピュータモデルを開発し, がんの進行を阻止することを可能にすることを目標に、統合がん研究者と数学・物理・情報科学・コンピュータ技術・イメージ科学の専門家とが一体になって同一のがんバイオロジーの問題解決に向かう準備を進めています. * The Integrative Cancer Biology Program (ICBP): Centers for Cancer Systems Biology (CCSB) * http://grants.nih.gov/grants/guide/rfa-files/RFA-CA-09-011.html * 理研八尾氏によるがんシステムバイオロジーの海外の動向 * http://blog.nikkeibp.co.jp/bio/BTJ/archives/2009/08/203533.html ===== この研究がどんなことに役に立つ可能性があるかを具体的に教えてください ===== データ解析融合チームが目指している目標の一つに,創薬技術への応用があります.製薬協 (http://www.jpma.or.jp/) の調べでは,新薬の開発成功率は約 1/20,000 と言われています.いいかえれば, いまの新薬開発の方法では,「新薬の候補物質」が 20,000 個あったとしても,有効性や安全性の試験が繰り返されて,9〜17年という長い期間を経て,「新薬」になるのはたった一つしかないということです. また,長期間にわたる新薬開発は,治療薬の高額化にもつながり,これによって国への医療費の負担が増え,医療費の自己負担割合が増えるという大きな問題をはらんでいます. 我々は,臨床応用を目指した数理モデリングとコンピュータシミュレーションを融合することによって, 新薬の候補の有効性や安全性をコンピュータ上で検証し,候補を絞りこむと同時に開発時間を短縮することで新薬の開発を加速させ, 新薬開発成功率の向上と医療費の負担軽減に貢献しようと日々チャレンジを続けています. これまで行った薬剤標的遺伝子の探索や病気や薬剤応答に関する遺伝子ネットワークの探索研究の中で,実際に高脂血症薬の新規ターゲット遺伝子候補の同定に成功しています. さらに,DNA チップによる個人の遺伝子発現データから肺がんの予後予測が出来る遺伝子群の発見に成功しています.これらの研究は大規模遺伝子ネットワーク解析によるものでスパコンなしでは不可能とされていたものです. ===== 次世代スーパーコンピュータプロジェクトでは専任の研究者が雇われていると聞きました.本当ですか? ===== 本当です.データ解析融合チームでは次世代スパコンを利活用するソフトウェアの研究開発のために専任の博士号を持つ研究者が 2009 年 12 月現在で 7 人雇用されています.また次世代生命体統合シミュレーションソフトウェアの研究開発全体で 70 人以上の研究者が雇用されています. ===== 次世代スーパーコンピュータプロジェクトが廃止になると多くの研究者が失職するって本当ですか? ===== 本当です.次世代生命体統合シミュレーションソフトウェアの研究開発プロジェクトでは 70 人以上の博士号の学位を持つ専任の研究者,および研究補助者として 18 人が雇用されています.次年度の採用はほとんどの場合締め切られていますので、このタイミングで廃止されると,次世代スーパーコンピュータプロジェクトで雇用されている多くの研究者が次の職のあての無いまま突然に失職することになります.日本では就職の場が無いため,2010 年 4 月以降は海外に職を求めるしかないと考えている研究者も現時点で実際にいます. このことについてデータ解析融合チームの宮野悟チームリーダが医療ガバナンス学会のメールマガジンに寄稿しております. http://medg.jp/mt/2009/12/-vol-376.html またこの寄稿は作家の村上龍氏を編集長とするメールマガジン JMM でも配信されました. http://ryumurakami.jmm.co.jp/dynamic/report/report22_1851.html ===== 次世代スパコンが完成するまで,スパコンを利用する研究をしている人たちは何をしていますか? ===== 理化学研究所次世代計算科学研究開発プログラムでは,次世代スーパーコンピュータのためのソフトウェアを開発するための小規模なスパコンを所有しております.また理化学研究所情報基盤センターのスーパーコンピュータは 2009 年の秋に新しくなりました.東京医科学研究所ヒトゲノム解析センターではゲノム研究専用のスパコンを所有している他,東京工業大学には有名な TSUBAME システムがあります.統計数理研究所も統計計算のためのスパコンを所有しております.データ解析融合チームの研究者はこれらのスパコンを使用して次世代スーパーコンピュータで使用するソフトウェアの研究開発をしています. 研究者は実際にスパコン上で動くソフトウェアのプログラミングだけでなく,どのような計算を行いどうプログラムを作れば,より良い計算結果が得られるのか日々研究を行い,論文を書いて発表をするという研究活動をしています.従ってプログラミングだけをしているわけではありません.データ解析融合チームの 4 分野それぞれ目標を掲げ,それを実現すべく日々研究を続けております.これら研究内容に関して詳しくは「[[results|研究成果]]」のページをご覧ください. ===== 次世代スパコンの建設が中止になった場合,これまで開発してきたソフトウェアはどうなりますか? ===== 開発しているソフトウェアは,その性能を次世代スパコン上で最大限発揮するようにチューニングされます.また,それらのソフトウェアは,次世代スパコンがあって初めて可能となる研究に多くは用いられます.従って,次世代スパコンの開発が中止になった場合,これまで開発してきたソフトウェアの多くは,表舞台に立つことなくその役目を終えることになります.いくつか少数のソフトウェアに関しては,そのノウハウを他のプラットフォームに流用できる可能性はあります. ===== これまでの研究成果を教えてください ===== データ解析融合チームのウェブサイト内の「[[results|研究成果]]」にこれまでの研究成果の概要が紹介されています. ===== NEC と日立が撤退した影響はないんですか? ベクトル機がなくなった影響はないんですか? ===== データ解析融合チームで開発しているソフトウェアはすべてスカラ機で動作することを前提としているため,我々のチームに限って言えば影響はありません. ===== 長崎大が格安でスパコンを作ったというニュースを見ました.これで次世代スパコンを置き換えることは可能ですか? データ解析融合チームで開発しているソフトウェアは動きますか? ===== 報道された長崎大学での成果は,大規模な GPU クラスタを利用して天文学・流体力学での計算を高速に行う計算手法を開発した,というものです.従って天文学・流体力学での計算に特化したソフトウェアによる成果であり,データ解析融合チームで研究開発しているほとんどのソフトウェアは動きません.従ってデータ解析融合チームが目的としている計算や研究はこのシステムでは実現不可能です. 現在開発・建設している次世代スーパーコンピュータは特定の目的ではなく汎用的な用途で利用できるスーパーコンピュータであるため,GPU をベースにしたようなシステムで置き換えることは不可能です. 参考ウェブページ:http://www.riken.go.jp/r-world/research/results/2009/090807/index.html ===== データ解析融合チームで開発しているソフトウェアは CUDA/GPGPU で動きますか? ===== データ解析融合チームでは汎用スーパーコンピュータである次世代スーパーコンピュータ向けにソフトウェアを開発しており, CUDA/GPGPU を前提としたソフトウェア開発はしておりません.一部の研究室では本プロジェクトとは別に CUDA アプリケーションの研究開発を行っているところはありますが,単一のソフトウェアに限られ基本的に CUDA/GPGPU ではデータ解析融合チームが目標とする計算は行えません. CUDA/GPGPU で高速化出来るソフトウェアは非常に限られます.また可能だとしても研究開発に時間が必要です.CUDA/GPGPU を前提とするならば専用の別プロジェクトとして研究する必要があるでしょう. [[GPUクラスタに関するQ&A]] もご参照ください. ===== 次世代スパコンの性能として 10 ペタフロップス 1 台で足りるのですか? ===== スーパーコンピュータを利用するものとしての立場から言えば,当然性能は高ければ高いほど良く,出来ることが増え,新しい発見に最初に到達出来る可能性が高まります.従って正直に言えば 10 ペタフロップス 1 台では足りない,という答えになります.実際,Top 500 リストにおいて総計で最も計算能力を有しているのは米国であり 1 ペタフロップス級が 2 台,100 テラフロップス級で 18 台設置されています.それに対して日本には 100 テラフロップス級が 3 台しかなく圧倒的に計算能力が少ないのが現状です.10 ペタフロップスの次世代スーパーコンピュータが完成して,やっと世界と勝負できるレベルになります. データ解析融合チームはハードウェアを開発する側ではありませんが,しかし最大限の技術開発を行い最高の性能のスーパーコンピュータを 2012 年に製造する,という目標を掲げた場合,1 台のスーパーコンピュータで到達できるレベルは 10 ペタフロップスが上限であると我々は理解しております.従いまして,次世代スーパーコンピュータの開発を契機として今後日本各地に同等性能以上のスパコンを早急に設置・整備していくことが日本の科学のために必要だと考えています. ===== 1 ペタフロップス x 10 じゃだめなんですか? ===== データ解析融合チームで研究開発しているソフトウェアは,次世代スーパーコンピュータで達成される 10 ペタフロップスを前提としており,1 ペタフロップスのスーパーコンピュータでは目標として掲げている研究を行うことは出来ません.データ解析融合チームではソフトウェアをただ開発しているだけではなく,次世代スーパーコンピュータと開発しているソフトウェアを利用して次世代の研究を行う予定でいます.従って,1 ペタフロップスのスーパーコンピュータが 10 台あったとしても目標として挙げている研究が全く出来なくなってしまいます. 実際に 10 ペタフロップスでどのような計算が可能になるか本ウェブサイト内の「[[software|開発ソフトウェア]]」のページや「[[project|研究課題]]」のページをご覧ください. ===== 次世代スパコンプロジェクトは研究者の夢を追いかけているだけなのですか? ===== 次世代生命体統合シミュレーションソフトウェアの研究開発では,国民の生命・健康に大きく貢献しうる研究を行っています.新しい生命科学を切り開き,医療技術を作り出すためにスパコンは欠かせません.このことについてデータ解析融合チームの宮野悟チームリーダが医療ガバナンス学会のメールマガジンに寄稿しております.ご覧ください. http://medg.jp/mt/2009/12/-vol-376.html またこの寄稿は作家の村上龍氏を編集長とするメールマガジン JMM でも配信されました. http://ryumurakami.jmm.co.jp/dynamic/report/report22_1851.html ===== 次世代スパコンプロジェクトが完了した後もスパコンはちゃんと使われ続けますか? ===== 文部科学省では「次世代スーパーコンピュータ戦略プログラム」と称して,完成した次世代スーパーコンピュータを用いてブレークスルーが期待される 5 分野を選定し,実施機関の公募を行っております. 選定された 5 分野は (1) 予測する生命科学・医療および創薬基盤, (2) 新物質・エネルギー創成, (3) 防災・減災に資する地球変動予測, (4) 次世代ものづくり, (5) 物質と宇宙の起源と構造,の 5 つです.この 5 分野で,次世代スーパーコンピュータを利用して重点的に研究を行っていく計画です. このプロジェクトは 2009 年の 12 月よりスタートする予定です. 参考ウェブページ: http://www.jst.go.jp/keytech/kouboh21-9.html ===== 次世代スーパーコンピュータに利用される CPU は国産ですか? ===== はい国産です.富士通が開発に成功した SPARC64 VIIIfx とよばれる世界最高性能の CPU が搭載される予定です. ===== 統計学で統計処理言語である R を多用しています.次世代スーパーコンピュータで R は動きますか? ===== R は統計計算において標準的に利用されているため,データ解析融合チームでは次世代スパコンで R が使えるように強く要望しています.