【大規模タンパク質ネットワーク推定とその応用 】

目的と意義

遺伝子に刻まれた設計情報に従い、実際に生体内で多くの役割を果たすのがタンパク質分子である。ヒトの体内では10万種を越すと言われるタンパク質分子が互いに複雑に相互作用することにより、情報伝達、物質輸送、細胞構造の維持、酵素反応の触媒など様々な生命機能が担われている。しかし、複合体構造が確認されているタンパク質はまだ少なく、10万×10万におよぶ組合せの中から、実際に細胞内のどの区画でどのタンパク質が相互作用をするのかを調べ、タンパク質間の相互作用(PPI)ネットワークを知ることが求められている。タンパク質間相互作用ネットワークの推定は、生命体の理解の上での大きな挑戦であるとともに、最近の創薬トレンドがタンパク質間相互作用の阻害薬の発見に向かっている事などから産業的にもきわめて重要であり、計算でこれを解明する意義が大きい。秋山らが開発してきたプロトタイプ環境は、常に3TFLOPS程度の計算資源を使用していた。これは、BlueGene並列計算機の 1 midplane (1/2 rack)に相当し、約5.6GFLOPSの計算ノードが512ノードから成り、高速な三次元メッシュネットワークで接続されていた。この3TFLOPS程度での計算の経験から、必要なスパコンの能力を以下に推定する。(注:利用していたBlueGene並列計算機は全体では8midplaneを有し、22TFLOPS程度の性能があるものの、そのうちの1/8程度しか占有できなかった。なお並列化効率はきわめて高いので、全体を効率良く利用することも可能であった。)現在のプロトタイプ版では、3TFLOPSを用いて、1日に約1,500組のタンパク=タンパク相互作用の評価が可能である。1週間で約1万組、1年間で50万組の評価を行えることになる。しかしながら、現在の計算手法では会合が明かなものは感度良く報告できるものの、擬陽性が多いなどの問題もあるため、データ同化の手法によりパラメータを最適化した上で、異なる5通り程度の計算で(計算量は5×5=25倍となる)最低限計算する必要があると見積もられているので、1週間で400組、1年間で2万組と考えておくのが妥当である。創薬で興味の深いタンパク質を、(10万種の中から、その1%にあたる)1000種に絞ったとしても、1000×1000の総当たりの評価では100万組の計算が必要であり、上記のままでは、50年間を要することになる。ここで、既知データの知識を生かして、総当たりを避けて対象を絞ることも可能ではあるが見逃しが多く発生してしまう。もしも1PFLOPS程度のシステムが利用できれば、これは現状の3TFLOPSの333倍に当たるので、50年間ではなく、2ヶ月間程度で総当たりの評価が終わることになる。1PFLOPSの高額なシステムを2ヶ月間使用することは大変ではあるが、創薬に関連する1000種ものタンパク質間の相互作用が理解できれば、計算の価値は非常に高い。上記では簡単のために、1000×1000の総当たり計算ということに拘って説明したが、より現実的には、10万種のタンパク質を1%の1000種にまず絞ってしまうのではなく、10万種×10万種の候補の中から、データ解析の手法を活用して100万ペア程度を選んでから相互作用性の評価を行うことが考えられる。この研究の優れた特徴の一つは、投入できる計算パワーに応じて、計算ターゲットのペアの数を調整することも可能な点にある。上述の1PFLOPSが理想ではあるが、サブペタ級の計算でも、ライフサイエンス研究に貢献できる成果は、その規模に応じて得ることができる。

ソフトウェアの機能

  • 三次元物体の表面形状&物理化学特性マッチング。
入力専門形式(PDB)による2個のタンパク構造情報
出力ドッキング・ポーズの候補と評価スコア
  • 三次元複素配列間の畳み込み積分計算が中心(FFTの技法で O(n3 log n)の計算量で高速に実現する。)。

何ができるか

  • NMRやX線解析で解かれたタンパク質の構造から他のタンパク質とのドッキングの可能性を推定できる。
  • 計算の高速化および超並列化により、既知の多くのタンパク質間での網羅的なドッキングの検査が可能に。

将来は

  • NMRやX線解析で立体構造が得られた直後に、既知のタンパク質とのドッキングの可能性が示唆され、実験者に確認実験を示唆できる。また、計算機による立体構造予測の結果についても、ドッキングの可能性のチェックができる。

誰が使うのか

  • 開発段階ではタンパク質構造研究者。
  • 完成時には製薬会社による創薬ターゲット探索。

平成20年度の実施計画

本研究では、生命体の理解に向けて重要な鍵の一つとなる「タンパク質間相互作用ネットワーク」の推定を可能とすることを目的として、大規模データ解析の手法に基づき、超高速に候補タンパク質間の相互作用の可能性を調べる計算アルゴリズムを開発するとともに、既存の大規模並列計算機上で性能測定などを行う。
 現状の分子シミュレーション技術では、タンパク質分子間の会合の自由エネルギーを正しく見積もることは必ずしも容易とは言えない状況である上に、10万×10万にもおよぶ膨大な候補ペアの中から可能性の高い候補を絞り込むことは計算時間的に不可能であり、現実的な計算のためにはデータ解析およびデータ同化の技術を十分に活用する必要がある。そこで本研究では、アミノ酸配列情報、文献データ、局在性予測、質量分析データ、立体構造情報の5種類の情報を組み合わせるとともに、大規模並列化の技術を駆使して、この問題の解決を目指していく。
 平成20年度における、成果の目標および業務の方法は、下記のとおりである。

1)ターゲットタンパク群の選定

相互作用推定のターゲットとなるタンパク質群の選定について、平成19年度内に一部実施した選定作業を自動システム化することにより、大規模な選定作業を進める。具体的には、まず構造既知のタンパク質群をPDBデータベースから非冗長に一定数選択し、その周辺に構造未知のタンパク質を加える。またタンパク質の局在性予測技術を活用し、細胞内小器官を限定したタンパク質の選別も行える機能を備える。相互作用予測ターゲット対の大きさとしては、最大で1000×1000程度のセットの構築を目指すものとする。

2)部分的相互作用ネットワーク推定システムの並列計算機上への実装

平成19年度までに開発するタンパク質立体構造表面の形状相補性探索のモジュールに対して、溶媒自由エネルギーを考慮した新規ポテンシャルの評価項を加えることにより、正解ペアを探索する感度および選択度の向上を図る。これらの改良されたアルゴリズムは、推定システムの最も重要な部分となる。東工大のTSUBAMEシステム(Opteron, 10480CPUコア)上にプロトタイプシステムとして実装し、動作確認と並列性能評価を平成20年度内に行う。

3)統計的情報の活用による相互作用予測の研究

また一方で、アミノ酸配列情報、文献データ、局在性予測、質量分析データ、立体構造情報の5種類の統計情報をベイズ推定などの枠組みの上で情報融合することにより、上記手法を補完して、精度の高いネットワーク推定を行う方式を検討する。次年度以降に、統計的手法と形状相補性とを融合した推定システムを実装する方針であり、平成20年度はその準備に当てる。

平成19年度の実施計画

本研究では、生命体の理解に向けて重要な鍵の一つとなる「タンパク質間相互作用ネットワーク」の推定を可能とすることを目的として、大規模データ解析の手法に基づき、超高速に候補タンパク質間の相互作用の可能性を調べる計算アルゴリズムを開発するとともに、既存の大規模並列計算機上で性能測定などを行う。
 現状の分子シミュレーション技術では、タンパク質分子間の会合の自由エネルギーを正しく見積もることは必ずしも容易とは言えない状況である上に、10万×10万にもおよぶ膨大な候補ペアの中から可能性の高い候補を絞り込むことは計算時間的に不可能であり、現実的な計算のためにはデータ解析およびデータ同化の技術を十分に活用する必要がある。
 そこで本研究では、アミノ酸配列情報、文献データ、局在性予測、質量分析データ、立体構造情報の5種類の情報を組み合わせるとともに、大規模並列化の技術を駆使して、この問題の解決を目指していく。
 平成19 年度における、成果の目標および業務の方法は、下記のとおりである。

1)ターゲットタンパク群の選定

まず、相互作用推定のためのターゲットとなるタンパク質群の選定を行う。このとき、構造が既知であるタンパク質群をまずPDBデータベースから非冗長に一定数選択し、その周辺に構造未知のタンパク質を加えていく。ターゲットとなるタンパク質のPDBからの選定に当たっては、これまでに開発済みの局在性予測技術により、細胞内小器官を限定してタンパク質を選別する。
 相互作用予測ターゲット集合の大きさとしては、100×100の組を当面の課題とするが、将来の課題となる1000×1000のセットの構築も平成19年度内に並行して検討する。

2)部分的相互作用ネットワーク推定システムの並列計算機上への実装

また、これまでに開発してきたタンパク質立体構造表面に関する形状相補性および単純な物理化学的プロファイルの高速なFFTによる比較アルゴリズムに関しては、性能改善のためのチューニングを平成19 年度内に行う。東工大のTSUBAMEシステム上への移植作業を平成19年度内に進める。

3)統計的情報の活用による相互作用予測の研究

上記1)により平成19年度途中までに開発する100×100程度のデータセットを標的として、アミノ酸配列情報、文献データ、局在性予測、質量分析データ、立体構造情報の5種類の情報からうまく情報を融合することにより、ネットワーク推定を試みる。
 このような網羅的な相互作用解析を可能とするための、全自動のジョブ運用システムの開発を進めるとともに、相互作用性の判定のための評価関数の各パラメータについて、数多くの実施データの結果をフィードバックすることにより、データ同化の手法を用いて最適化を図る。また、将来の1000×1000などの大規模解析に展開するための課題の洗い出しと計算量の見積を行う。

平成19年度の実施内容(成果)

本研究では、生命体の理解に向けて重要な鍵の一つとなる「タンパク質間相互作用ネットワーク」の推定を可能とすることを目的として、超高速に候補タンパク質間の相互作用の可能性を調べる計算アルゴリズムを開発している。手法の中核は、立体構造データからの形状相補性解析の高速並列実行であり、さらに配列情報、モチーフ情報や、種々の実験データからの証拠を融合して判定するシステムを目指している。
 平成19 年度における業務実績は、下記のとおりである。

1)ターゲットタンパク群の選定

相互作用推定のためのターゲットとなるタンパク質群の選定を行った。はじめに既存のZDock Benchmark(ボストン大)の構造セットを参考に実験を開始し、徐々にPDBデータベースから他の既知構造を加えるアプローチを取っている。タンパク群の選定に際しては、単に生物学的な分類上で非冗長なものを選ぶというだけではなく、技術的理由から2つの条件を考慮せねばならないことが判った。一つはタンパク質の大きさであり、大きな系ではFFT計算の設定を変えねばならないので大きさ毎の編纂が重要である。さらに重要なのはタンパク質の柔軟性であり、ほぼ剛体近似できるタンパクと大きな動きをするタンパクでは計算のアプローチが違うので分類して収集すべきことがわかった。当初予定を拡張して、生物のシグナル伝達系などの興味深い系からターゲットタンパク群を選定する作業を加えた。現在のところ、90×90程度までを実施しており、平成20年度以降にさらに大型の構造セットの選定を目指す。

2)形状相補性に基づく表面プロファイル比較ソフトウェアの高度化

東工大のTSUBAMEシステム上に形状相補性に基づく表面プロファイル比較ソフトウェアを移植した。また精度向上のために、計算結果の後処理システムを構築し、6通りのクラスタリング法を実装して性能の比較などを行った。従来までにも簡単なグループ化の提案はあったが、本格的な階層クラスタリングを試みている例は無く、また角度の誤差の取扱いなどにおいて新規の方法を開発した。

3)網羅的な相互作用ネットワーク推定の試験的実施

上記1)に述べた90×90程度のデータセットでの網羅的な相互作用ネットワーク推定を実施した。ただし、アミノ酸配列情報、モチーフ情報等との融合については、独立の研究としては進展したが平成19年度内には融合ができなかった。それに代わって、生物のシグナル伝達系などの興味深い系における網羅的解析を試験的に実施し、従来のペア間での網羅的解析とは全くことなる多体間の関係の予測をどのように進めたらよいのかを考察した。さらに、このような網羅的な相互作用解析を可能とするための、全自動のジョブ運用システムの開発を進め、相互作用性の判定のためのデータ処理の方法を数種類実装して比較を行った。

 上記のとおり、平成19年度の達成目標はおおむね実現できており、東工大のTSUBAME システム(現在、我が国最速)上で256~512CPUを利用した大規模かつ長時間の計算が既に稼働している。平成20年度からは1024CPUを越すブロックを予約し、さらに大型の計算を実施する計画が立っており、ペタコンに向けてのスケールアップを着実に進めている。
 本研究は既存の分子シミュレーションの方法とは補完的なアプローチであり、単純な幾何学的計算と、バイオインフォマティクス的なデータ解析を融合している点に特徴がある。また単に1対1でのタンパク質ドッキング予測の性能だけを追求するのではなく、世界に先駆けてシステム生物学的な課題に対する網羅的予測に取り組み始めた点も、今年度の大きな成果だと考えている。

project_akiyama.txt · 最終更新: 2011/03/21 10:17 (外部編集)
www.chimeric.de Creative Commons License Valid CSS Driven by DokuWiki do yourself a favour and use a real browser - get firefox!! Recent changes RSS feed Valid XHTML 1.0