【生命体シミュレーションのためのデータ同化技術の開発】

目的と意義

生物学的データの顕著な特徴として、データの高次元性（エクソンアレイでは数百万次元）と、異質性（配列、構造、ダイナミクス等）が挙げられる。故に、これらの特徴を持つ大量のデータを解析し、その情報を、シミュレーションモデルに取り込むためのデータ同化手法の開発を行う必要がある。データ同化とは、数値物理シミュレーションモデルに含まれる変数を物理モデルと観測データの両方をなるべく満足するよう修正する手法であり、近年海洋学・気象学において研究が進んでいる。ただしデータ同化においては、シミュレーションモデルが含む変数の次元(個数) が数百次元から数百万次元（時には一千万）程度に、また観測の次元も数十から数万（エクソンアレイの場合は数百万）となるため、我々はさまざまな計算の限界に挑戦しなくてはならない。また通常取り扱う設定では、データの次元がシミュレーションの次元よりかなり小さいため、逆問題から起因するさまざまな計算上の数値的困難さも同時に克服する必要がある。データ同化には大別して二つの流儀があるが、我々はアンサンブルカルマンフィルタ、粒子フィルタ、混合カルマンフィルタを中心に、逐次データ同化とよばれる同化手法の研究と応用を行っている。これらはすべてアンサンブルベースの技術である。つまりシミュレーションの時間発展解を一本の糸としてではなく、それらが多数集まった束として捉える。アンサンブルの時間発展を解くことにより、データ（諸計測環境，個体差，個人差等）に適応した生体生命体シミュレーションを実現し、また不確定要素を排除できない現状においてリスクを織り込んだ形の予測を可能にするわけである。この枠組みではアンサンブルメンバー一つ一つが通常の一つのシミュレーションに相当するため、逐次データ同化計算の実現には最低でもアンサンブルメンバー数に比例した計算時間とメモリーが必要となる。これらの技術を用いて、超大量データ解析とシミュレーションの融合に基づく、個人差を考慮した投薬量・最適投与プロセスなどの開発等が成果として期待される。また、生命科学を予測可能な科学へともっていくための現実的な解のひとつを創り出す。

ソフトウェアの機能

「個」のデータを「一般」のモデルに合理的にフィットさせる生命システムのためのデータ同化を柱としたプログラム群。

入力	「一般」のシミュレーションモデルと「個」のデータ
出力	「個」のデータに合理的にフィットした予測モデル

図：逐次データ同化技術：アンサンブルベースフィルタ。

何ができるか

データ駆動型イン・シリコネットワークモデリングの自動化

観測データに即したシミュレーション、すなわち観測データをペタスケールコンピュータ上で学習させ、シミュレーションモデルのパラメータ探索、仮説ネットワークモデルの生成の自動化が可能になる。

将来は

個人、環境に適したパーソナライズされたシミュレーションにもとづく解析と予測が今後重要。データ同化はその実現に必須の技術。

誰が使うのか

開発段階では研究者
完成時にはＣＯＥ的な先端的医療病院の技師

追補

GPUクラスタに関するＱ＆Ａ

平成２０年度の実施計画

１）生命科学領域におけるデータ同化技術開発研究及び応用例の調査

次世代スーパーコンピュータの計算能力の利用を視野に入れた、大規模かつ複雑精緻なものとなるシミュレーションモデルと、飛躍的に増大することが予想される観測・計測データの融合技術の開発は急務である。その実現のために、ここでは、気象・海洋学の分野で発展してきた、データ同化とよばれる枠組みを用いる。本年度も、生命科学領域におけるデータ同化技術の研究開発の動向および応用例の調査を引き続き行う。生物学的データ解析の顕著な特徴である、ケース数が極端に少ないもとで複雑なシミュレーションモデルをそのまま取り扱わねばならない状況は、パラメータ推定の性能低下や解の不定性につながる。そこで視点をかえ、概線形モデルというシミュレーション内の要素モデルのクラスを定義し、その中でネットワークモデリングを行う戦略を採用する。

２）超高次元粒子フィルタ技術の高度化

データ同化技術には大別して逐次型と非逐次型の２流派あるが、逐次型は既存のシミュレーションモデルを平易にプラグインできることから、今後は逐次型への研究開発の比重は高まるものと予想できる。本年度も逐次型に研究資源を集約してパラメータ推定問題を念頭においた逐次データ同化手法を研究開発する。特に、粒子フィルタとアンサンブルカルマンフィルタの各々強みを生かした、状態推定およびパラメータ推定手法の技術開発をすすめる。

３）MCMCを用いた時不変超高次元パラメータ推定技術の開発

データ同化技術の中で喫緊に取り組むべき具体的な問題として、シミュレーションモデルに内在する時間に依存しない（時不変）超高次元パラメータベクトル値の推定があげられる。この問題に対して単純に粒子フィルタを適用しても良好な結果を得られないことが予想される。この問題の克服に、生物学的事前情報の活用や正則化条件を課すなど、事前分布を適切に設定しながらその事後分布を評価するアルゴリズムの検証をすすめる。この中で、事後確率最大化解を求める、非逐次型データ同化手法の有効性を検討する。

平成１９年度の実施計画

１）生命科学領域におけるデータ同化技術開発研究及び応用例の調査

次世代スーパーコンピュータの計算能力の利用を視野に入れた、大規模かつ複雑精緻なものとなるシミュレーションモデルと、飛躍的に増大することが予想される観測・計測データの融合技術の開発は急務である。その実現のために、ここでは、気象・海洋学の分野で発展してきた、データ同化とよばれる枠組みを用いる。本年度は、生命科学領域におけるデータ同化技術の研究開発の動向および応用例の調査を上半期に行う。

２）超高次元粒子フィルタ技術の高度化

データ同化技術には大別して逐次型と非逐次型の２流派あるが、逐次型は既存のシミュレーションモデルを平易にプラグインできることから、今後は逐次型への研究開発の比重は高まるものと予想できる。本年度は逐次型に研究資源を集約してパラメータ推定特化型逐次データ同化手法を研究開発する。特に生物学的データの顕著な特徴である、ケース数が極端に少ない設定のもとでの、粒子フィルタをもちいた状態推定およびパラメータ推定手法の技術開発をすすめる。シミュレーションモデルとしては、Hybrid Functional Petri Netと呼ばれる、グラフィカル言語により構成されたパスウェイシミュレーションモデルを用いる。

３）MCMC を用いた時不変超高次元パラメータ推定技術の開発

データ同化技術の中で喫緊に取り組むべき具体的な問題として、シミュレーションモデルに内在する時間に依存しない（時不変）超高次元パラメータベクトル値の推定があげられる。この問題に対して単純に粒子フィルタを適用しても良好な結果を得られないことが予想される。今年度は、この問題の克服に、パラメータの事前分布を適切に設定しながらその事後分布を評価する枠組みを検討する。MCMC法、特にギプスサンプラーを利用した事後分布推定手法の有効性を調べる。

平成１９年度の実施内容（成果）

１）生命科学領域におけるデータ同化技術開発研究及び応用例の調査

次世代スーパーコンピュータの計算能力の利用を視野に入れた、大規模かつ複雑精緻なものとなるシミュレーションモデルと、飛躍的に増大することが予想される観測・計測データの融合技術の開発を、気象・海洋学の分野で発展してきたデータ同化とよばれる枠組みを我々は用いて進めている。我々は生体内分子ネットワーク予測に、データ駆動で構築したイン・シリコシミュレーションモデルを世界に先駆けて活用した。調査の結果、このようなデータ同化手法によるイン・シリコシミュレーションモデルに基づく生体内分子ネットワーク予測について、我々の研究チーム以外では具体的な成果がうまれておらず、また類似の研究はまだ１，２の論文発表が目につく程度であり、我々の先駆性は揺るぎないことが分かった。しかしながら、欧州にて小規模ながら同等の研究目的の研究会が開催されていることも判明したので、我々の研究活動の先駆性を国際的にアピールしながら、同時に研究開発のスピードを加速する必要性も深く認識できた。

２）超高次元粒子フィルタ技術の高度化

本年度は逐次型に研究資源を集約してパラメータ推定特化型逐次データ同化手法を研究開発した。シミュレーションモデルとしては、Hybrid Functional Petri Net(HFPN)と呼ばれる、グラフィカル言語により構成されたパスウェイシミュレーションモデルを用いた。粒子フィルタを利用したデータ同化手法は実装が最も簡単であるが、フィルタリングを何度も繰り返すうちにアンサンブルを構成する粒子の多くが同一もしくは互いにきわめて近い値を取るようになり、状態の確率分布がうまく表現できなくなってしまう場合があるという問題があった。この問題を解決するために、フィルタ分布を表現するアンサンブルの各粒子を生成する際に、予測分布アンサンブル中の複数の粒子を用いることで、多様性を維持するMerging Particle Filter (MPF) という新たなアルゴリズムを開発した。

３）MCMC を用いた時不変超高次元パラメータ推定技術の開発

データ同化技術の中で喫緊に取り組むべき具体的な問題として、シミュレーションモデルに内在する時間に依存しない（時不変）超高次元パラメータベクトル値の推定があげられる。この問題に対して単純に粒子フィルタを適用しても良好な結果を得られないことが予想される。今年度は、この問題の克服に、ベイズ正則化推定を中心に研究を実施した。一般にHFPN によって作成されたシミュレーションモデルは非線形な関数で表現されており、最適化問題を直接解くことは困難であるので、概線形モデルというHFPNのサブクラスを定義し、その中でネットワークモデリングを行う戦略を採用した。サーカディアンリズムに関わる転写制御フィードバックシステム系のマウス遺伝子発現データをテストケースとして、情報抽出および数値性能の側面から開発手法の評価を行った。

project_higuchi.txt · 最終更新: 2011/03/21 10:17 (外部編集)

ソースの表示

文書の先頭へ