d_aim [李　晨]

この文書は読取専用です。文書のソースを閲覧することは可能ですが、変更はできません。もし変更したい場合は管理者に連絡してください。
====== ねらい ======



**シミュレーションモデルと現実データとの乖離を埋める技術の確立**

　本研究の特色は、生命体システムにおいて、データ同化技術による、シミュレーションモデルと現実データとの乖離を埋める技術の確立することにある。これにより、モデル・データ単独では得られない有用な情報を抽出可能なデータ駆動型大規模データ解析・シミュレーション技術の開発が可能となる。その結果、遺伝情報の網羅的解析に基づく個人差を考慮した投薬量・最適投与プロセスなどの開発や創薬ターゲット・毒性関与パスウェイ探索法の開発に貢献することができる。


===== 研究の背景 =====

　**高次元化・多様化・膨大化する遺伝子及び関連する情報とデータ解析**　 

　ゲノム解析技術の飛躍的な進歩により、生体分子情報を定量的・網羅的に取得し、生体反応を数理科学的に解析することが可能になりつつある。遺伝子産物ネットワークは20万種類のタンパク質やＲＮＡ、ゲノム上に想定される200万以上の機能単位と、その修飾情報や生体内局在情報から構成され、それらから構成される有意なパスウェイなどを予測するためには膨大な計算量を必要とすると考えられる。また、連鎖解析や関連解析により、ゲノム多型と質的、量的表現型の関連が明らかになってきている。既に、遺伝的効果が強く、しかもアレル頻度、あるいはハプロタイプ頻度が高い場合には、ゲノム多型と表現型の関連を検定する有効なアルゴリズムが開発されている。しかし、それでもなお、遺伝的効果が弱い、アレル頻度、あるいはハプロタイプ頻度が低い、構造化が存在する、複数の座位間で遺伝子間交互作用が存在する、標本サイズが小さい、などの理由でゲノム多型と表現型の関連が解明できないこともしばしばである。それを解決するために膨大なゲノム多型が明らかになり（30万SNP）、極めて大きなサンプルサイズが得られている。また、表現型として血圧や体重などの量的表現型、疾患のあるなしなどの質的表現型だけではなく、血清蛋白質濃度などの生化学的表現型との関連解析も可能となっている。こうした中、データ解析はデータの多様化と増大化に急速に引き離されつつある。

　**シミュレーション技術**

　データ解析のための統計モデルやシミュレーションモデルなど、生命体に関する様々なモデルが研究されてきているが、現状では、問題の大規模化・複雑化、及び生産されるデータに十分対応できていない。
　 






===== 目標 =====

**命体システムに対する予測と発見の基盤情報技術の構築 **

　ペタスケール計算の能力を用いて、モデルに、データの情報を動的かつ適切に取り込むためのデータ同化技術を開発することにより、モデル及びデータ、それぞれ単独では得られない有用な情報を抽出することが可能なデータ駆動型の大規模データ解析及びシミュレーション技術を開発することを目的とする。