研究の背景

 高次元化・多様化・膨大化する遺伝子及び関連する情報とデータ解析 

ゲノム解析技術の飛躍的な進歩により、生体分子情報を定量的・網羅的に取得し、生体反応を数理科学的に解析することが可能になりつつある。遺伝子産物ネットワークは20万種類のタンパク質やRNA、ゲノム上に想定される200万以上の機能単位と、その修飾情報や生体内局在情報から構成され、それらから構成される有意なパスウェイなどを予測するためには膨大な計算量を必要とすると考えられる。また、連鎖解析や関連解析により、ゲノム多型と質的、量的表現型の関連が明らかになってきている。既に、遺伝的効果が強く、しかもアレル頻度、あるいはハプロタイプ頻度が高い場合には、ゲノム多型と表現型の関連を検定する有効なアルゴリズムが開発されている。しかし、それでもなお、遺伝的効果が弱い、アレル頻度、あるいはハプロタイプ頻度が低い、構造化が存在する、複数の座位間で遺伝子間交互作用が存在する、標本サイズが小さい、などの理由でゲノム多型と表現型の関連が解明できないこともしばしばである。それを解決するために膨大なゲノム多型が明らかになり(30万SNP)、極めて大きなサンプルサイズが得られている。また、表現型として血圧や体重などの量的表現型、疾患のあるなしなどの質的表現型だけではなく、血清蛋白質濃度などの生化学的表現型との関連解析も可能となっている。こうした中、データ解析はデータの多様化と増大化に急速に引き離されつつある。

 シミュレーション技術

データ解析のための統計モデルやシミュレーションモデルなど、生命体に関する様々なモデルが研究されてきているが、現状では、問題の大規模化・複雑化、及び生産されるデータに十分対応できていない。

ねらい

シミュレーションモデルと現実データとの乖離を埋める技術の確立

 本研究の特色は、生命体システムにおいて、データ同化技術による、シミュレーションモデルと現実データとの乖離を埋める技術の確立することにある。これにより、モデル・データ単独では得られない有用な情報を抽出可能なデータ駆動型大規模データ解析・シミュレーション技術の開発が可能となる。その結果、遺伝情報の網羅的解析に基づく個人差を考慮した投薬量・最適投与プロセスなどの開発や創薬ターゲット・毒性関与パスウェイ探索法の開発に貢献することができる。

目標

命体システムに対する予測と発見の基盤情報技術の構築

  • 飛躍的に増大しているゲノムや遺伝子関連データをペタスケールで解析するアルゴリズムなどの応用技術を開発する。
  • データ同化によるデータとシミュレーションモデルの融合を図るモデル構築技術を開発する。

 ペタスケール計算の能力を用いて、モデルに、データの情報を動的かつ適切に取り込むためのデータ同化技術を開発することにより、モデル及びデータ、それぞれ単独では得られない有用な情報を抽出することが可能なデータ駆動型の大規模データ解析及びシミュレーション技術を開発することを目的とする。

研究計画

平成18年度~24年度(全期)

 遺伝子ネットワーク推定、タンパク質ネットワーク推定、及びゲノム多型と表現型解析においてデータ解析技術の研究を相補的に行う。同時に、ペタスケール計算の能力を用いて、モデルに、データの情報を動的かつ適切に取り込むためのデータ同化技術開発と連動して、モデル及びデータ、それぞれ単独では得られない有用な情報を抽出することが可能なデータ駆動型の大規模データ解析及びシミュレーション技術を開発する。


平成18年度

 チームの研究内容の相互理解とメンバーの連携のやりかたについて。また、必要最低限の開発環境の整備し、アルゴリズムの改良や解析方式について考察する。


平成19年度

 ゲノム科学の最新手技から得られるデータを題材に、データ統合化手法、ネットワークの予測・検証に必須の要素技術を開発を開始する。既存ネットワーク推定アルゴリズム及びクラスタリングアルゴリズムのペタスケール計算化を検討する。データ同化技術を既存の遺伝子ネットワーク推定技術に応用して、数十次元モデルの推定技術を開発する。100×100程度のデータセットを標的として、アミノ酸配列情報、文献データ、局在性予測、質量分析データ、立体構造情報の5種類の情報を組み合わせて、タンパク質相互ネットワーク推定を進める。アルゴリズムの高速化を進めるとともに、相互作用性の判定のための評価関数の各パラメータについて、データ同化の手法を用いて最適化を図る。1000×1000などの大規模解析に展開するための課題の洗い出しと計算量の見積を行う。既存アルゴリズムの改良により、既に解析可能なゲノム多型と表現型の関連に加え、現状では解析不可能なゲノム多型と表現型の関連解析を行うためのアルゴリズムを作成し、その妥当性、有用性を検討する。


終了後の成果の展開

 大規模遺伝子ネットワーク推定方式及び大規模タンパク質ネットワーク推定方式は、LSAや創薬ターゲット探索などに用いる。ペタスケールコンピュータ用に開発されたゲノム多型と表現型の関連解析の一連の方式を用いて、オーダーメイド医療実現化プロジェクトより大量に得られる予定である47疾患30万人のDNAと臨床データに適用する。


etc.txt · 最終更新: 2011/03/21 10:17 (外部編集)
www.chimeric.de Creative Commons License Valid CSS Driven by DokuWiki do yourself a favour and use a real browser - get firefox!! Recent changes RSS feed Valid XHTML 1.0