本分野は、その創設時にはゲノム計画から生産されるDNAやタンパク質の配列情報などを解析するための計算科学的方法論及び技術を開発することを目的としていた。しかし、21世紀になり医科学・生命科学はゲノム研究を基礎として配列情報だけでなく病気や生命システムに関する超多次元・超ヘテロな大規模データを日常的に生み出すようになり、病気や生命をゲノムからシステムレベルまで理解し、それを創薬や治療へとつなげていくための計算戦略・情報マネージメント戦略の構築及びそのための要素情報技術の開発が、ゲノムを基盤とした研究に不可欠の課題となった。この課題のため、本分野はシステム生物学・医科学といわれる領域で、以下の3項目の研究を展開し、またバイオインフォマティクスの推進のための活動を行ってきた。こうした研究は、ヒトゲノム解析センターに設置されているスーパーコンピュータシステム(以下、スパコンと略す)を利用することではじめて遂行可能となった。
マイクロアレイを用いて得られる遺伝子発現データや様々なゲノムワイド遺伝子関連情報(タンパク質相互作用、タンパク質細胞内局在情報など)に基づき遺伝子ネットワークを推定するためのベイズ統計学に基づく最先端の統計モデルの開発を行っています。特に、ベイジアン・ネットワーク、状態空間モデル、Lasso回帰モデルなどを基にして、数千個の遺伝子からなる遺伝子ネットワークの推定・解析の研究を行っている。スーパーコンピュータを用いた大規模計算によって推定された遺伝子ネットワークを用い、薬剤標的遺伝子の探索・病気や薬剤応答に関する遺伝子ネットワークの探索研究で先端的成果を上げています。
遺伝子制御情報やシグナル伝達などの生命システムに関する知識やデータを電子的に整理する技術及び、それに基づいてシミュレーション可能なモデルを構築する技術を開発することで遺伝子機能や生命システムの解析を可能とする情報技術を開発した。その成果はCell Illustratorというパスウェイのモデリングとシミュレーションのためのソフトウェアとして商用化されている。また同時に、生命システム情報を記述するための言語としてCSML (Cell System Markup Language)(http://www.csml.org/)を開発し、このCell Illustratorに用いている。また、医科学の実験系研究室と共同研究を並行し、病態のモデル構築や遺伝子機能の予測などに貢献し、システムに基づいた医科学研究の新たなパラダイムを創ろうとしている。
1秒間に数ペタ回(10^15)の計算を行うことができる次世代スパコンが5年以内に世界の様々のところで稼動し始める。(1)及び(2)の研究において,この次世代スパコンにより、これまで計算能力の点から入り込むことができなかった領域のための技術開発に取り組んでいる。たとえば遺伝子ネットワーク推定では、計算能力の限界から、1000個程度の遺伝子数(ヒト遺伝子数の3%程度)に限定する必要があった。しかし、ヒトなどの生物は遺伝子に平均5個以上あるプロモーターごとに遺伝子を使い分けて発現制御をしているという事実を考えると、少なくとも数万ノードのネットワーク推定とその解析を可能とする技術が必要となっている。現在,この規模に対応できる次世代スパコンによる大規模遺伝子ネットワーク推定技術開発を行っている。また、生命システムのモデル化においても計算能力の壁があり、ペタスケール計算の能力を用いることにより、個人の観測データなどを一般のパスウェイなどのシミュレーションモデルに適切に融合し、モデル及びデータ、それぞれ単独では得られない有用な情報を抽出することが可能なデータ駆動型の大規模データ解析及びシミュレーション技術を開発している。世界ではじめてこのデータ同化技術を小規模のパスウェイモデリングに用い、成果を挙げることができた。
上記の研究活動の他、本分野は International Conference on Genome Informatics という国際会議を1996年以来11回にわたり開催してきた。また、主要なバイオインフォマティクスに関する国際会議(RECOMB, ISMB, ECCB, APBC, CSB, IBSBなど)において、プログラム委員長や委員としてこの分野におけるリーダーシップをとっている。