遺伝子ネットワーク推定プログラム SiGN

新着情報

2010/12/1 オープンソース大規模遺伝子ネットワーク推定ソフトウェア SiGN-SSM を公開いたしました.

状態空間モデル (SSM: State Space Model) を用いた時系列遺伝子発現データからの大規模遺伝子ネットワーク推定プログラム SiGN-SSM を公開いたしました. (ウェブサイト: http://sign.hgc.jp/signssm/ )

2009/8/11 世界最大の最適ベイジアンネットワークの推定に成功

東京大学医科学研究所ヒトゲノム解析センターDNA情報解析分野(分野長:宮野悟教授)は,世界記録となるノード数30でのベイジアンネットワークの最適構造の探索に成功しました.

ベイジアンネットワークはバイオインフォマティクス分野において遺伝子ネットワークのモデルとしてよく利用されるグラフィカルモデルの一つで,マイクロアレイデータなどの観測データから遺伝子間の発現の依存(因果)関係を予測するために用いられます(※1).しかし観測データに最適なベイジアンネットワークの構造を探索することは非常に計算量の多い問題として知られており,特にメモリ量の制限が,ノード数の大きいネットワークの構造を探索する際のボトルネックになっています.これまで報告されているもので実際にデータから構造探索を行ったベイジアンネットワークは計算が高速な離散モデルを用いたものでノード数29が最大でした(※2).

当研究分野では過去に動的プログラミング法による最適ネットワーク構造推定アルゴリズムを世界で最初に発表しております(※3).このアルゴリズムは動的プログラミング法を用いて非常に効率よく最適ネットワークの構造推定を行うことが出来ますが,共有メモリ型の計算機で実行されることが前提であるため,現在標準的になっているスーパーコンピュータの型式である分散メモリ型の超並列型計算機では実行することができません.共有メモリ型のスーパーコンピュータはメモリ搭載量及び計算速度に限界があり,現在理化学研究所が中心となって開発を進めている次世代スーパーコンピュータも分散メモリ型のスーパーコンピュータです.

今回,当研究分野では動的プログラミング法による最適ネットワーク構造推定アルゴリズムに基づく新しい解空間の分割法を発明し,分散メモリ型計算機で実行可能な効率の良い実装によるプログラムの開発に成功しました.このプログラムをノード数30,サンプル数50のシミュレーションデータに適用し,ヒトゲノム解析センターのスーパーコンピュータの256コアを使用し計算させたところ,約86時間後に正常に終了し,世界最大サイズであるノード数30での連続値モデルを用いた最適ベイジアンネットワークの構造推定に成功しました.使用したメモリは総計で約255.5GB(各コアあたり約1GB)でした.この研究成果は現在論文投稿準備中です.

参考文献

※1 Tamada et al. (2009). Unraveling dynamic activities of autoacine pathways that control drug-response transcriptome networks. Pacific Symposium on Biocomputing (PSB2009) 14, 251-263.

※2 Silander and Myllymäki (2006). A Simple Approach for Finding the Globally Optimal Bayesian Network Structure. In Proc. 22nd Conference on Uncertainty in Artificial Intelligence (UAI 2006), 445-452.

※3 Ott et al. (2004). Finding optimal models for small gene networks. Pacific Symposium on Biocomputing (PSB2004) 9, 557–567.