目次

ソフトウェア

SiGN-SSM

SiGN-SSM(サイン-SSM) は時系列遺伝子発現データから遺伝子ネットワークを推定するためのオープンソースソフトウェアです. SiGN-SSMは状態空間モデル(SSM: State Space Model) と呼ばれる動的な統計モデルを時系列の多変量観測データから推定します. 状態空間モデルは,核となる動的システムを記述する「モジュール」と, モジュールから各遺伝子への対応付けにより, 細胞内遺伝子発現の動的な変化および遺伝子間の依存関係をモデル化します. SiGN-SSM は様々な並列実行環境を用いて並列動作することが可能で, 通常の PC に搭載されたマルチコア CPU による並列実行から PC クラスタや 超並列スーパーコンピュータを用いた数百〜数千並列の動作に対応しています. SiGN-SSM は遺伝子間の動的な依存関係を解析するだけでなく, 時系列データを用いた有意に発現差のある遺伝子抽出も可能です.

※本ソフトウェアは下記 TRANS-MNET に機能を追加し,新たにオープンソースとして公開したものです.

CSML

CSML (Cell System Markup Language) は、細胞内の遺伝子制御ネットワーク、代謝ネットワーク、シグナル伝達系、細胞間の制御関係などを、システムダイナミクスを含めて記述するための XML フォーマットです。他の生体内パスウェイ記述 XML フォーマットであるCellMLやSBML形式を包含できるよう定義されています。さらに、より厳密かつ効率的に他形式とのデータのやりとりを実現するため、 CSML は OWL で記述したオントロジー言語 CSO (Cell System Ontology) を利用して定義しています。 CSO は、シグナル伝達経路や遺伝子制御ネットワークをダイナミクスを含めて知識表現するにおいて必須と考えられる語彙を定義しています。さらに、さまざまなアプリケーション間で視覚情報も標準化して相互にやりとりできるようにするため、 CSO では各語彙に対して標準のアイコンを定義しています。

Cell Illustrator

Cell Illustrator Cell Illustrator (セルイラストレータ) は、当研究室で開発しているソフトウェアで、最新版のCell Illustrator Online 4.0の製品版が東京大学より株式会社セルイノベーターにライセンスされています。2009年6月の時点で、バージョン 4.0 が最新になっています。パスウェイを描く機能とシミュレーションの機能が一体となっているソフトウェアです。CIOは、「生物系の研究室に所属する研究者が実験をするかたわら、パスウェイの情報を知識整理し、その知識整理したモデルをシミュレーションすることで次の実験に何をするかを決められる」ことを目標として開発されており、パスウェイをまるで絵を描くように直感的な操作で作成することが可能です。また、作成されたモデルの再利用性を高めるオントロジーの機能もユーザーが意識することなく自動的に利用できるようになっています。このオントロジーの情報は、CIOで作成したモデルの正当性検査や自動レイアウトに活かされています。 CIOのシミュレーションのエンジンは Petri netという視覚化表現にもとづく並列、分散、確率的挙動のシミュレーションを得意とする言語をより生体内パスウェイのモデル化に拡張したハイブリッド視覚化表現手法(Hybrid Functional Petri Net)を開発、実装しており、とても強力なシミュレーションエンジンです。セルイラストレータで作成されたモデルはOffice2007でも標準形式として採用されている記法と同じXMLフォーマットであるCSML 形式になっており、 他の生体内パスウェイを表記するフォーマットであるCellML や SBMLを読み込むこともでき、既存の数百のシミュレーション可能な生体内パスウェイを表示・編集することができます。セルイラストレータは、東京大学医科学研究所の他、山口大学大学院理工学研究科、オーストラリアのクィーンズランド大学分子生物化学研究所 (IMB) や ARC バイオインフォマティクスセンターで行われている Visible Cell プロジェクトなどで利用されさまざまな成果を挙げています。 また、 Cell Animator というツールも開発されており、シミュレーションの結果をアニメーションで見ることができます。

参考文献: 「システム生物学がわかる!」―セルイラストレータを使ってみよう―(共立出版) “Foundations of Systems Biology: Using Cell Illustrator and Pathway Databases”, Springer (近刊)

CSML Pipeline

システム生物学の分野では、マイクロアレイ、CAGE, qRT-PCRなどの手法によって計測されたデータを解析することで、遺伝子間の制御構造をパスウェイとして推定したり、in silicoでモデル化したパスウェイをシミュレーションすることで、未知の制御因子を探索したりすることを行っています。また、文献情報を自然言語処理やエキスパートが読むことで抽出した遺伝子間の関係を整理しパスウェイのデータベースとして公開することもおこなっています。 これら一連のパスウェイの情報を整理するために、システム生物学の分野では、いくつかの表記規則が提案されています。本プロジェクトでは、CSML (Cell System Markup Language http://www.csml.org/) というXML記法に基づく表記規則を開発しています。CSMLを用いることで、細胞内の遺伝子制御ネットワーク、代謝ネットワーク、シグナル伝達系、細胞間の制御関係などを、システムダイナミクスを含めて記述することができます。本研究室では、このCSML表現形式に基づく、システム生物学の分野で行われているさまざまなネットワークの推定、整理、可視化など解析のフローを視覚的に整理、実行するための統合解析環境CSMLPipelineというソフトウェアを開発しています。 CSMLPipelineでは、動的ネットワークパラメータ推定、静的グラフ構造解析、ネットワークの自動レイアウト、ネットワークの視覚化、ネットワークのフィルタリングなどの300以上の解析コンポーネントを登録しており、現在も活発にコンポーネントの改良、追加を行っています。

Cluster

このソフトウェアは,マイクロアレイデータなどの遺伝子発現データのクラスタリングのための C 言語で書かれたライブラリです.このライブラリは,階層クラスタリング (correlation, ユークリッド距離, L1 距離などのさまざまな類似度,および,average, centroid, complete, single linage などのさまざまなクラスタ間の距離の定義を含む),k-means,k-median クラスタリング,2次元自己組織化マップのコードを含んでいます.さらに,このライブラリのための Python と Perl のモジュールを用意しています.また,Single linkage を用いた階層型クラスタリングは, 10 万を超える個体を取り扱えるよう,メモリ効率の良いアルゴリズムを実装しています.このライブラリは, NCBI でも公的に用いられています.

ArrayCluster

マイクロアレイデータのクラスタリング手法であるMixed Factors Analysisを実行できるソフトウェアです.Mixed Factors Analysis は,統計解析手法である因子分析 (Factor Analysis) を混合分布化したものに相当します.例えば,癌細胞の遺伝子発現状態を計測した複数枚のマイクロアレイデータがあったとします.このとき,マイクロアレイデータに基づき癌細胞をクラスタリングすると,組織学からでは分類することの困難な癌のサブクラスを発見でき,それらが薬の効果,副作用や予後に関連している可能性があります.しかしながら,このようなクラスタリングは,各癌細胞の特徴ベクトルが遺伝子数と同じ長さのベクトルとなることから,超高次元ベクトルのクラスタリング問題となります.この問題に対処するため,Mixed Factors Analysis では,次元圧縮と圧縮した先での混合分布の当てはめを同時に行います.つまり,次元圧縮は,混合分布の当てはめができるだけ良くなるように調整されます.圧縮する次元数の選択はベイズ型情報量規準 BIC により自動的に最適化されます.

TRANS-MNET

transmnet.jpg 時系列遺伝子発現データから、状態空間モデル (State Space Model) を用いて、転写モジュールネットワークおよび遺伝子間ネットワークを推定するためのソフトウェアです。時系列遺伝子発現データとは、マイクロアレイ等により、ある期間に渡って複数回、遺伝子の発現状態を計測することによって、遺伝子発現の時間変化をみるためのデータです。そのようなデータから、遺伝子間の制御関係を推定するためのモデルとしては、まず、遺伝子対遺伝子の関係を直接的に表現する、一次のベクトル自己回帰モデルの適用が考えられます。しかしながら、通常得られる時系列遺伝子発現データには、考慮する遺伝子の数 (数百から数千) に比べて、計測される時点数 (10 点前後) の数が非常に少ない (超高次元短時系列) という特徴があるため、そのまま自己回帰モデルに含まれるパラメータを推定することは困難です。状態空間モデルでは、多くの遺伝子の発現状態を、少数の潜在変数の発現状態へ縮約することにより、パラメータの推定の困難さを克服します。また、その潜在変数は、比較的少数の因子から制御を受け共発現する遺伝子を代表するメタ遺伝子として解釈が可能であり、転写モジュールと呼ばれます。 推定パラメータを利用して、転写モジュール間制御ネットワークの推定および、各転写モジュールに所属する遺伝子群の推定が可能です。また更に、パラメータの変換を通じて、ベクトル自己回帰モデルでは直接の推定が困難であった、遺伝子間ネットワークの推定も可能です。

MetaGeneProfiler

大腸癌の細胞と正常細胞の遺伝子発現データを比較したとします.癌細胞と正常細胞のマイクロアレイデータが複数枚ずつあれば,各遺伝子ごとに例えばt-検定を行えば,癌細胞と正常細胞の比較において発現量に差のある遺伝子を抽出することが出来ます.各遺伝子に対して計算される p-値を手がかりに FDR などを計算し,有意な遺伝子集合を定義する方法が従来用いられてきました.この方法により抽出された遺伝子集合に対しては,一つ一つの遺伝子を調べていくことで生物学的評価を行っていました.この MetaGP は,遺伝子ごとの検定の結果を用いて,遺伝子の機能単位にその有意性を測る遺伝子機能解析を行うことが出来ます.似たようなソフトウェアとしては, GO::TermFinderFatiGO があります. GO::TermFinder と比較すると, MetaGP はあらかじめ計算したp-値を用いて有意な遺伝子集合を定義する必要がありません.また, FatiGO はある遺伝子機能の有意性を他の遺伝子機能と比較することで計算する,いわゆる相対比較ですが, MetaGP は注目している遺伝子機能の絶対的評価を行います.従って,これら二つの手法に比べて,擬陽性,擬陰性を減らすことが出来ます.