連鎖解析については、現在は計算パワーの制限のため6座位程度がせいぜいである。ペタフロップス級の計算機を用いると9座位を同時に解析することが可能になる。本来、遺伝継承法則によれば連鎖する座位はすべて同時に解析すべきである。現在でも、計算パワーの問題で検定が有意とならず病因遺伝子の存在が証明できない家系もある。例えば9座位のデータを検定に用いる事ができれば、より多くの連鎖解析の問題が解決する。一つの表現型についても高速計算機の必要性は上のごとくである。しかし、5年後は約7万個の広義の表現型を取り扱わなければならない。前述の6座位を用いた計算に10テラフロップス級のコンピュータで3秒かかると考えられる。従って、全染色体について、7万個の表現型を取り扱うと204日を要する。ペタフロップス級のコンピュータでは計算上2.5日で計算が終了する。鎌谷はハプロタイプと表現型の関連を解析するアルゴリズムPenhaplo, QTLhaploを発表している。数千人を対象とした1表現型、20座位の解析で10テラフロップス級の計算機で約3秒が必要である。7万表現型に対して行えば2.4日かかる。しかし、これは単に1ブロックの解析にかかる時間である。2万のハプロタイプブロックのうち、座位数が20以上あるものは多くは無く500程度と考えられる。それでも全ブロックについて計算が終わるのは1,200日である。ペタフロップス級の計算機であれば12日で計算が終わる。即ち、ハプロタイプ(連鎖不平衡)を考慮したゲノムワイドの多数の(広義の)表現型を対象とした解析はテラフロップスでは不可能で、ペタフロップスでは可能である。
入力 | 百~数万人の個人の一人当たり50万SNP及びゲノム配列。個人の疾患や薬物反応、質的形質データ、及びトランスクリプトーム、プロテオームデータをはじめとするシステムの観測データ |
---|---|
出力 | 疾患遺伝子の発見、個人の表現型の予測 |
(図1)16万SNPを使ったMDSを用いたヒトのクラスタリング解析
染色体1-22のSNP を用いたMDSによるクラスタリング
SNP数 9212
Sample数 210
処理時間 10 分程度
Permutation(case何人、control何人、SNP何個)人数、SNP数でどの程度増えるか?
CPU : Geon 3.06 GHz × 64 node20 vs 20で、 1000 SNP 10 days 程度
連鎖解析は家系の中の個人の表現型データ、およびゲノム多型データを用い、表現型に関連した多型座位を検索する技術である。本研究では高速計算のための連鎖解析技術を開発する。これまでは計算力の不足のためある程度以上の大家系では6座位のデータを同時に解析できる程度であった。理論上は10ペタフロップスの計算能力があれば9座位を同時に解析できる可能性が在る。それには、現在のソフトウェアでは対応できず、新たなソフトウェアを作成して対応する。用いる理論は遺伝継承法則、用いるアルゴリズムはEMアルゴリズム、隠れマルコフモデル、マルコフ連鎖モンテカルロ法などを予定しているが、最適の方法を用いる。作成したソフトウェアの性能評価を行うとともに、現実のデータを解析し、遺伝病の原因座位の特定を行う。当該年度では、10ペタフロップス程度の計算能力への対応を念頭に置きつつ、現在使用できるシステムでシミュレーションを行う。
全ゲノムをほぼカバーするSNP座位のデータを用い、関連解析(症例対象研究、あるいはコホート研究、介入研究)により多段階で原因座位を突き止めるための高速計算対応の手法を開発する。ゲノム多型データは30億個の全ゲノム塩基配列をほぼカバーする10万-100万個のSNPデータから遺伝子型データが得られることを想定する。研究デザインは多段階法を想定し、検定法は独立法、joint法、P値積法などを想定する。アルゴリズムとしてはPermutation法、FDR法、Bootstrap法、正確計算法、EMアルゴリズム、交差評価法などを試み、最適な手法を用いる。当該年度は解析技術の概要を設計し、部分的にソフトウェアを作成する。最終的には10ペタフロップス程度の計算能力への対応を念頭に置くが、現在できるシステムでシミュレーションと、小規模実データの解析を行い、性能を評価する。また、複数の座位の相互関係も考慮した解析法を開発する。現在、一人当たり30-50万SNPのデータが得られているのでそれらのデータ解析を念頭に作業を行う。主成分分析、ロジスティック回帰を大量のデータを用いて行う。
個人のゲノム多型の決定の最終目標は個人の表現型の予測である。例えば、特定のゲノム多様性を有する個人が特定の薬物を服用した時、効果を示す可能性と副作用を示す可能性を正確に予測できる事が理想である。その予測のためにはどのSNP座位をどのような方法で用いる事が最適かを調べる必要がある。そして、新規の患者に予測法を適用し、予測法の精度を評価する必要がある。当該年度はそのような予測法作成の手法を開発し、実際に開発した手法を評価する。用いるアルゴリズムは各種クラスタリング手法、交差評価法、EMアルゴリズム、Permutation法、FDR法などである。このような手法の一部は極めて高速な計算が必要であり、本プロジェクトでは高速計算が必要な部分の解析法を開発する。当該年度は10ペタフロップス程度の高速計算への対応を念頭に置きつつ、現在のシステムでソフトウェアの開発を行い、シミュレーションデータおよび小規模な実データで検証する。
連鎖解析は家系の中の個人の表現型データ、およびゲノム多型データを用い、表現型に関連した多型座位を検索する技術である。本研究では高速計算のための連鎖解析技術を開発する。これまでは計算力の不足のためある程度以上の大家系では6座位のデータを同時に解析できる程度であった。理論上は10ペタフロップスの計算能力があれば9座位を同時に解析できる可能性が在る。それには、現在のソフトウェアでは対応できず、新たなソフトウェアを作成して対応する。用いる理論は遺伝継承法則、用いるアルゴリズムはEMアルゴリズム、隠れマルコフモデル、マルコフ連鎖モンテカルロ法などを予定しているが、最適の方法を用いる。作成したソフトウェアの性能評価を行うとともに、現実のデータを解析し、遺伝病の原因座位の特定を行う。当該年度では、10ペタフロップス程度の計算能力への対応を念頭に置きつつ、現在使用できるシステムでシミュレーションを行う。
全ゲノムをほぼカバーするSNP座位のデータを用い、関連解析(症例対象研究、あるいはコホート研究、介入研究)により多段階で原因座位を突き止めるための高速計算対応の手法を開発する。ゲノム多型データは30億個の全ゲノム塩基配列をほぼカバーする10万-100万個のSNPデータから遺伝子型データが得られることを想定する。研究デザインは多段階法を想定し、検定法は独立法、joint 法、P値積法などを想定する。アルゴリズムとしてはPermutation法、FDR法、Bootstrap法、正確計算法、EMアルゴリズム、交差評価法などを試み、最適な手法を用いる。当該年度は解析技術の概要を設計し、部分的にソフトウェアを作成する。最終的には10ペタフロップス程度の計算能力への対応を念頭に置くが、現在できるシステムでシミュレーションと、小規模実データの解析を行い、性能を評価する。また、複数の座位の相互関係も考慮した解析法を開発する。
個人のゲノム多型の決定の最終目標は個人の表現型の予測である。例えば、特定のゲノム多様性を有する個人が特定の薬物を服用した時、効果を示す可能性と副作用を示す可能性を正確に予測できる事が理想である。その予測のためにはどのSNP座位をどのような方法で用いる事が最適かを調べる必要がある。そして、新規の患者に予測法を適用し、予測法の精度を評価する必要がある。当該年度はそのような予測法作成の手法を開発し、実際に開発した手法を評価する。用いるアルゴリズムは各種クラスタリング手法、交差評価法、EMアルゴリズム、Permutation法、FDR法などである。このような手法の一部は極めて高速な計算が必要であり、本プロジェクトでは高速計算が必要な部分の解析法を開発する。また、当該年度は10ペタフロップス程度の高速計算への対応を念頭に置きつつ、現在のシステムでソフトウェアの開発を行い、シミュレーションデータおよび小規模な実データで検証する。
パラメトリック連鎖解析を行うソフトウェアのうち、Linkage packageの中のLINKMAP、Genehunter の中の質的形質に対するロッド値計算部分のアルゴリズムを解析した。どちらも良くできたアルゴリズムであるが、いくつかの改良の可能性が見出された。並列化のために改良する部分を検討している。今年度は既存のアルゴリズムの分析に専念し、新たなプログラムの試作を行ったが本格的なコーディングは行っていない。現在試作したパラメトリック連鎖解析のプログラムのシミュレーションを行った。速度の点でまだ問題が残っている。
(i) 多段階法による全ゲノム関連解析の統計的手法の開発
2007年に世界的に多数のGWAS (genome-wide association study)の報告が出た。GWASは理化学研究所遺伝子多型研究センターで2002年に発表したものが世界最初である。我々のチームは30万以上のSNP 座位のデータを用い、症例対象研究により多段階で原因座位を突き止めるための高速計算対応の手法を開発した。研究デザインは多段階法を想定し、検定法は独立法、joint法、P値積法などを想定した。多段階法の中でも2段階(two stage法)を中心に開発を行った。2段階法では、最初の症例・対照研究のサンプルについては例えば30万SNPのすべてについて遺伝子型を決定する。そのデータを例えばPearsonの独立性の検定により解析し、一定の有意水準(たとえばα=0.05)により、有意と判定されたSNPのみを第二段階に回す。第二段階では、第一段階で有意となったSNPのみについて遺伝子型決定を、第一段階とは独立の症例・対照研究のサンプルについて行う。最終的にどのような方法で関連するSNPの有意性を決めるかにより3つに分かれる。独立法は現在最も汎用されている方法であり、joint法は米国で2007年に提案された方法、P値積法は我々が開発した。独立法では第二段階のサンプルを第一段階とは独立に検定を行う。最終的な有意水準は二つの段階の有意水準の積となる。Joint法では第一段階の判定は同じであるが、第二段階の判定に第一段階のサンプルのデータも加えて行う。P値積法では、第一段階の判定は通常の方法と同様、αの有意水準で行う。最終的に第一段階と第二段階のP値の積をとり、それが一定の値(ここではγ)以下の場合のみ最終的に有意と判定する。最終的な有意水準はγ[1+log(α/γ)]となる、というのが我々の導き出した結論である。しかし、これは数理的計算による結論であり、本当にその式が現実データに適用した場合、正しいかどうかをモンテカルロ法などで計算する必要がある。しかし、GWASでは30万ものSNPを用いるため多重比較の問題が存在する。これを乗り越えるためにBonferroniによる補正などを行うが、そうすると最終的な有意水準は10-6~10-7 にもなる事がある。従って、モンテカルロ法で信頼できる有意水準を計算するためには1010回にも及ぶ繰り返し計算が必要である。このようにGWASのための多段階法による関連解析の有意水準の計算のためにはペタフロップス級の高速計算機が必要である。しかも、この問題は極めて並列計算に向いている。我々は現在PCクラスターを用いて394ギガフロップスレベルのシステムで計算するプログラムを作成した。しかし、1010レベルの繰り返し計算は不可能であった。現在のシステムでは108回を1日で計算できる程度である。複数の座位の相互関係も考慮した解析法を開発している。
(ii) ハプロタイプを基礎にした正確関連検定
SNPの上位構造であるハプロタイプを基礎に、表現型(病気や薬の効き方、副作用)と関連のある遺伝子を網羅的に探したり、本当に遺伝子に関連があるか無いかを調べることが益々重要になっている。しかし、それには膨大な計算が必要である。我々は、Multilocus testというソフトウェアを作成し、その検定を行う正確法を発表している。この方法はFisherの正確確率計算法に概念的には類似している。しかし、それとはかなり異なり、ハプロタイプの頻度をgiven として計算する。ハプロタイプ頻度はHapMapプロジェクトにおいて日本人によって発表されており、これを用いることが可能である。この検定の困難さはP値を計算するために膨大な数の項の計算が必要なことであり、現在20人くらいの症例・対照研究しかできない。ペタフロップスができ、しかも我々が考えている計算高速法を用いれば更に大きなサンプルサイズの計算が出来るようになる。今年度は我々の持っている394ギガフロップスレベルのシステムで計算するプログラムを作成した。それでも現在50人の症例と、50人のコントロールで計算できるのがせいぜいであった。我々はMCMC法による正確法の近似法も開発している。この近似法がどれほどよい近似を与えるかはモンテカルロ法によるシミュレーションで正確法により検討しなければならない。しかし、前述のごとく、50人を超える症例対象研究ではこれを行うことが不可能である。ペタフロップス級のコンピュータを用いれば更に多い人数で可能になる。これまでの研究成果は雑誌投稿中である。
(iii) パーミュテーション検定
パーミュテーション法は「検定」と「推定」の段階で必要である。一般的にハプロタイプや遺伝子相互作用を考慮した関連解析では、統計量の分布が簡単に計算できない。統計量が特定の範囲に入る確率を計算することが検定の本質なので検定が出来ない。従って、検定と推定が簡単にはできないのである。そのため、多くの患者とコントロールの表現型をシャッフルして検定統計量を計算するというステップを繰り返して、帰無仮説の下での検定統計量の分布を計算する。これがパーミュテーション検定と呼ばれる手法である。しかし、これには膨大な計算量が必要で、500人・500人の症例・対照のサンプルでも正確に計算すると10299 回のシャッフルが必要である。これはペタフロップス(一秒間に1016回の計算をすると思われる)でも不可能である。しかし、10299回全部を計算する必要は無くうまく一部を計算することが出来る。しかし、十分回の計算を行わないと正確に検定、推定ができない。パーミュテーション法は色々な検定と推定に応用可能である。我々はハプロタイプを基礎にした検定と推定を対象に、プログラムを作成した。このプログラムは症例と対照の群の間でハプロタイプの頻度、ディプロタイプ形の頻度に差があるかどうかを検定する手法である。現在我々の保有する394ギガフロップスレベルのシステムでは1010回のパーミュテーションが可能であった。ペタフロップス級のコンピュータを用いれば、2.5×1013回程度のパーミュテーションが可能になると試算した。もちろん、これはハプロタイプの数、頻度、サンプルサイズなどにより変化する。
特定のゲノム多様性を有する個人が特定の薬物を服用した時、効果を示す可能性と副作用を示す可能性を正確に予測できる事が理想である。今年度は、多変量回帰、ロジスティック多変量回帰分析の手法でこれを行う手法を開発した。開発した手法をシミュレーションデータにより評価した。評価方法は、数座位の遺伝的要因、数個の非遺伝的要因を設定し、質的表現型を持った多数の個体をサンプルする。その中から症例群と対照群を選択しロジスティック多変量回帰法を用いて関連する遺伝的要因、非遺伝的要因を選択する。そのようにして作成された回帰式を用いて個人の表現型を予測する。そして、実際の表現型と比較する、という手法である。本年度は10ペタフロップス程度の高速計算への対応を念頭に置きつつ、現在のシステムでソフトウェアの開発を行い、シミュレーションデータおよび小規模な実データで検証する。