====== 用語解説 ======
データ解析融合チームの研究をより良く理解するための用語集です.現在執筆中につき完全ではありません.
[[#あ|あ]] [[#か|か]] [[#さ|さ]] [[#た|た]] [[#な|な]] [[#は|は]] [[#ま|ま]] [[#や|や]] [[#ら|ら]] [[#わ|わ]]
[[#A|A]] [[#B|B]] [[#C|C]] [[#D|D]] [[#E|E]] [[#F|F]] [[#G|G]] [[#H|H]] [[#I|I]] [[#J|J]] [[#K|K]] [[#L|L]] [[#M|M]] [[#N|N]]
[[#O|O]] [[#P|P]] [[#Q|Q]] [[#R|R]] [[#S|S]] [[#T|T]] [[#U|U]] [[#V|V]] [[#W|W]] [[#X|X]] [[#Y|Y]] [[#Z|Z]]
===== あ =====
^あ^^^
|アンサンブルスプレッド|ensemble spread|アンサンブルを構成する状態の実現値のうち、値が最大のものと最小を取り出し、その幅をいう。|
^い^^^
|一次構造|primary structure|生体分子の単位とそれらをつなぐ化学結合の配置のことである。DNAやRNAに関しては一次構造は核酸の配列として表現でき、タンパク質に関してはアミノ酸の配列として表現できる。|
|遺伝子型|genotype|ある生物個体が持つ遺伝子の構成のこと。|
|遺伝子ネットワーク|gene network|遺伝子間の発現の依存関係を点と線からなるグラフ構造で表したもの.因果関係を表すことのできる有向グラフによるものと,因果関係を規定しない無向グラフによるものがある.|
|遺伝子発現|gene expression|遺伝子の情報が細胞における構造および機能に変換される過程をいう。→転写 →翻訳|
^え^^^
|エクサ|exa|10 の 18 乗の数を表す用語.ペタの 1,000 倍の大きさ.exaはhexa(6番目の)から作られた造語で、1,000の6乗であることを意味している。|
|エピジェネティクス|epigenetics|染色体への後天的な修飾により遺伝子発現が制御されることに関する遺伝学あるいは分子生物学の研究分野。DNAメチル化とヒストンの化学修飾とが引き起こす遺伝子発現の変化が主な研究対象である。セントラルドグマ提唱時に考えられていたほど、DNAの情報が固定されたものでなかったことを示している|
^お^^^
|オーダーメイド医療| |個別化医療を参照のこと|
===== か =====
^か^^^
|解析インクリメント|analysis increment|データ同化により修正される状態の量のこと。|
|カイ二乗検定|Chi-square test|帰無仮説が正しければ検定統計量がカイ二乗分布に従うような統計学的検定法の総称である。このうち、ピアソンのカイ二乗検定が最もよく利用されるものである。 尤度比検定も、対数尤度の差の2倍がカイ二乗分布に従うことがあり、その場合はカイ二乗検定と呼ばれる。|
|カルマンフィルタ|Kalman filter|離散時刻の場合を考える。時刻 t-1 までの過去全ての観測データにもとづく状態ベクトルの確率分布と、新たに時刻tのデータを観測したもとでの状態ベクトルの確率分布の間の関係を司る漸化式。線形ガウス状態空間モデルの場合はすべての分布がガウス分布になるので、漸化式は具体的には状態ベクトルの平均値ベクトルと、分散共分散行列の時間更新の漸化式となる。カルマンが定式化したのでこの名前がついている。|
|感度|sensitivity|陽性と判定されるべきものを正しく陽性と判定する確率。TP/(TP+FN)で計算される。|
|関連解析|association study|患者群とコントロール群でDNA配列情報を比較し、疾患に関わる遺伝的変異を探索する遺伝統計学的手法|
^き^^^
|ギガ|giga|10 の 9 乗の数を表す用語.メガの 1,000 倍,テラの 1,000 分の 1 の大きさ.ヒトゲノム配列は片親からもらうDNA配列が約3ギガ塩基分あり、両親からもらうので6ギガ塩基もの情報になる。|
|帰無仮説|null hypothesis| |
|共分散膨張法|covariance inflation|システムノイズを明示的に与えずに、状態の分散共分散行列を定数倍することで、システムノイズと同様の役割を持たせる手法。少ないメンバー数でのアンサンブルカルマンフィルタで用いられる。|
^く^^^
|クラスター分析|cluster analysis|個体を特徴づける変数間の類似度に基づき,個体をいくつかのグループ(クラスター)に分けるためのデータ解析手法.|
|グラフ|graph|いくつかの頂点と辺の集合が示す構造で、頂点は変数、辺は変数同士の依存関係を表す。|
|グラフィカルガウシアンモデル|graphical Gaussian model|多変量正規分布の仮定の下で,変数間の偏相関係数を0とおいた相関構造モデルにより,変数間の条件付き独立性を抽出し,その構造を因果関係を規定しない無向グラフで表現する手法.|
|グラフィカルモデル|graphical model|複数の確率変数間の関係を分析するために,変数間の関係をノード(確率変数)と矢印(関係)で視覚的に記述したもの.|
^け^^^
|ゲノム多型|genetic polymorphism|多型を参照|
|ゲフィチニブ|Gefitinib|上皮成長因子受容体 (EGFR) のチロシンキナーゼを選択的に阻害する内服抗がん剤.癌の増殖などに関係する特定の分子を狙い撃ちする分子標的治療薬の一種.|
|検出力|power|帰無仮説が誤っている場合に,帰無仮説を棄却できる確率。第二種の過誤を犯す確率を β とすると,検出力=1-β である。|
^こ^^^
|高速フーリエ変換|Fast Fourier Transform| FFTと略される.単純な方法ではN2かかる離散フーリエ変換を N*log(N) のオーダーで計算するアルゴリズム.フーリエ変換はある関数をその周波数成分に分解する方法であり,離散フーリエ変換は,離散群上のフーリエ変換である.|
|個別化医療|personalized medicine|個人の遺伝情報や生活習慣などの情報を利用して、患者個人個人に最適な治療方法を実施する方法|
===== さ =====
^さ^^^
|最尤推定|maximum likelihood estimation|尤度を最大とするように、尤度を構成しているパラメータを推定すること。 |
|三次構造|tertiary structure|タンパク質やその他の高分子が取る三次元構造で、その空間配置は原子座標によって定義される。|
^し^^^
|シグナル伝達経路|signal transduction pathway| 細胞外シグナル分子(主にタンパク質)を介した刺激を、細胞質や核内に伝えるための生化学反応の連鎖。一般には、細胞膜上の受容体と細胞外シグナル分子の結合によってシグナル伝達が開始し、Gタンパク共役因子の活性化機構、細胞内のタンパクリン酸化・脱リン酸化、転写因子活性による遺伝子の転写調節などによって構成される。 |
|時系列マイクロアレイデータ| time-course microarray data|生体内の転写制御レベルにおけるダイナミックな振る舞いを観測するために,複数枚のマイクロアレイ用いて,時系列に網羅的なmRNA量を計測したデータ|
|次元の呪い|curse of dimensionality|探索空間の次元が高くなることで探索空間の体積が指数的に増大する等、問題の高次元さに伴う困難を表す言葉。|
|次世代スーパーコンピュータ|Next-generation supercomputer|理化学研究所が中心となって進めている次世代スーパーコンピュータ開発プロジェクトにより開発が進められているスーパーコンピュータ.2012 年に 10 ペタフロップスの計算能力を有することを目標に開発が現在進んでいる.|
|質量分析法|mass spectrometry|試料の質量電荷比(質量を電荷の数で割った値)を求めるときに使用される分析法で,特に,プロテオーム解析では,タンパク質を同定するのに使用される.|
|主成分分析|principal component analysis|複数の変数間の共分散(相関)を少数の合成変数で説明する手法。 共分散行列の固有値問題の解として得ることができる。DNA多型の主成分分析から、DNA多型が地理的な分布と関係があることが明らかになりつつある|
|受容体|receptor|生物の体にあって,外界や体内からの何らかの刺激を受け取り,情報として利用できるように変換する仕組みを持った構造.|
|条件付き確率|conditional probability|2つの事象A, Bがあるとき,事象Aが生起したという条件のもとで事象Bが生起する確率を,AのもとでのBの条件付き確率という.|
|条件付き独立性|conditional independence|事象Zが生起したという条件のもとで事象Xが生起する確率が,事象Zが生起したという条件のもとで事象Yが生起する確率に互いに影響を及ぼさないとき,ZのもとでXとYは条件付き独立であるという.|
|状態空間モデル|state space model| |
|情報量規準|information criterion|統計モデルの評価を行うための量.予測の意味でモデルの良さを評価する赤池情報量規準(AIC)は有名.|
^す^^^
|スニップ|SNP|項目「SNP」を参照.|
^せ^^^
|生化学反応ネットワーク|biochemical reaction network|転写因子による標的遺伝子の発現制御やタンパク質間相互作用など、生体内分子間相互作用の有無を模式的に表す因果ダイアグラム。|
|正規分布|normal distribution|ガウス分布とも呼ばれる。ほとんどの、多量観測の場合のばらつきを表す分布であり、性質がいいことから良く使われる。しかしながら、非線形変換がかかると正規分布でなくなるため、精密な推定には非正規の場合の推定法が必要となる。粒子フィルタは,非線形時系列の場合にひとつの推定実現手法である。|
|正定値行列|positive definite matrix|行列 とゼロでない任意のベクトル を用いた2次形式 が常に正であるとき、 は正定置行列であるという。|
|染色体|chromosome|長いDNAをヒストンに巻き取らせ、さらにさまざまなタンパク質の働きでコンパクトになった構造体。遺伝情報を運ぶ。人間には22対の常染色体と2本の性染色体の合計46本の染色体がある。|
|全ゲノム関連解析|Genome Wide Association Analysis|GWASと略される。関連解析を全ゲノムで行うことにより、疾患関連遺伝子を発見する方法|
===== た =====
^た^^^
|第一種の過誤|type I error|偽陽性とも言う。帰無仮説が実際には真であるのに棄却してしまう過誤である。テスト結果が対立仮説を支持しているように見えるために起きる過誤である。関連解析の場合は、疾患と関係のない遺伝子を疾患関連遺伝子と判定してしまうエラー。|
|大数の法則|law of large numbers|期待値が同じなn個の独立確率変数の平均は,nを無限に大きくすると期待値に近づく (大数の弱法則),期待値に収束する (大数の強法則).(in probability か almost surely かの違い).|
|第二種の過誤|type II error|偽陰性とも言う。対立仮説が実際には真であるのに帰無仮説を採用してしまう過誤である。統計的に有意な差があるのにそれを観測できない場合の過誤である。関連解析の場合は、疾患と関係のある遺伝子を疾患関連遺伝子でないと判定してしまうエラー。|
|多型|polymorphism|多型は、表現型多型と遺伝的多型に分けられる。表現型多型とは二つ以上の異なる表現型が同じ種の集団の中に存在する状態を指す。遺伝的多型とは同じ生物種の集団のうちに遺伝子型の異なる個体が存在すること|
|タンパク質|protein|L-アミノ酸が多数重合してできた高分子化合物であり、生物の重要な構成成分のひとつである。ポリペプチドの項を参照のこと。非常に複雑な構造を持ち、それに応じて運動能や触媒活性をもつものがある。タンパク質の触媒を特に酵素という。|
|タンパク質間相互作用|protein-protein interaction (PPI)|特定のタンパク質同士が結合して複合体を形成したり,代謝やシグナル伝達に必要な作用をすること.|
|タンパク構造予測|protein structure prediction|タンパク質の三次構造を予測すること|
|タンパク質ドッキングシミュレーション|protein docking simulation|タンパク質間相互作用ネットワーク予測を行うために、タンパク質の立体構造データをもとに、タンパク質の分子の挙動をシミュレーションすること。|
|タンパク質ネットワーク|protein-protein interaction network (PPI network)|タンパク質間相互作用ネットワークとも呼ばれ,タンパクを点で,相互作用を起こすタンパク同士を線で結ぶことによりタンパク間の相互作用をネットワークとして表現したもの.|
|単腕|たんわん|セントロメアで染色体を分けた時に、短い方。フランス語のpetitの略でpと呼ばれる。たとえばHLA領域が6pにあるというのは、HLA領域が6番染色体の単腕にあるという意味。慣習的に、染色体のDNA配列はpの方からqの方へと向かう順に書かれる。|
^ち^^^
|チロシンキナーゼ|tyrosine kinase|タンパク質中のチロシンをリン酸化する酵素。英語の発音はタイロシンカイネスに近い。|
|中心極限定理|central limit theorem|独立同一分布に従う確率分布の和の分布は,確率変数の数nの平方根で基準化すると,標準正規分布に分布収束する.|
|長腕|ちょうわん|セントロメアで染色体を分けた時に、長い方。pに対してqと呼ばれる。たとえばEGFが4qにあるというのは、EGFが4番染色体の長腕にあるという意味。|
^て^^^
|データ同化|data assimilation|地球物理学で発展した技術であり,シミュレーションモデルと観測データを融合することにより高度な情報抽出を行うことを目的としている.|
|テラ|tera|10 の 12 乗の数を表す用語.ギガの 1,000 倍,ペタの 1,000 分の 1 の大きさ.1,000の4乗であり、tetra(4番目の)とは語源的には関係がないが、tetraから1文字減らしたものであるので、petaやhexaが造語されるきっかけとなった。|
|テーラーメイド医療| |個別化医療を参照のこと|
|転写|transcription|RNA ポリメラーゼにより染色体上の DNA からRNAが合成されることを言う.この際、塩基の相補性が利用されるため、転写されたRNAはDNA配列と相補的なRNA配列を持つ。|
|転写因子|transcription factor|DNA 配列の特定の部位に結合するタンパクで,他の転写を制御するタンパクと結合すること等により特定の遺伝子の発現を制御する.|
^と^^^
|特異度|specificity|ある検査について「陰性のものを正しく陰性と判定する確率」として定義される値である。TN/(TN+FP)で計算される。|
|時計遺伝子|clock gene|細胞に内在する概日周期と呼ばれる約24 時間の生物リズムを制御している遺伝子。時計遺伝子から転写されるmRNA 濃度の周期的振動が生物の概日周期のリズムを生み出している。代表的な反応経路として、period 遺伝子やcryptochrome 遺伝子のネガティブフィードバックループやclock、bmal 遺伝子が関与するフィードフォーワードループが知られている。|
|突然変異|mutation|DNA配列に変化が生じること。RNAウイルスなどRNAを遺伝物質にしているものに関してはRNA配列の変化も突然変異という。単に変異とも言う。ある種の化学物質や放射線やDNA複製時のエラーなどが突然変異の原因として知られる。さまざまな遺伝病やガンの原因となる。体細胞変異と生殖細胞変異に分けられる。|
|トランスクリプトーム|transcriptome|特定の細胞生物学的な状況下において1個あるいは増殖した一様の分化状態の生物の細胞中に存在するmRNAやsiRNAなどの全ての一次転写産物(transcripts)を相対的に理解することを目指す学問分野|
===== な =====
^な^^^
|並び替え検定|permutation test|2群間の差を知りたいときに、まずその差を観察し、そのあとに2群を並び替え、その度に平均値の差を計算し、並び替えの総数を分母として、実際に観察された差以上に偏った結果が得られた並び替えの数を分子としてp 値を計算する。|
^ね^^^
|ネットワークのロバスト性| |一般に、生化学反応ネットワークは外的変化に対して柔軟に対応することでロバスト性が保たれていると考えられている。ネットワークのロバスト性を実現させる機構として、(1) 反応経路の冗長性、 (2) 生化学物質の冗長性、(3)ネットワークのモジュール構造などが明らかにされつつある。|
^の^^^
|ノンパラメトリック回帰|nonparametric regression|線形モデルなどの決まった関数系を仮定せずに変数間の関連を探るための統計手法.|
===== は =====
^は^^^
|バイオマーカー|biomarker|肝炎で上昇するGOT/GPなど、病気の診断、治療の選択、治療の効果判定などに用いられる生体由来の物質のこと|
|ハイブリッド・ファンクショナル・ペトリネット|hybrid functional petri net|システム生物学おいて比較的広範に利用されるモデリング言語。生化学反応系のネットワークモデルを、視覚的に表現するためのアーキテクチャ。ペトリネット(petri net)という離散事象システムを数学的に記述するためのアーキテクチャを、連続事象を含めて表現できるように一般化したもの。|
|ハイブリッド並列化|Hybrid parallelism|ソフトウェアの並列化手法である MPI と OpenMP を同時に利用し並列化を行うこと.MPI でノード間並列化を行い,OpenMP でノード内並列化を行う.|
|背景値|background estimate|初期時刻における状態をモデリングしたときの平均ベクトルのこと。第一推定値ともいう。|
|背景誤差共分散行列|background covariance|初期時刻における状態をモデリングしたときの共分散行列のこと。|
|発現|expression|遺伝子発現を参照|
|発現量|expression level|遺伝子発現の量のことであるが、一般的には細胞中のRNA分子の数を意味することが多い。|
|ハプロタイプ|haplotype|生物が持つDNAを、そのDNA配列に応じてタイプ分けしたタイプ。あるハプロタイプに属する一つのDNA配列をハプロタイプコピーと呼ぶ。ハプロタイプコピーの数とハプロタイプの数は違うので注意が必要である。普通は両親から一つずつのDNAをもらうため、個人の中には2つのハプロタイプコピーがある。たとえばABO血液型はハプロタイプAとハプロタイプBとハプロタイプOの3つのハプロタイプがあり、個人が持つ2つのハプロタイプコピーがどのハプロタイプに属するかで、血液型が決まる。一つのハプロタイプコピーがハプロタイプAに属し、もうひとつのハプロタイプコピーがハプロタイプBに属するならば、その人の血液型はAB型である。優劣の法則を参照。|
|ハプロブロック|haploblock|ハプロタイプブロック.haplotype blockともいう.|
^ひ^^^
|表現型|phenotype|ある生物のもつ遺伝子型が形質として表現されたもの.|
|表現誤差|representation error|観測ノイズのうち、観測機器の特性によらない部分をいう|
^ふ^^^
|フィッシャーの正確検定|Fisher's exact test|標本数が少ない場合に分割表の独立性の検定を行うための方法.標本数が多いときは,カイ二乗検定が利用できる.|
|ブートストラップ法|Bootstrap method|データを近似分布からサンプリングすることにより様々なパラメータの信頼区間などを得ることができる.近似分布として,経験分布がよく用いられる.[[sign|大規模遺伝子ネットワーク推定ソフトウェア SiGN]] では推定される遺伝子ネットワークの各枝の信頼度を求めるために用いられる.|
|複製|replication|複製において、二本鎖 DNA はその二重らせん構造をほどき、それぞれの DNA 分子を鋳型として新たな DNA 分子が作られ、新旧の DNA 分子が対になって再び二重らせんになる。このように、一構造に二本ある親分子の一本は、必ず娘分子に受け継がれる、DNAの複製様式は半保存的複製と呼ばれる。元のDNAも複製されたDNAもどちらもほぼ同じ配列を持つため、DNAの配列情報もコピーされる。この性質によりDNAは遺伝情報を伝えていく。DNA配列の変化が生じることを突然変異という。|
|フロップス|FLOPS|Floating point number operations per second の略で,コンピュータが 1 秒間に何回浮動小数(実数値)計算を行うことが出来るかを表す指標.コンピュータの演算処理能力を表すために用いられる.|
|プロテオーム|proteome|ある生物系(組織や生物種)において存在するタンパク質の総体|
|分散共分散行列|Variance-covariance matrix|同じ長さのデータ列がn本あったときに、n×nの行列で、i,j成分がデータ列iとデータ列jの共分散であるようなものを分散共分散行列という。対角成分は分散である。|
|分子生物学のセントラル・ドグマ|central dogma of molecular biology|(1) DNAはDNAから複製される。(2)RNAはDNAから転写される。(3)タンパク質はRNAから翻訳される。という順に情報が保存されて伝達されるとする説。|
^へ^^^
|ベイジアンネットワーク|Bayesian network|確率変数間の条件付き独立性を非循環有効グラフを用いて表現したもの.遺伝子ネットワークのモデルとして使われる.|
|平滑化|smoothing|現在までの観測から過去の状態を推定すること。|
|ベイズ統計|Bayesian statistics|現象の背景知識を積極的に利用し,データからの推測を行うための統計手法.背景知識は事前分布として表現され,データに基づいて事後分布に更新される.統計的推測は,この事後分布に基づいて行われる.|
|並列粒子フィルタ|parallel particle filter|粒子フィルタは、並列性が非常に高いという利点があり、計算の大規模化が比較的低コストで実現可能である。並列粒子フィルタ(parallel particle filter) あるいは分散型粒子フィルタ(distributed particle filter)と呼ばれる並列計算の実装方法が提案されている。|
|ベクトル自己回帰モデル|vector autoregressive model|多変量時系列解析に用いられる統計モデルの一つである.時系列遺伝子発現データでは,ベクトル自己回帰モデルを用いると,ある時刻の遺伝子発現は過去の時刻の遺伝子発現によって説明される.特に,モデルの係数行列によって,遺伝子間のダイナミックな制御関係をグラフで表現することができる。|
|ペタ|peta|10 の 15 乗の数を表す用語.テラの 1,000 倍,エクサの 1,000 分の 1 の大きさ.petaはpenta(5番目の)から作られた造語で、1,000の5乗であることを意味している。|
|偏相関係数|partial correlation coefficient|複数変数内の2変数の相関から他の変数の影響を除いた相関のこと.|
^ほ^^^
|ポリペプチド|polypeptide|アミノ酸が重合したもの。タンパク質もポリペプチドだが、一般的に長いものをタンパク質、短いものをタンパク質という傾向がある。英語の発音はポリペプタイドに近い|
|翻訳|translation|mRNA の塩基配列に則してアミノ酸が重合され、ポリペプチド鎖が合成されること。塩基は4種類しかないのに対して、アミノ酸は20種類あるため、塩基3つ組で一つのアミノ酸に対応するようになっている。この塩基3つ組をコドンという。塩基3つ組は4の3乗で64通りあるため、コドンとアミノ酸は一対一対応せず、同じアミノ酸に対応するコドンが複数あることが多い。同じアミノ酸に対応するコドンを同義コドンという。コドンとアミノ酸の対応はtRNAで決まる。|
===== ま =====
^ま^^^
|マイクロアレイ|microarray|細胞内の遺伝子発現量を測定するために,多数のDNA断片をプラスチックやガラス等の基板上に高密度に配置した分析器具のこと.|
^め^^^
|メンデルの法則|Mendel's Law|メンデルの法則は、分離の法則、独立の法則、優劣の法則からなる。|
|メッセンジャーRNA|messenger RNA|mRNAを参照|
^も^^^
|モンテカルロ法|Monte Carlo method|乱数を用いて有限個の点で確率分布を近似する手法の総称。一般的に、多重積分の近似計算や統計物理のシミュレーションに用いられる。統計科学の分野では、積分で表現されたベイズ推定量を計算するために、モンテカルロ法の応用が広く浸透している。|
===== や =====
^ゆ^^^
|尤度|likelihood|仮定した観測モデルのもとで、実際に観測されたデータが得られる確率。観測モデルに含まれるパラメータの関数となる。|
^よ^^^
|予後予測|prognosis prediction|1年生存率や5年生存率などを予測すること.そのための方法として,統計学の生存時間解析により確立されたカプランマイヤー曲線やCox回帰モデルなどがある.|
===== ら =====
^ら^^^
|ランク|rank|行列の各列をベクトルとみなしたとき、1次独立な列の最大個数をその行列のランクという。|
|ランダムウォーク|random walk|次に現れる位置が確率的に無作為に決定される運動。|
^り^^^
|リガンド|ligand|細胞膜表面に存在する受容体膜蛋白質に対して特異的に結合する細胞外分子.|
|粒子フィルタ|particle filter|システムモデル、観測モデルが線型で記述できる場合に限らず、一般のシステムに対して適用できる逐次的な状態推定の手法。状態の確率分布をアンサンブル近似で記述し、アンサンブルを構成する各サンプルを尤度の重みでリサンプリングすることでフィルタリングを行う。|
|量的形質|quantitative trait|身長、体重、血圧、尿酸値など、量的な形質。対義語は質的形質|
|リン酸化|phosphorylation|タンパク質にリン酸基を付加させる化学反応.|
^れ^^^
|連鎖不平衡|linkage disequilibrium|生物の集団において,複数の遺伝子座の対立遺伝子または遺伝的マーカー(多型)の間にランダムでない相関が見られる,すなわちそれらの特定の組合せ(ハプロタイプ)の頻度が有意に高くなる集団遺伝学的な現象.|
===== わ =====
^わ行^^^
===== A =====
^A^^^
|AUC|area under curve|ROCカーブの下の面積。大きいほどよいテストである。|
===== B =====
^B^^^
|biomarker|バイオマーカー|バイオマーカーの項を参照のこと|
===== C =====
^C^^^
|C| |ブライアン・カーニハンとデニス・リッチーが開発した汎用プログラミング言語。他の高級言語に比べて、計算機資源の直接操作が平易に行えるという特徴がある。|
|C++| |C言語の拡張版。オブジェクト指向プログラミングなどの機能がある。|
|Cell Illustrator| |パスウェイのモデリングとシミュレーションのためのソフトウェアツール.パスウェイのモデリングを絵を描くように直観的な操作で行うことができ,シミュレーションの機能も同時に実現されている.Cell Illustrator OnlineはJava web startを使って,データベース管理システムとともにオンラインで利用できる.[[hppt://cionline.hgc.jp/]]|
|CNV|Copy Number Variation|コピー数変異のこと。|
|CSML|Cell System Markup Language|細胞内の遺伝子ネットワーク,代謝ネットワーク,シグナル伝達系から細胞間の制御関係を,システムダイナミクスを含めて記述するためのXMLフォーマット[[http://www.csml.org/]].厳密に他形式XMLとのデータのやりとりを実現するため,CSMLはオントロジー言語CellSystem Ontology (CSO) を利用して定義されている.|
|CUDA|Compute Unified Device Architecture|NVIDIA社が提供するプログラミング言語および環境である。GPUで並列に稼働するスレッドの振る舞いを自然に記述できるように、C言語を拡張したものになっている。|
===== D =====
^D^^^
|data assimilation|データ同化|シミュレーションなどの数値モデルによる対象状態の時間発展更新と、装置からの部分的な観測量に基づく状態補正の二つを適切に組み合わせる作業。|
|degenerate|退化/縮重/縮退|粒子フィルタの文脈では、複数のモンテカルロ・サンプルが同じ値を取り、有効粒子数が低下することをさす。また、SIRの場合に多くの粒子で重みがほぼ0になる結果、有効粒子数が低下する場合もやはりこの術語を用いる。|
|dependent variables|従属変数|時間的にも、空間的にも相互に関連している変数。正確に言えば、どちらかの場合もありえる。どちらにも関連していない変数どうしは、独立であるという。|
|DNA|デオキシリボ核酸|デオキシリボースとリン酸、塩基 から構成される高分子。アデニン(A)、グアニン(G)、チミン(T)、シトシン(C)の塩基を持つ。シトシンがメチル化されメチルシトシン(mC)になっていることもある。デオキシリボースの1'位に塩基が結合したものをデオキシヌクレオシド、このヌクレオシドのデオキシリボースの5'位にリン酸が結合したものをデオキシヌクレオチドと呼ぶ。デオキシヌクレオチドのリン酸がさらに別のデオキシヌクレオチドの3'と結合することで線状分子になったものがDNAである。人間の一つの細胞に含まれるDNAを伸ばして並べると2メートルに及ぶと言われている。リン酸とデオキシリボースが交互に結合している部分を糖リン酸バックボーンと呼ぶ。また、塩基同士には相補性という法則があり、AはTと、GはCと向かい合って水素結合を作った時に安定となる。このため、相補的な配列を持つ2本のDNAは互いに向き合って2重らせんと呼ばれる構造を取る。このようなDNAは二本鎖DNAと呼ばれる。それに対して相補的な配列を持たず一本でいるときのDNAは一本鎖DNAと呼ばれる。この相補性という性質のためDNAの半保存的複製が行われ、DNAは遺伝情報を担う分子になっている。|
|DNA microarray|DNAマイクロアレイ|細胞内の遺伝子発現量を測定するために開発された実験器具。スライドガラスやシリコン基盤上に、DNAの部分配列(プローブ)を高密度に配置、固定したもの。細胞から抽出したmRNAを逆転写によって変換したcDNAをアレイ上のプローブとハイブリダイゼーションすることで、 数万遺伝子の発現量を網羅的に測定することができる。Affymetrix社のGeneChip、 米スタンフォード大学によって開発されたcDNAマイクロアレイが有名。|
|dynamic model|動的モデル|システムが時間とともに変容するモデル。dyanamical model は力学モデルで、違う概念。|
===== E =====
^E^^^
|EGF|上皮成長因子|(Epidermal Growth Factor; EGF)は53アミノ酸残基及び3つの分子内ジスルフィド結合から成る6045 Daのタンパク質.細胞表面に存在する上皮成長因子受容体 (EGFR) にリガンドとして結合し,細胞の成長と増殖の調節に重要な役割をする.|
|EGF(epidermal growth factor)|上皮細胞増殖因子|細胞膜上にある特異的な受容体(EGFR: EGF receptor)に結合することで、その下流にあるタンパク質群のチロシンキナーゼ活性を促進し、DNA合成や細胞増殖を促進する。|
|EGF|上皮成長因子、上皮細胞増殖因子|53アミノ酸残基及び3つの分子内ジスルフィド結合から成る6045 Daのタンパク質.細胞表面に存在する細胞膜上にある特異的な受容体EGFR にリガンドとして結合し,その下流にあるタンパク質群のチロシンキナーゼ活性を促進し、DNA合成や細胞分裂を促進することで、細胞の成長と増殖の調節に重要な役割を担う.|
|EGFR|Epidermal Growth Factor Receptor|上皮成長因子受容体。いくつかの癌においてEGFRの変異が確認されており、抗がん剤の標的分子として注目されており、シグナル伝達経路の解明に期待が高まっている。|
|Elastic net| |L1正則化法と呼ばれるパラメータ推定法の一種で、パラメータに対するL1ノルムのペナルティとL2ノルムのペナルティを同時に加えた罰則付き最小二乗推定により、パラメータ推定とモデル選択を同時に行う手法|
|EM algorithm|EMアルゴリズム|不完全データのもとで最尤推定値を得るための方法として提案され,隠れ変数を含むような混合分布モデル,状態空間モデルの最尤推定に用いられる.EMアルゴリズムは反復法の一種であり、期待値(expectation) ステップと最大化 (maximization)ステップを交互に繰り替えすことで計算が進行する。|
|ensemble Kalman filter|アンサンブルカルマンフィルター|非線型のシステムモデル、非ガウスのシステムノイズを仮定した状態空間モデルに対して、カルマンフィルターと同様な逐次的な状態更新を行うアルゴリズム。観測モデル・観測ノイズは線型・ガウスのままである。状態の確率分布を多数の実現値からなる集団(アンサンブル)が表す経験分布として表現する。アンサンブルの標本共分散行列を用いて定義したカルマンゲインの近似量を用いて、個々の実現値(アンサンブルメンバー)の値を更新する。|
|ensemble Kalman smoother|アンサンブルカルマン平滑化|アンサンブルカルマンフィルターを受け、非線型・非ガウスのシステムモデル、線型・ガウスの観測モデルからなる状態空間モデルに対して、固定ラグ平滑化と同様な状態更新を行うアルゴリズム。アンサンブルカルマンフィルターの場合と同様に、平滑ゲインをアンサンブルの共分散行列で近似し、アンサンブルの値を更新する。|
===== F =====
^F^^^
|FP|false positive|偽陽性。感度、特異度、ROC curveを参考のこと|
|FN|false negative|偽陰性。感度、特異度、ROC curveを参考のこと|
|Fenofibrate| |高脂血症などのときに使用される脂質降下薬の一つで,核内受容体 PPARαに作用し,脂質代謝を制御する.|
|FFT|fast Fourier transform|項目「高速フーリエ変換」を参照.|
|filtered estimate|フィルター推定値| 時刻tにおける状態変数の推定値を、その時点まで(t も含む)の観測データを用いて得たもの|
|Fortran| |IBMのジョン・バッカスらが開発した、コンピュータ史上初の高水準記述言語。1957年にIBM 704用の最初のコンパイラがリリースされた。|
===== G =====
^G^^^
|Gibbs sampling|ギブスサンプリング|MCMC法の一つであり,目的分布から定まる条件付き分布からサンプルを得る.また,一度に一つの確率変数のみを更新する.|
|GO|Gene Ontology|生物学的概念を記述するための共通の語彙を策定し,その間の関係を定義したもの[[http://www.geneontology.org]].GOで定義された用語は,GO Termとよばれ,Go Termは,biological process(生物学的プロセス),cellular component(細胞の構成要素),molecular function(分子機能)の3つのカテゴリー分類されている.|
|GO Analysis|GO解析| meta GP, GO term finder, Gene set enrichment analysisなどがある.|
|GPGPU|General Purpose computation on Graphics Processing Unit|GPU をグラフィックス以外の多目的の計算に用いる技術|
|GPU|Graphics Processing Unit|コンピュータ・グラフィックスを処理するための専用の集積回路.|
|Greedy Hill-Climbing| |最適化アルゴリズムの一種で,最もスコアが向上する局所改善を繰り返すことで最適解の近似を得る方法.局所最適解が得られる.システムズバイオロジーではベイジアンネットワークの構造推定等に使われる.|
|GWAS|Genome-wide association study|項目「全ゲノム関連解析」を参照.|
===== H =====
^H^^^
|HFPN|Hybrid Functional Petri Net with extension|Hybrid Petriネットを拡張してオブジェクトを扱えるようにした概念.Cell Illustratorのアーキテクチャとなっている.|
|HUVEC|Human Umbilical Vein Endothelial Cell|ヒト臍帯静脈内皮細胞.|
===== I =====
^I^^^
|Importance sampling|インポータンスサンプリング|生じる確率は低いが重要であるようなものを重点的にサンプリングしてくる方法|
|//in silico//|イン・シリコ|シミュレーションなど、計算機上で行う細胞や生体分子を取り扱う実験。in vivoやin vitroの対義語。|
|//in vitro//|イン・ビトロ|試験管内など、人為的にコントロールされた環境で行う分子生物学や生化学の実験。|
|//in vivo//|イン・ビボ|人為的にコントロールされていない環境で行う分子生物学や生化学の実験。一般的には、培養細胞などを取り扱う。|
===== J =====
^J^^^
|Java| |Sun Microsystems が開発したプログラミング言語および実行環境.Java でコンパイルされたバイトコードは Java 実行環境があればハードウェアや OS を問わず実行が可能である.ただしversion間に結構な違いがあるので注意が必要。|
===== K =====
^K^^
|Kalman filter|項目「カルマンフィルター」を参照.|
===== L =====
^L^^^
|LAPACK| |行列計算を行うためのソフトウェアライブラリ.データ解析融合チームが開発しているソフトウェアの中では[[sign|大規模遺伝子ネットワーク推定ソフトウェア SiGN]] が利用している.|
|LASSO| |L1正則化法と呼ばれるパラメータ推定法の一種で、パラメータに対するL1ノルムのペナルティを加えた罰則付き最小二乗推定により、パラメータ推定とモデル選択を同時に行う手法.Least Absolute Shrinkage and Selection Operatorの略.|
|LINPACK| |行列計算などを行うためのソフトウェアライブラリ.実際はあまり使われず現在では LAPACK が主流.このライブラリに基づいた計算を行いコンピュータの性能を測定するためのプログラムが LINPACK ベンチマークで,スーパーコンピュータ TOP 500 でのランク付けに用いられてる.|
|linear Gaussian state space model|線形ガウス状態空間モデル|通常、状態空間モデルと呼ばれる。システムモデル、観測モデルがともに線形かつ、システムモデルにおける擾乱項であるシステムノイズおよび観測モデルのノイズである観測ノイズがともにガウス(正規)分布に従うと仮定するモデルのこと。|
===== M =====
^M^^^
|mass spectrometry|タンパク質量分析|質量分析装置(MS: Mass Spectrometry)を用いて、タンパク質やペプチドなどの試料をイオン化し、質量/電荷(m/z)にしたがい分離することで、その測定強度から試料の質量を推測するプロテオーム解析技術。イオン化の手法としてMALDU法とESI法が有名。|
|MCMC|マルコフ連鎖モンテカルロ法|目的分布から直接乱数を生成することが難しい場合に,Markov連鎖を使って,定常分布が目的分布になるような乱数を作る方法.|
|Meta Analysis|メタ分析|いくつかの研究結果を統合し結論を得るための統計的方法.|
|Monte Carlo mixture Kalman filter|モンテカルロ混合カルマンフィルタ|複数のカルマンフィルタによる状態更新を、確率的に切り替え統合するような、統合化された状態更新アルゴリズム。|
|MPI|Message Passing Interface|コンピュータプログラムを並列化させるための標準規格の一つで,プログラム中で明示的にプロセス間のメッセージ(データ)を通信させることが特徴のひとつ.またライブラリとして提供されるためプログラム言語に依存しないことも特徴に挙げられる.現在の並列コンピューティングでの標準的な並列化方法.|
|mRNA|messenger RNA|タンパク質に翻訳され得る塩基配列情報と構造を持ったRNA。|
===== N =====
^N^^^
|non-Gaussian disturbance behavior|非ガウス的擾乱|ガウス分布でない分布、つまり非ガウス分布から発生したと仮定する(想像できる)擾乱項。ガウス分布は、標準偏差の3倍、4倍ともなると、その実現値の現出は極めてまれで、膨大なサンプル数でもほとんどゼロに近いが、一方非ガウス分布はある一定の有限値をもつ。この性質を使って、たまにおこる現象の現出を形式的にでも確率モデルとして表すときに、非ガウスノイズが利用される。近年のファイナンス工学でもこの性質を使ってさまざまモデルが提案されている。|
|normal distribution|正規分布|ガウス分布とも呼ばれる。ほとんどの、多量観測の場合のばらつきを表す分布であり、性質がいいことから良く使われる。しかしながら、非線形変換がかかると正規分布でなくなるため、精密な推定には非正規の場合の推定法が必要となる。粒子フィルタは,非線形時系列の場合にひとつの推定実現手法である。|
===== O =====
^O^^^
|OpenMP| |並列化手法の一つ.もう一つの方法である MPI とは異なり,スレッド並列化 (同一 CPU あるいはノード内の並列化) を行うための手法.プログラムに並列化のための指示を書き,コンパイラが並列化を行う.|
|observation model|観測モデル|measurement model とも呼ばれる。状態ベクトルから、具体的データの観測にいたる道筋、状態ベクトルとデータベクトルとの関係を表現する関数。|
|observation noise|観測ノイズ|状態空間モデルにおいて、実際の観測と状態から導かれる観測されるべき量との差をあらわす誤差項のこと。測器誤差などをモデリングするのが一般的であるが、津波データ同化においては、さらに通常時のトレンド的でない成分についても観測ノイズとしてモデリングを行っている。|
===== P =====
^P^^^
|PC9| |日本人女性肺腺癌由来株で,ゲフィチニブ耐性株.|
|PCR|polymerase chain reaction| |
|PC cluster|PC クラスタ|PC または PC と同等のアーキテクチャを持つ高性能サーバなどを複数台結合したコンピュータ.|
===== Q =====
^Q^^^
|QTL|quantitative trait locus|量的形質座位。量的形質遺伝子座ともいう。量的形質に影響を与えるlocus|
|QTL analysis|QTL解析|関連解析や連鎖解析などの遺伝統計学的解析を行いQTLを見つけるための解析。|
===== R =====
^R^^^
|R| |ニュージーランドのAuckland大学のRoss IhakaとRobert Gentlemanにより作られたオープンソースの統計解析ソフトウェア.|
|RNA|リボ核酸|リボースとリン酸、塩基から構成される高分子。DNAのデオキシリボースがリボースになったものがRNAである。塩基にはDNAと共通のアデニン(A)、グアニン(G)、シトシン(C)の3種類と、DNAにはないウラシル(U)の合計4種類ある。イノシン(I)やリボチミジン(rT)、シュードウリジン(Ψ)を持つこともある。|
|ROC curve|ROC曲線|y軸にTP/(TP+FN),x軸にFP/(TN+FP)をとった曲線.分類問題などの性能評価に用いる.一般的に、感度と特異度の間にはトレードオフがある。感度を高めるようにパラメータを定めると特異度が下がり、特異度を高めるようにパラメータを定めると感度が下がる。さまざまなパラメータの値に対し、この感度と特異度の関係を見るものがROC曲線である。 TP/(TP+FN)は感度、FP/(TP+FN)は1-特異度である。AUCで評価される。|
|reanalysis data|再解析データ|データ同化のプロセスを経て得られた状態変数の推定値。逐次データ同化の場合は、平滑化推定値が対応する。|
===== S =====
^S^^^
|SAEC|Normal Human Small Airway Epithelial Cells. |正常ヒト小気道上皮細胞.|
|siRNA| |21-23塩基対から成る低分子二本鎖RNA.RNA干渉(RNAi)と呼ばれる現象に関与しており,メッセンジャーRNA(mRNA)の破壊によって配列特異的に遺伝子の発現を抑制する.|
|SPARC64 VIIIfx| |富士通が次世代スーパーコンピュータ向けに開発した CPU. 8 コアからなり,1 CPU で 128 ギガフロップスの計算能力を有する.|
|signal-transducing pathway|シグナル伝達経路|細胞外シグナル分子(主にタンパク質)を介した刺激を、細胞質や核内に伝えるための生化学反応の連鎖。一般には、細胞膜上の受容体と細胞外シグナル分子の結合によってシグナル伝達が開始し、Gタンパク共役因子の活性化機構、細胞内のタンパクリン酸化・脱リン酸化、転写因子活性による遺伝子の転写調節などによって構成される。|
|SILAC method|SILAC法|タンパク質量分析法の一種で、安定同位体ラベル法をアフィニティークロマトグラフィーと組み合わせることで定量的意味を持つプロテオームデータを得ることができる。|
|SIR|sampling importance resampling |粒子フィルタ (PF: Particle Filter) の実装方法のひとつ。観測に対する条件付き確率分布のモンテカルロ・サンプルを得るのに、もとの確率分布を表現するそれをリサンプルすることで実現する。退化が起こりにくい手法であるが、メモリコピーが必要であり、メモリアクセスが高価であるGPU環境では不利である。SISも参照のこと。|
|SIS|sequential importance resampling |粒子フィルタ (PF: Particle Filter) の実装方法のひとつ。確率分布はモンテカルロ・そんプルと各サンプルに対する重みの対として表現される。観測に対する条件付き確率分布は、重みを更新することで得られる。リサンプリングが不要であるため、GPUのようなメモリアクセスが高価である環境で有利に働くが、退化が起こりやすく、より多くのモンテカルロ・サンプルを必要とする。SIRも参照のこと。|
|SNP|Single Nucleotide Polymorphism|ある生物種集団のゲノム塩基配列中に一塩基が変異した多様性が見られ,その変異が集団内で1%以上の頻度で見られる時,これを一塩基多型(SNP,スニップ)とよぶ.数百塩基対に一カ所くらいの割合で存在しているおり,ヒトゲノム中には,約1000万箇所のSNPがある.|
|spin-up|スピンアップ|シミュレーションモデルに与えた初期値がモデルに十分に整合していない場合、初めの方の計算結果にはノイズが現れる。このノイズを落とすために、シミュレーションによる時間発展の計算をノイズが現れなくなるまで続けること。シミュレーションだけでなく、データ同化計算の前にも行われる。|
|state vector|状態ベクトル|システムの状態を記述する変数で構成されるベクトル量。データ同化の場合は、シミュレーション変数及び諸パラメータなどをすべて並べたベクトル量。|
|stochastic variable|確率変数|時間、空間的状態発展(更新)に、確率的な要因を含む変数。|
|strong constraint|強拘束|システムノイズをゼロとするシステムモデルを指す。|
|strong nonlinear|強非線形|システム、観測モデルが非線形の場合、それらを線形化近似し、カルマンフィルタの考えを適用する状態更新の計算手法が、拡張カルマンフィルタと呼ばれる。このような、モデルをあらかじめ局所線形化するような近似解法が役に立たないほど非線形性が強いこと。|
|SGE|Sun\\ Grid Engine |Sun Microsystems 社が援助しオープンソースで開発されている分散コンピューティング・グリッドコンピューティング環境のためのジョブ管理システム.PC クラスタ型スーパーコンピュータのジョブ管理システムとして用いられることも多い.|
|system model|システムモデル|update model と呼ばれることもある。状態ベクトルの、その時間更新を表現する実体形式。|
|system noise|システムノイズ|シミュレーションモデルが解く時間発展過程において、不確定性を許すために付加された項。|
|systems biology|システムズバイオロジー|生体内の情報伝達(タンパク相互作用、リン酸化・脱リン酸化、転写、翻訳など)や物質輸送のメカニズムをシステムとして捉え、生命現象を理解・解明することを目的とする研究領域。|
===== T =====
^T^^^
|TN|true negative|真陰性。感度、特異度、ROC curveを参考のこと|
|TP|true positive|真陽性。感度、特異度、ROC curveを参考のこと|
|trend model|トレンドモデル|時系列解析において、時系列データからトレンド成分を抽出する際に用いるモデル。1次元の場合はランダムウォークモデルのあてはめになっている。状態空間モデルとカルマンフィルタの組み合わせにより推定が可能である。津波データ同化では、津波成分以外の成分の抽出というデータの前処理のために使用している。|
|twin experiment|双子実験|データ同化による推定がうまくいっているかどうかを確認するための数値実験の手法。双子実験では、まず、真の境界条件のもとでのシミュレーションを走らせ、そこから得られる試験用の観測データを作成する。次にこの観測データと、偽の境界条件の下でデータ同化を行う。この同化により、偽の境界条件が修正され、真の境界条件すなわち海底地形に近づいたならば、手法が有効であると確認できる、という検証法である。|
===== U =====
^U^^
===== V =====
^V^^^
|variance parameter|分散パラメータ|不確実性などを表現する際に、そのばらつき具合を表すもの。境界条件に導入する場合の分散パラメータは、状態ベクトルの一部に確率変数を導入し、その分散共分散行列を与えることに相当する。|
===== W =====
^W^^^
|weak constraint|弱拘束|強拘束に対して、システムノイズがゼロでないシステムモデルを指す。一般的なシステムモデルのことである。|
===== X =====
^X^^
===== Y =====
^Y^^^
|Yeast Two Hybrid|酵母ツーハイブリッド法|タンパク質間相互作用を調べる手法の一つ|
===== Z =====
^Z^^