文部科学省と独立行政法人科学技術振興機構の「革新的イノベーション創出プログラム(COI STREAM)」における東京大学医科学研究所とDeNAライフサイエンスの共同研究として、遺伝子情報をさまざまな疾病のリスク予測、体質の解析に利用できるロジックを作成するチームを結成しました。生命系のPh.Dを持つ専任研究員8名と東大医科学研究所の教員陣2名の総勢10名体制で、世界の先端研究を分析しています。
このチームが研究論文の分析を行い、毎週の定例ミーティングを通じ、最終的に予測に用いる科学的根拠を選定しました。
下記のフローで優先度付けがなされた論文のうち、疾患については最高優先度の論文を全て、体質については最高優先度論文から研究の規模・質に基づき最適な論文を一報選定し、それぞれ分析へと進みます。
分析の対象となった論文は、専任の研究員により分析され、必要な情報がデータベース化されます。
構築されたデータベースの中から、統計的に有意(P値と呼ばれる“確からしさ”の指標が5.0×10のマイナス8乗未満)とみなされた複数のSNPで、かつそれぞれ遺伝的に独立な(連鎖していない)SNPの組み合わせをリスクモデルに適用します。連鎖していないかどうかは、各SNPがそれぞれ5Mb以上離れているかを確認しています。
ある病気についてあるSNPが関連していると言うことがGWASを用いた研究により分かり、そのSNPのリスクアレル(Rと書きます)とノンリスクアレル(Nと書きます)の情報がその研究により得られます。具体的には、
です。この2つの値は、GWASにおける症例(ケース)と対照(コントロール)における各遺伝型の標本数をまとめた次の表
NN | RN | RR | |
---|---|---|---|
対照 | A | B | C |
症例 | D | E | F |
を用いて
で得られます。ここでは、この情報を使ってどのように発症確率を計算しているかを説明します。
今、リスクアレルの頻度を p とすると、ノンリスクアレルの頻度は 1 ― p となり、ハーディ・ワインベルグ平衡の下では、3つの遺伝型NN、RN、RRの頻度は
となり、NN、RN、RRの浸透率(penetrance)を,
,
と表すと、この病気の発症確率 q は
となります。ここで、,
,
はそれぞれNN、RN、RRの集団におけるこの病気の発症確率となります。この病気の集団全体での発症確率qが分かっているとします。すると、これら3つの確率
,
,
は、GWASより求めたオッズ比
,
を用いて求めることができます。その方法の概略を示します。
オッズ比,
は
,
,
を用いて、
と表すことができます。この2つの式をそれぞれ,
について解き、上の発症確率 q の式に代入します。すると、2つのオッズ比が1でなければ
の3次方程式を得ますので、それを解くことによって
を得ることができます。この
から
,
が上のオッズ比の2つの式から得られますので、これで3つの遺伝型の発症確率
,
,
を求めることができました。
今、複数のSNPがこの病気と関係しているとすると、各SNPについて上の方法により浸透率,
,
を求めることができます。ここでは n 個のSNPがこの病気に関係しているとします。i番目のSNPの浸透率を
,
,
と書くことにします。ある遺伝型の集団(上記のn個のSNPのパターンが同じ集団)を考えます。その集団のi番目のSNPの遺伝型に対する浸透率を
と書きます。ただし、
は
,
,
のどれかとなります。このとき、この病気の集団全体の発症確率 q に対するこの集団の発症確率 P のリスク比が次の乗法モデルで計算されると仮定します
この関係式を使い、この集団の発症確率Pは
と計算されます。
補足となりますが、
ですので、,
とおくと、
は、この集団のノンリスクホモ(NN)に対する発症のリスク比、
∙
∙
は、このSNPの発症リスク比の平均となり
の分母はこの疾患の平均発症リスク比、分子はn個のSNPに基づくこの集団のリスク比を表しています。ただし、はi番目のSNP におけるリスクアレル頻度です。
『MYCODEの遺伝子検査では、統計的な確からしさが十分である事が確認されたSNP(P値が5.0×10のマイナス8乗未満)のみを採用しています。各項目は参照した研究の情報をもとに、論文評価レベルとして3段階に定義しています。』
1.人種カテゴリー
2.サンプルサイズ
【疾患】
【体質】
3.再現性(別集団でも再現できているか)
自宅でできる遺伝子検査のお申し込み