昨日のDBCLS - 壊れた計算機

GSEA softwareの使い方基本編統合TV(togotv)｜生命科学系DB・ツール使い倒し系チャンネルを作り終えた。このソフトウェアは、どの遺伝子がどの程度発現しているかを調べた実験結果を二種類以上与えると、その結果を比較し解釈の手助けをしてくれるソフトウェアだ。全く適当にな例だが、
発現データ

	肥満の個体	正常な個体
遺伝子A	100	11
遺伝子B	100	50
遺伝子C	30	30
遺伝子D	20	90
遺伝子E	40	70

と、事前の研究や計算の結果より分かっている同一機能に関係する遺伝子のセットのリスト

遺伝子セット1 ： インスリン分泌に関わる遺伝子：A,B,D,H,I
遺伝子セット2 ： 酸化的リン酸化に関わる遺伝子：D,E,F,G,Z
遺伝子セット3 ： 細胞接着に関わる遺伝子：C,F,X,Y
.
.
.

をGSEA softwareに投げると、GSEA softwareはこの結果を比較し、遺伝子セット群をもとにそれを解釈し、以下のような結果を表示してくれる。

肥満の個体：
遺伝子セット1のスコア ： 80
遺伝子セット2のスコア ： -100
遺伝子セット3のスコア ： 0
.
.
.

こうしてユーザーは、この実験結果から「肥満の個体ではインスリン分泌が増え酸化的リン酸化が抑制されているらしい」という解釈をすることができる。

David

一方David(DAVIDを使ってマイクロアレイデータを解析する統合TV(togotv)｜生命科学系DB・ツール使い倒し系チャンネル)は、実験結果そのものではなく、遺伝子のリストをもとにその遺伝子がどの機能に関連しているかを調べる。上の例では、

ユーザーが自前で肥満の個体で発現が増加している遺伝子は{A,B}、抑制されている遺伝子は{D,E}と計算をする。
Davidに{A,B}とクエリを投げる。 => インスリン分泌
Davidに{D,E}とクエリを投げる。 => 酸化的リン酸化
ユーザーが結果を解釈する。

という流れになる。Davidの方がGSEA softwareより簡潔である。しかし、ユーザーが実験結果から遺伝子リストを計算する過程で情報が落ちてしまうので、DavidよりGSEA softwareの方がより多くの情報を使い、より妥当な結果を表示することができるかもしれない。上の例では、Davidは遺伝子AとBは対等に扱うが、GSEA softwareでは遺伝子Aは10倍発現が増加していて、遺伝子Bは2倍発現が増加しているという情報を使うことができる。