今日のDBCLS

GSEA software の統合TV続き。

Gene Set Enrichment Analysis (GSEA)
予め決めた遺伝子群が異なる条件下でどう振舞うかを調べる手法
GSEA software
GSEAを実装したソフトウェア

Tutorial

まず Tutorial をまず全て見た。そして実際にp53のサンプルデータセットでGSEAを行った。

GSEAの論文

次に Gene set enrichment analysis A knowledge-based approach for interpreting genome-wide expression profiles を読んだ。GSEAのアルゴリズムが記述されている。
条件と発現データの相関を順に並べて、「予め決めた遺伝子群に属す遺伝子に出会った時に正方向に相関分動き、それ以外は負方向に動く」というランダムウォークを行った時の最大値がEnrichment Scoreだそうだ。

GSEA software

GSEA softwareでは複数の遺伝子群に対して同時にGSEAを行うことができる。Broad InstituteMSigDB に同一のGene Ontologyタームを持つ遺伝子群や、似た上流配列・アミノ酸配列を持つ遺伝子群、今までの研究で似た性質を持つと分かっている遺伝子群などを提供している。GSEA softwareからそれを利用することでマイクロアレイ(や次世代シーケンサー)のデータの解釈を行うことができる。つまり異なる条件で比較した発現データをGSEA softwareに投げてやれば、どの経路の遺伝子・どういった上流配列を持つ遺伝子・どういった細胞内での働きを持つ遺伝子が活発になったかなどを返してくれる。

GSEA User Guide

GSEA User Guide を読んだ。

GSEA Data Formats

他に重要そうな文章は Data formats - GeneSetEnrichmentAnalysisWiki 。他のデータベースのファイルをこのフォーマットに変換する作業も統合TVに載せたいと思っているが・・・

インターフェース
  • GUI
  • jarファイルにまとめたJava実行形式
  • ソースコード
  • R用のインターフェース
  • GenePatternのモジュール

が提供されている。今回はGUI版を紹介するが、一番面白そうなのはR用のインターフェース。