今月のDBCLS

次の統合TVはGalaxy(http://galaxy.psu.edu/http://main.g2.bx.psu.edu/)を扱うことにした。GalaxyはWeb上で主に生物系のデータ(遺伝子の位置やSNPの位置など)を扱って計算する環境で、プログラミングの知識がなくても簡単に操作でき、またGalaxyを使って計算方法や計算結果を他人と共有することも可能だ。DBCLSはGalaxyに独自の機能を加えたDBCLS Galaxy(http://galaxy.dbcls.jp/)を提供しているので動画自体はDBCLS Galaxyを使って作成する予定だ。Galaxyの大体の雰囲気はDBCLS Galaxyの利用法 統合TV(togotv)|生命科学系DB・ツール使い倒し系チャンネル発表資料を見ると掴めると思う。
Galaxyに似たシステムであるGenePattern([http://www.broadinstitute.org/cancer/software/genepattern/)についても比較のために調べた。

GalaxyとGenePatternの比較

「ツールを左のメニューから選んで真ん中のカラムで引数を指定して右のカラムに計算結果を出す」という基本操作はGalaxyもGenePatternもだいたい同一だが、扱うデータのフォーマットや提供されているツールの種類が大きく異なる。

データのフォーマット

Galaxy

Galaxyは基本的にタブ区切りファイルを扱う。ファイルの種類やそれぞれの列のデータの種類(メタデータ)はファイルの中に記述する必要はなく別に指定することができる。
例:

この例では上側の部分で染色体番号や遺伝子の開始位置などのデータの種類がどの列にあるかを指定できる。下側の部分(Change data type)では、ファイルの種類を指定できる。(HTMLファイルならhtml, ゲノム上のある区間ならintervalなど)

メタデータをファイル外部で指定できるので、列の順番や拡張子などを気にせずにファイルを作成できる。

GenePattern

GenePatternはhttp://www.broadinstitute.org/cancer/software/genepattern/tutorial/gp_fileformats.htmlのresファイルやgctファイル,clsファイルのように、メタデータをファイル内部に記入する必要がある。GEOImporter(左側のメニューのPreprocess & Utilitiesサブメニュー内にあり)のようにGEOからデータをダウンロードしてgctファイルに変換してくれるツールを使うこともできるが、Galaxyと比較するとファイル作成は面倒。ただし一部のツール(MergeColumnsなど)はフォーマットを保ったまま計算結果を出すので、一旦ファイルを作成すればその後はフォーマットを気にせずに操作できることがある。

ツール

ツール名の分かりやすさ

GenePatternはツールの名前が難解に感じられる。Gene List Selection内の「COPA」や「GSEA」など略語で示されているものがあり、機能を一目で推定しづらい。一方Galaxyでは、ツール名の他に簡単な説明が共に記されているのでGenePatternより機能を推定しやすいと感じた。
例:

GenePattern
Galaxy
ツールの機能

ここから先はGenePatternとGalaxyの全ての予め用意されているツールを見ていないので主観だが、GalaxyはGenePatternに比べて行のフィルタリングや二つのデータテーブルのジョインを計算するなど基本的な(普遍的な)操作を行うツールが多いようだ。またGenePatternはGalaxyに比べて複雑な(特定のデータに特化した)計算(Gene List SelectionサブメニューのGSEAやClusteringサブメニュー内のツールなど)を行うツールが多いようだ。
実際にそれぞれのチュートリアルを見てみると、

http://main.g2.bx.psu.edu/screencast
Galaxyのチュートリアル。ジョインを取ることが多い。
http://www.broadinstitute.org/cancer/software/genepattern/tutorial/gp_tutorial.html
GenePatternのチュートリアル。ComparativeMarkerSelectionのように特化した計算をしている。

とそのようになっているようだ。

Galaxyについて

Galaxy自体について調べたことはまた別の記事で書こうと思う。