今日のDBCLS

UCSC Genome Browserの使い方〜wig形式のファイルをトラックとして追加する〜 統合TV(togotv)|生命科学系DB・ツール使い倒し系チャンネルを完成させた。
ただ、UCSCゲノムブラウザでは巨大なWIGファイルは遅すぎてまともに閲覧できないので、UTGB Toolkit -を使ったほうが良いと思う。こちらも卒研が終わったら統合TVを作るかもしれない。

今日のDBCLS

UCSC Genome Browser Homewig形式のファイルを表示させる統合TVを作っている。
URLから表示させる方法と、wigファイルをアップロードして表示させる方法がある。wigファイルをアップロードする場合、ファイルの先頭にヘッダーを追加する必要があり面倒である。500MB以上のwigファイルをアップロードしたらエラーが返ってきた。どうやら大きすぎるwigファイルは表示できないことがあるようだ。

今日のDBCLS

統計解析ソフト「R」での立廻り 統合TV(togotv)|生命科学系DB・ツール使い倒し系チャンネルを完成させました.

### mCGrate関数
mCGrate <- function(dat, begin=0, end=48129895, window.size=1000000) {
  dat.CG <- dat[dat$class == "CG", ] # classがCGの行のみを選択
  separators <- seq(begin, end, window.size) # 区切りを作る separators : [begin, begin + window.size, begin + 2*window.size, ...]
  mapply(function(sep) { # sepにseparatorsの要素を順次あてはめて、下の4行を実行
    window <- dat.CG[  sep < dat.CG$position
                     & dat.CG$position < sep + window.size, ] # ウィンドウへ切り出し 
    rate <- sum(window$mc) / sum(window$h) # メチル化率の割り算
    if (is.nan(rate)) NA else rate # 分母が0だとNaNになるが、これをNAに変換
  }, separators)
}

### ファイルの読み込み・メチル化率の計算
ADS <- mCGrate(read.csv("ADS", sep = "\t"))
ADS_adipose <- mCGrate(read.csv("ADS-adipose", sep = "\t"))
ADS_iPSC <- mCGrate(read.csv("ADS-iPSC", sep = "\t"))
FF_iPSC_19.11 <- mCGrate(read.csv("FF-iPSC-19.11", sep = "\t"))
FF_iPSC_19.11_BMP4 <- mCGrate(read.csv("FF-iPSC-19.11-BMP4", sep = "\t"))
FF_iPSC_19.7 <- mCGrate(read.csv("FF-iPSC-19.7", sep = "\t"))
FF_iPSC_6.9 <- mCGrate(read.csv("FF-iPSC-6.9", sep = "\t"))
FF <- mCGrate(read.csv("FF", sep = "\t"))
H1 <- mCGrate(read.csv("H1", sep = "\t"))
H1_BMP4 <- mCGrate(read.csv("H1-BMP4", sep = "\t"))
H9 <- mCGrate(read.csv("H9", sep = "\t"))
IMR90 <- mCGrate(read.csv("IMR90", sep = "\t"))
IMR90_iPSC <- mCGrate(read.csv("IMR90-iPSC", sep = "\t"))

### それぞれのメチル化率の列ベクトルを結合して行列に
dat <- cbind(ADS, ADS_adipose, ADS_iPSC, FF_iPSC_19.11, FF_iPSC_19.11_BMP4, FF_iPSC_19.7, FF_iPSC_6.9, FF, H1, H1_BMP4, H9, IMR90, IMR90_iPSC)

### 1 - 相関係数を距離として階層的クラスタリング・樹状図の描画
plot(hclust(as.dist(1 - cor(dat, use="complete.obs"))))

今日のDBCLS

Rでの立ち回り紹介

の紹介を追加。
実際にクラスタリングの操作は、http://www.nature.com/nature/journal/v471/n7336/full/nature09798.htmlのFig.1 eを元ネタにすることにした。これのMethodsを見ると、

Clustering was performed based on the Pearson correlation over all 10-kb windows transformed into a distance measure (as 1 − Pearson correlation) and using the hclust R function.

とあった。データをダウンロードするシェルスクリプトを3号機で動かして今日の勤務終了。

Life Science DictionaryをMacのGoogle日本語入力で

http://www.vector.co.jp/soft/mac/writing/se389554.html?dsからダウンロードし,ことえりに登録,旧・Macの手書き説明書 - FC2 BLOG パスワード認証の手順でGoogle日本語入力にインポートする.
タブ区切りファイルに変換できるので,個人使用の範囲内で他にも使えるかも.