今日のDBCLS
UCSC Genome Browserの使い方〜wig形式のファイルをトラックとして追加する〜 統合TV(togotv)|生命科学系DB・ツール使い倒し系チャンネルを完成させた。
ただ、UCSCゲノムブラウザでは巨大なWIGファイルは遅すぎてまともに閲覧できないので、UTGB Toolkit -を使ったほうが良いと思う。こちらも卒研が終わったら統合TVを作るかもしれない。
今日のDBCLS
UCSC Genome Browser Homeにwig形式のファイルを表示させる統合TVを作っている。
URLから表示させる方法と、wigファイルをアップロードして表示させる方法がある。wigファイルをアップロードする場合、ファイルの先頭にヘッダーを追加する必要があり面倒である。500MB以上のwigファイルをアップロードしたらエラーが返ってきた。どうやら大きすぎるwigファイルは表示できないことがあるようだ。
今日のDBCLS
統計解析ソフト「R」での立廻り 統合TV(togotv)|生命科学系DB・ツール使い倒し系チャンネルを完成させました.
### mCGrate関数 mCGrate <- function(dat, begin=0, end=48129895, window.size=1000000) { dat.CG <- dat[dat$class == "CG", ] # classがCGの行のみを選択 separators <- seq(begin, end, window.size) # 区切りを作る separators : [begin, begin + window.size, begin + 2*window.size, ...] mapply(function(sep) { # sepにseparatorsの要素を順次あてはめて、下の4行を実行 window <- dat.CG[ sep < dat.CG$position & dat.CG$position < sep + window.size, ] # ウィンドウへ切り出し rate <- sum(window$mc) / sum(window$h) # メチル化率の割り算 if (is.nan(rate)) NA else rate # 分母が0だとNaNになるが、これをNAに変換 }, separators) } ### ファイルの読み込み・メチル化率の計算 ADS <- mCGrate(read.csv("ADS", sep = "\t")) ADS_adipose <- mCGrate(read.csv("ADS-adipose", sep = "\t")) ADS_iPSC <- mCGrate(read.csv("ADS-iPSC", sep = "\t")) FF_iPSC_19.11 <- mCGrate(read.csv("FF-iPSC-19.11", sep = "\t")) FF_iPSC_19.11_BMP4 <- mCGrate(read.csv("FF-iPSC-19.11-BMP4", sep = "\t")) FF_iPSC_19.7 <- mCGrate(read.csv("FF-iPSC-19.7", sep = "\t")) FF_iPSC_6.9 <- mCGrate(read.csv("FF-iPSC-6.9", sep = "\t")) FF <- mCGrate(read.csv("FF", sep = "\t")) H1 <- mCGrate(read.csv("H1", sep = "\t")) H1_BMP4 <- mCGrate(read.csv("H1-BMP4", sep = "\t")) H9 <- mCGrate(read.csv("H9", sep = "\t")) IMR90 <- mCGrate(read.csv("IMR90", sep = "\t")) IMR90_iPSC <- mCGrate(read.csv("IMR90-iPSC", sep = "\t")) ### それぞれのメチル化率の列ベクトルを結合して行列に dat <- cbind(ADS, ADS_adipose, ADS_iPSC, FF_iPSC_19.11, FF_iPSC_19.11_BMP4, FF_iPSC_19.7, FF_iPSC_6.9, FF, H1, H1_BMP4, H9, IMR90, IMR90_iPSC) ### 1 - 相関係数を距離として階層的クラスタリング・樹状図の描画 plot(hclust(as.dist(1 - cor(dat, use="complete.obs"))))
今日のDBCLS
Rでの立ち回り紹介
の紹介を追加。
実際にクラスタリングの操作は、http://www.nature.com/nature/journal/v471/n7336/full/nature09798.htmlのFig.1 eを元ネタにすることにした。これのMethodsを見ると、
Clustering was performed based on the Pearson correlation over all 10-kb windows transformed into a distance measure (as 1 − Pearson correlation) and using the hclust R function.
とあった。データをダウンロードするシェルスクリプトを3号機で動かして今日の勤務終了。
Life Science DictionaryをMacのGoogle日本語入力で
http://www.vector.co.jp/soft/mac/writing/se389554.html?dsからダウンロードし,ことえりに登録,旧・Macの手書き説明書 - FC2 BLOG パスワード認証の手順でGoogle日本語入力にインポートする.
タブ区切りファイルに変換できるので,個人使用の範囲内で他にも使えるかも.