生命情報表現論講義メモ

GenBank, EMBL, DDBJの三重構造
3つのデータベースの内容は基本的に同じ
フォーマット
テキスト -> ASN1 -> XMLと変化。内部的には関係性データベース。

2.ゲノムデータベースの特徴

  • データの解釈の変化 例:geneの意味
  • 生データのほかに解釈が必要
  • 前処理が必要
  • 追加が頻繁に起こる
  • モデル化が困難(データの意味が不明) ・どういったクエリが必要か分からずインデックスの作成が困難
  • 高度な問い合わせ(類似性を基にした問い合わせなど)

3.データベースの検索

キーワードによる検索
類似性に基づく検索

4.90年代前半

  • DBsはばらばらに管理運営
  • エントリが文献単位
  • 精度の違うデータの混在
  • 統合化・再編成・精錬が課題

5.統合化へのアプローチ

  • 強い統合化 <- 先進データベース技術, 演繹
  • 弱い統合化 <- リンクによるデータの統合(主流になってきている)
  • 共通フォーマット <- データ記述言語

6.2000年代以降

  • ハイスループットな実験手法の進展
  • 解釈できない膨大なオーミクスデータ
  • 機能データベースの構築と統合化
  • システム生物学の勃興

構造から関係そして機能

機能(・関係)を計算機でどう表現するか

構造
  • 配列
  • 立体構造
関係
  • 発現
  • 局在
  • 相互作用
機能

機能データベースのための知識の記述法

いまだ研究段階
パスウェイ・ネットワーク
パスウェイデータベース
表現型
画像、動画、言葉・・・
概念・機能と階層
オントロジー
動的な挙動
数理モデル、シミュレータ
知識表現

オントロジーの開発

機能DB・テキストマイニング・DB統合に不可欠

  • 遺伝子名・タンパク質名・別名・略語
  • 機能を表す用語の統一
  • さまざまな概念・用語
  • 階層関係
  • 関係の記述
  • 統一的なデータベースフォーマット