yokaのblog

琵琶湖で微生物の研究してます

次世代シーケンスデータベース(SRA)の見かた

備忘的な内容もこの日記に書こうと思うよ。

今日は次世代シーケンス(NGS)のデータベースであるSRA(Sequence Read Archive)のデータ構造について勉強していたので、おさらいメモ。

 

データベースはどこ?

データベースの本体はDDBJ(DNA Databank of Japan)にある。アメリカのNCBIやヨーロッパのEBIとデータの中身は共通。

trace.ddbj.nig.ac.jp

 

データの構造

データベースを掘り進めていくと、以下の5つの情報が1まとまりになって登録されていることがわかる。

  1. Submission
  2. Study
  3. Experiment
  4. Sample
  5. Run
  1. “Submission”(SRA/DRA/ERA・・・・)  ※A=archive?
    投稿日や投稿者の所属等が記される。1連のデータの最上層にあたり、Study、Experiment、Sample、Run等の下層のデータへのリンクが一覧化されている。

  2. “Study”(SRP/DRP/ERP・・・・) ※P=project?
    ・Title(研究の内容が一言で表される)
    ・Study type (metagenomics, whole genome sequencing, transcriptome・・・・)
    ・Abstract(研究の説明。モノによっては長文)
    ・Description (Abstractとあまり変わらない?空欄のデータが多い)
    ・Center Name (投稿者の所属の略称)
    ・"BioProject"(PRJNA/PRJDB/PRJEB・・・・)
    ⇒Studyページ内に、モノによって存在。Studyに紐づいており、Studyページ内のリンクから閲覧可能。研究プロジェクトや対象生物に関する詳細な内容が記される。(研究プロジェクトのタイトル、グラント、研究目的、データの種類、対象生物、対象遺伝子領域に関する詳細情報、投稿論文へのリンク 等)

  3. “Experiment” (SRC/DRX/ERX・・・・) ※X=experiment?
    Runに紐づく、Runのメタ情報。実験に用いたプラットフォーム(454、miseq・・・・)、サンプルライブラリの調製方法、リードのスペック(Forward,Reverse・・・)等が記される。

  4. “Sample” (SRS/DRS/ERS・・・・) ※S=sample?
    Experimentに紐づく、対象生物種の情報。環境メタゲノムの場合は、”Uncultured marine microorganism”のように、種を特定しない形で表現されている。

  5. “Run” (SRR/DRR/ERR・・・・) ※R=run?
    シーケンスデータが入っているFastqファイルの本体。シーケンスの日付やリード数、総塩基数等の情報も参照できる。

 

より詳しくは本家DDBJ内のDRA Handbookに書かれている。・・・これだけの情報が日本語で読めるんだから本当に素晴らしい!だから日本人はなかなか英語が使えるようにならないんだろうな。