読者です 読者をやめる 読者になる 読者になる

yokaのblog

琵琶湖で微生物の研究してます

次世代シーケンスデータベース(SRA)の見かた

備忘的な内容もこの日記に書こうと思うよ。

今日は次世代シーケンス(NGS)のデータベースであるSRA(Sequence Read Archive)のデータ構造について勉強していたので、おさらいメモ。

 

データベースはどこ?

データベースの本体はDDBJ(DNA Databank of Japan)にある。アメリカのNCBIやヨーロッパのEBIとデータの中身は共通。

trace.ddbj.nig.ac.jp

 

データの構造

データベースを掘り進めていくと、以下の5つの情報が1まとまりになって登録されていることがわかる。

  1. Submission
  2. Study
  3. Experiment
  4. Sample
  5. Run
  1. “Submission”(SRA/DRA/ERA・・・・)  ※A=archive?
    投稿日や投稿者の所属等が記される。1連のデータの最上層にあたり、Study、Experiment、Sample、Run等の下層のデータへのリンクが一覧化されている。

  2. “Study”(SRP/DRP/ERP・・・・) ※P=project?
    ・Title(研究の内容が一言で表される)
    ・Study type (metagenomics, whole genome sequencing, transcriptome・・・・)
    ・Abstract(研究の説明。モノによっては長文)
    ・Description (Abstractとあまり変わらない?空欄のデータが多い)
    ・Center Name (投稿者の所属の略称)
    ・"BioProject"(PRJNA/PRJDB/PRJEB・・・・)
    ⇒Studyページ内に、モノによって存在。Studyに紐づいており、Studyページ内のリンクから閲覧可能。研究プロジェクトや対象生物に関する詳細な内容が記される。(研究プロジェクトのタイトル、グラント、研究目的、データの種類、対象生物、対象遺伝子領域に関する詳細情報、投稿論文へのリンク 等)

  3. “Experiment” (SRC/DRX/ERX・・・・) ※X=experiment?
    Runに紐づく、Runのメタ情報。実験に用いたプラットフォーム(454、miseq・・・・)、サンプルライブラリの調製方法、リードのスペック(Forward,Reverse・・・)等が記される。

  4. “Sample” (SRS/DRS/ERS・・・・) ※S=sample?
    Experimentに紐づく、対象生物種の情報。環境メタゲノムの場合は、”Uncultured marine microorganism”のように、種を特定しない形で表現されている。

  5. “Run” (SRR/DRR/ERR・・・・) ※R=run?
    シーケンスデータが入っているFastqファイルの本体。シーケンスの日付やリード数、総塩基数等の情報も参照できる。

 

より詳しくは本家DDBJ内のDRA Handbookに書かれている。・・・これだけの情報が日本語で読めるんだから本当に素晴らしい!だから日本人はなかなか英語が使えるようにならないんだろうな。