次世代シーケンスデータベース（SRA）の見かた

備忘的な内容もこの日記に書こうと思うよ。

今日は次世代シーケンス（NGS）のデータベースであるSRA（Sequence Read Archive）のデータ構造について勉強していたので、おさらいメモ。

データベースはどこ？

データベースの本体はDDBJ（DNA Databank of Japan）にある。アメリカのNCBIやヨーロッパのEBIとデータの中身は共通。

&amp;amp;amp;amp;lt;a href="http://trace.ddbj.nig.ac.jp/DRASearch/" data-mce-href="http://trace.ddbj.nig.ac.jp/DRASearch/"&amp;amp;amp;amp;gt;DRA Search&amp;amp;amp;amp;lt;/a&amp;amp;amp;amp;gt;trace.ddbj.nig.ac.jp

データの構造

データベースを掘り進めていくと、以下の5つの情報が1まとまりになって登録されていることがわかる。

Submission

Study

Experiment

Sample

Run

“Submission”（SRA/DRA/ERA・・・・） ※A=archive?
投稿日や投稿者の所属等が記される。1連のデータの最上層にあたり、Study、Experiment、Sample、Run等の下層のデータへのリンクが一覧化されている。
“Study”（SRP/DRP/ERP・・・・）　※P＝project?
・Title（研究の内容が一言で表される）
・Study type (metagenomics, whole genome sequencing, transcriptome・・・・)
・Abstract（研究の説明。モノによっては長文）
・Description　（Abstractとあまり変わらない？空欄のデータが多い）
・Center Name　（投稿者の所属の略称)
・"BioProject"（PRJNA/PRJDB/PRJEB・・・・）
⇒Studyページ内に、モノによって存在。Studyに紐づいており、Studyページ内のリンクから閲覧可能。研究プロジェクトや対象生物に関する詳細な内容が記される。（研究プロジェクトのタイトル、グラント、研究目的、データの種類、対象生物、対象遺伝子領域に関する詳細情報、投稿論文へのリンク　等）
“Experiment” (SRC/DRX/ERX・・・・)　※X＝experiment？
Runに紐づく、Runのメタ情報。実験に用いたプラットフォーム（454、miseq・・・・）、サンプルライブラリの調製方法、リードのスペック（Forward,Reverse・・・）等が記される。
“Sample” (SRS/DRS/ERS・・・・)　※S＝sample？
Experimentに紐づく、対象生物種の情報。環境メタゲノムの場合は、”Uncultured marine microorganism”のように、種を特定しない形で表現されている。
“Run” (SRR/DRR/ERR・・・・)　※R＝run？
シーケンスデータが入っているFastqファイルの本体。シーケンスの日付やリード数、総塩基数等の情報も参照できる。

より詳しくは本家DDBJ内のDRA Handbookに書かれている。・・・これだけの情報が日本語で読めるんだから本当に素晴らしい！だから日本人はなかなか英語が使えるようにならないんだろうな。

yokaのblog

湖で微生物の研究してます

次世代シーケンスデータベース（SRA）の見かた

データベースはどこ？

データの構造