yokaのblog

湖で微生物の研究してます

96wellの細菌を1時間半で数えてくれる機械

96wellフォーマットでセルカウントができるフローサイトメーターがやってきた。数年前からずっと欲しいと思っていたのだけど、今回、ラボで導入することが決まり、とてもありがたい。

f:id:yokazaki:20200310111358j:plain

早速、琵琶湖で採ったサンプルを使ってカウントをやってみた。最初は閾値やゲインやプロットの軸のセッティングがうまく行かなくて何も検出できず冷や汗をかいたけど、細菌サイズのものを検出するためには色々と特殊な設定が必要だったようで、2日ほど勉強しつつ試行錯誤してベストなセッティングにたどり着いた。10000cells/mL程度の細菌でも検出可能で、それを96wellフォーマットで一気に数えてくれる。感度的にはウイルスも蛍光染色すれば十分検出可能だ(ただしノイズの少ないサンプルを準備することが必要)。今までは1wellずつ染色して顕微鏡で確認するしかなくて、1プレートを検鏡するだけで1日がかり、しかも細胞密度が薄いと正確に計数するのがとても大変で、精神的にも疲れる大仕事だった。それが1プレート1時間半で自動でカウントしてくれるようになるのだからすごい。

 予備検討がうまく行ったので、本番サンプルである、2年前から仕掛けていた96wellの限界希釈培養系のスクリーニングも行った。4プレート384wellからあっという間にポジティブな34wellが決まった。それを検鏡してみると、単離できていそうな均質な細菌で占められるwellもちらほらあった。本命ではないかと思われる細菌が採れてそうなwellも見つかった。シーケンスをするのがとても楽しみだ。

f:id:yokazaki:20200311235706j:plain

今後は96wellフォーマットでのハイスループットな培養や細胞カウントを活用して効率的に研究を進めたい。特に、貧栄養性の細胞密度が低い細菌の検出には適したプラットフォームだと思う。限界希釈培養のスクリーニングのほか、複数の培養条件を並列で試したり、FISHと組み合わせて集積度を確認したりといった活用も考えられる。せっかく高い機械が導入されたので、それに見合ったユニークな研究に発展させなければならない。

 

基礎研究を税金で支えなければならないのはなぜか?

税金を使って基礎研究をさせてもらっている研究者として、この問いに対する答えは常に準備しておかなければならない。

 そもそも人類の歴史の大半の期間において、基礎研究は金持ちまたは金持ちからの支援を受けた研究者が行うものだった。税金(=国の予算)で基礎研究を支えるようになったのは近代に入ってからだ。科学力が国力に分かりやすく直結していた世界大戦や冷戦の時代が終わり、学問分野の細分化や、情報共有の高速化・国際化が進む中で、「なぜ国のお金を使って基礎研究をやる必要があるのか?」ということが改めて問い直されている。

 この問いには様々な立場から様々な答え方ができるし、自分もあれこれと考えを巡らせてきた。で、今自分の中で一番煮詰まっている答えとして、

変化し続ける世界で正常な判断を下す余裕を持ち続けるため

に基礎研究を税金で支える必要があるのだと考えている。

 仕事でも人生でも、国の政策でも、人類の歴史でも生物の進化の過程においても、破滅を防ぐために最も恐れなければならない事態は「選択肢を失うこと」だ。「貧すれば鈍する」という言葉通り、選択肢を失って余裕がなくなると、精神的にも物理的にも正常な判断・望ましい選択を下すことが難しくなり、ますます余裕がない状況に追い込まれ、悪循環にハマっていく。一度失った選択肢を取り戻すのは、その選択肢を維持し続けることよりも、はるかに難しい。なので、選択肢を手放す事態を避けるためには、あらゆる手段を尽くす必要がある。

 どのような基礎研究でも、数年後、数十年後、数百年後のいつか、注目される日が来る可能性がある。電波が発見された当初は何の役にも立たないと思われていた話や、外来生物の侵入で突然その生物の専門家が引っ張りだこになるケースのように、基礎研究の成果が花開く事例は枚挙にいとまがない。ただし、いつどこで花開くのかは、誰にも予想できない。その時に備え、先人たちの技術や知識や文化の蓄積を絶やすことなく次世代に伝え、選択肢として維持し続けることが基礎研究の役割であり使命だ。宇宙の果てのある銀河のある星の研究も、ある環境のある微生物のある遺伝子のある現象の研究も、ある時代のある人物が書いたある書物の研究も、その成果がすぐに金銭的な利益を生み出すことが無いとしても、社会が取りうる選択肢を絶やさないために活動しているという点では、十分に「役に立っている」と言えるのではないか。基礎研究がもたらす「余裕」や「遊び」が無ければ、世界のトレンドが激しく変化していく中で、正常な判断を下し続けうまく立ち回っていくことは難しいだろう。先に書いたように、手放した選択肢を取り戻すのはとても大変で、基礎研究の蓄積も、一度でもやる人がいなくなって絶えてしまえば、再び同じ状況にまで取り戻すのは不可能に近い。なので、継続的・安定的にサポートする必要がある。だからこそ基礎研究を(財源の許す限り)国のお金を使って支える必要性があるのだろうと僕は考えている。

 ところで先に書いたように「貧すれば鈍する」は人生や仕事を含め、あらゆる場面に当てはまる言葉で、僕の座右の銘の一つだ。お金・時間・人間関係・健康状態に余裕があって初めて大局的で正しい判断ができるようになる。余裕が無くなって精神的・物理的に正しい判断が下せない状況に陥ることは避けなければならない。この1年の抱負として、リソースと仕事量のバランスをうまくコントロールしながら、長期的・根源的な視点から物事を考えられる状態を維持することに努力を払いたい。何より、来年の3月に迫った学振の任期切れの前に、物理的・精神的な余裕を持った状態で研究が続けられる目途を立てることが今年最大の目標だ。

新着論文の集め方・文献管理方法

今月で2010年代が終わる。改めて「2020」という文字を見ると、近未来感があって少しワクワクする。そんな感想も今月限りなのだと思うと寂しい。世界の情報化はますます進んで、「インプットよりもアウトプット、スピードこそが価値」みたいな考えが幅を利かせていて息苦しい。アウトプットし続けないと埋もれてしまうのは事実だけど、情報があふれる今だからこそ、緻密なインプットに基づく丁寧な仕事が求められているのではないかと感じる。思い付きで何かを始める前に

  • 過去に同じことを考えたことのある人が世界のどこかにいるのではないか
  • この問題は今どこまで解決していて、どこから未解決なのか

といった点をしっかり押さえてから着手することで、2度手間が減り論点もクリアになって、結果的に時間に対するアウトプットの質を高めることができると思う。

 研究の世界では、質・量いずれにおいても「論文」が最も重要なインプットであり、新着論文のチェックと収集した文献の管理は研究者共通の課題だ。ジャーナルの電子化が進み、論文の出る速度も数も増え続ける中で、論文の探し方・集め方・読み方も時代に合わせた方法が求められる。自分自身、色々な試行錯誤の末に自分なりのやり方に落ち着いているところなので、その方法をまとめておきたい。

文献管理の基本的な考え方(大事にしていること)

論文の内容を覚えておく必要はない。検索性が重要。

一昔前なら、情報や数字を持っていることは重要な差別化要因で、物知りであることが価値だった。ところが今は具体的情報にはネットや電子媒体の検索ですぐにアクセスできる。その代わり「情報を検索できるということを知っている」ことが差別化要因になっている。なので、必要な時に必要な情報に素早くアクセスできるよう、いかに頭の中やデジタル空間で、検索性・引き出し性を持たせて情報をストックしておくかが重要である。

一次情報に触れる

情報の電子化が進んで生情報にアクセスするのが容易になるかと思いきや、あまりにも情報量が増えすぎたせいか、他人や機械によってキュレーションされた二次情報のほうが目立つようになってきている。もちろん、ネットで話題になっている論文や、文献管理ソフトがリコメンドしてくる論文にも目を通すけど、自分と全く同じ興味の人間なんていないし、機械的リコメンドもまだ信用できない。結局、自分にとって重要な情報を逃さず補足するためには、バイアスのかかってない生の一次情報を自分の目で選別するほかない。 

新着論文のチェック方法

ではその一次情報をどう取ってくるか。色々な方法を試した結果、ジャーナルのウェブサイトのRSSフィードをフォローするという方法を使っている。昔ながらの方法だけど「早くて」「一覧性があって」「どの雑誌も網羅的に追える」という観点で、RSSを超える方法は未だに見つかっていない。FeedlyというRSSリーダーを使っていて、今僕がフォローしているジャーナルは以下のような感じだ。

Applied and Environmental Microbiology, Bioinformatics, BioRxiv (section: Bioinformatics, Ecology, Evolutionary biology, Genomics, Microbiology), Current Opinion in Microbiology, FEMS Microbiology Ecology, FEMS Microbiology Letters, FEMS Microbiology Reviews, Genome Research, Microbial Ecology, mBio, Microbiology and Molecular Biology Reviews, BMC Bioinformatics, BMC Microbiology, Microbiome, Genome Biology, Microbes and Environments, mSphere, mSystems, Nature, Nature Biotechnology, Nature Ecology & Evolution, Nature Geoscience, Nature Microbiology, Nature Reviews Microbiology, Nature Communications (section: Earth and environmental sciences and Biological sciences), Nucleic Acids Research, PLOS Biology, PNAS, Science, ISME Journal, Environmental Microbiology, Environmental Microbiology Reports, Limnology, Limnology & Oceanography, Molecular Ecology, Molecular Ecology Resources, Viruses, Frontiers in Microbiology

これらを合計すると、平日は1日に50~150本くらいの新着論文が流れてくる。週末はほとんど流れてこないけど、時差があるので日本だと月曜日より土曜日のほうが多くなる。

 これに加えて、補助的に使っているのがGoogle Scholarのアラート機能だ。3タイプのアラートを設定していて、

  • 関心のあるキーワードを含む論文が出版されたとき
  • 関心のある研究者の新しい論文が出版されたとき
  • 関心のある文献を引用する新しい論文が出版されたとき

にメールが飛んでくるようになっている。上記の3タイプ合計して150条件くらい設定しているけど、こちらは数日に1度、50件くらいが一気に送られてくるペース。RSSフィードとの重複もあるし、RSSフィードよりも1週間以上は情報が遅いのだけど、RSSで追ってない雑誌に掲載される重要論文を引っ掛けるのに加えて、RSSで見逃した論文のダブルチェックという機能もかねて目を通している。

情報の取捨選択(pdfをダウンロードするまで)

これだけフォローしていると、数日チェックをサボっただけであっという間に数百件の新着論文が溜まってしまう。そうならないように、時間を見つけてはRSSGoogle Scholarアラートに流れてくる論文タイトルを流し読みして既読にしていく。この作業は中断/再開の労力が少ないこともあって、他に使いどころのない細切れ時間(出張の移動中とか)を潰すのにちょうどよい。慣れてくると、大脳で別のことを考えながら小脳でタイトルを流し読みできるようになってくる(こういう読み方をしていると、文字の形で瞬時に情報を伝えられる漢字は偉大で、アルファベットは一覧性が低いなと改めて感じる)。

 論文を選別するにあたっては、

  • 自分の研究に直接的に関連する、将来的にしそうであり、引用する可能性がある
  • 引用する可能性は低い周辺分野の論文だが、自分の視野を広げるうえで役立ちそう

というものを残すようにしている。ただ、「少し気になるな」くらいで残していると、ものすごい量の論文を読まなければならなくなってしまうので、常に気持ち厳しめな基準でふるい落とすようにしている。「後で気になった時にネット検索ですぐに再発見できる論文」もあまり手元に置いておかないようにしている。検索性を高めることが論文集めの目的なので、最初から検索性が高い論文は持っている必要はない。逆に言うと、

今手元に落としておかなければ、もうこういうアイデアやキーワードに触れるチャンスはないかもしれない

という論文はふるい落とさずに残すようにしている。

 感覚として、タイトルスキャンだけでふるい落とされる論文が95%くらい。残りの5%はブラウザの新規タブとしてバックグラウンドに溜めていって、後でまとめてAbstractに目を通す。その半分くらいが、「タイトルは面白そうだったけどAbstractを読めば十分」って論文でそこで脱落。残り半分のうち、さらに約半分が上記の基準に合致する「すぐにダウンロード」判定の論文で、残り半分がひとまず判断を保留したい「後で読むリスト」に追加される。判定的には「すぐにダウンロード」であっても、プレプリントやadvanced publicationしかまだ出てない場合は、正式版のpdfが出るまでは「後で読むリスト」で待機させる。「後で読むリスト」は1か月に1度くらいの頻度で消化する。そこで改めてAbstractを読んで、ダウンロード判定が出る場合もあれば、「もう読まなくていいや」となって脱落する場合や「まだリストに置いておこう」となることもある。「後で読むリスト」には常に50本くらいの論文が溜まっている。

 ちなみにここまで、新着論文一覧から情報を選別する方法を書いたけど、必要に迫られてのネット検索や、読んでいる論文の引用・被引用繋がりで、過去の論文を新たに手に入れる事ももちろんある。そういう論文もこの後の工程では同じようにして管理される。

ダウンロードした文献の管理方法

ダウンロードしたpdfは全てMendeley Desktopで管理している。pdf文献管理ソフトは色々あるけれど、たまたま一番最初に使ったのがMendeleyだったので今も使い続けている。実は2018年の春に、クラウドに保存されているpdfやアノテーションの一部が吹っ飛ぶという大事件があって、幸い自分のデータへの影響は小さかったものの、この時は真剣にZoteroやEndNoteへの移行を考えた。けど結局、乗り換えコストの高さに苦しんでいるうちにMendeleyが安定してきて、未遂に終わった。後述するように、僕はMendeleyのメモ機能を活用してかなりの時間をかけて自分用に論文を整理しているので、Mendeleyのデータが失われたら研究者生命にかかわるレベルでダメージを受ける。なのでこの事件以降、定期的にMendeleyのデータはバックアップを取るようにしている。

 最初に書いたように、文献整理で最重視しているのが論文の検索性・引き出し性を高めることだ。読むためではなく、知識の引き出しを作るために論文を集めているという考えだ。Mendeleyにはpdfの全文検索機能がついているので、「そういえばこういう研究があったな」というときに、手持ちの全論文から、キーワードで関連情報を瞬時に掘り出すことができる。別の使い方としては、気になった生物名や遺伝子名、試薬名、キット名などで検索することで、それがどういう文脈で登場したり使われ方をされたりしているのかを一覧することができる。自分の興味に近い文献だけを検索するので、インターネット上で検索するよりもはるかに自分の知りたいことに近い、高品質な情報に瞬時にアクセスできる。

General notes機能を使って論文に自分用インデックスをつける

 一方で検索には致命的な制約が存在する。それは「検索できる情報が存在することを知っている」状況でしか使えないということだ。「そういえばこういう論文があったな」と検索に思い至るためには、関連した情報に触れたときに、瞬時に頭の中でその論文の存在が思い浮かぶ状態にしていなければならない。論文の内容はハードディスクに置いておけばよいが、「論文の存在情報」は頭の中に置いておくしかない。つまり論文情報の「引き出し化」が必要になる*1

 そこで活用しているのが、Mendeley上で論文ごとにコメントを付けられるGeneral notes機能だ。論文をダウンロードしたらAbstractやFigureを流し読みして、「自分がなぜその論文をダウンロードしたのか」「この論文の結果が自分の研究にとってどのような意味を持つか」を数行の一読できる日本語にまとめてGeneral notesに書き込んでおく。ポイントは、論文の中身を客観的にまとめるのではなく、自分にとってのその論文の価値を、未来の自分にできるだけ端的に伝えられるように書くことだ。主観的で良いし、自分しか分からない内容でも構わない。大切なのは論文の内容を説明することではなく、関連する情報に触れたときにすぐにその論文のことを思い出せるようにしておくことだ。

 論文をいつでも引き出せる状態にしておけば、論文の中の細かい数字やデータを覚えておく必要は無くなる。その論文に書かれている情報が必要になったときに、その論文を引き出して、深く読めばよいからだ。もちろん理想を言えば、すべての論文の内容や数字を頭の中に入れておくことができれば最高だ。だけど、通常の人間の記憶力ではそれは不可能だ。そもそも、大きな目的が無いときに論文を細かく読み込んでも頭に入ってこないし、頭に入れた知識も使わなければすぐに忘れてしまう。必要に迫られて論文を読んでいる時が、最もその論文を効率良く読んで、利用することができる瞬間だ。なので大事なのは「必要に迫られたときにその論文がすぐに頭の中に思い浮かぶようにしておくこと」であり、そこに努力を注ぐことを優先するべきだ。

General notesのインデックスを脳と同期させる

General notesに論文のインデックスを付けたところで、安心はできない。必要な時に「そういえばこういう論文があったな」という発想に至るためには、ハードディスク上に情報があっても意味がなく、情報は脳になければならない。つまり、General notesのインデックスの情報が脳と同期されていなければ意味がない。ところが脳は使わない知識はすぐに忘れてしまう。記憶を定着させるには反復が必要だ。なので、定期的に、Mendeley上でGeneral notesの部分だけを流し読みする。論文選択画面で選択中の論文のGeneral notesを表示できるので、その状態で↓キーを次々と押しながらGeneral notesだけをスキャンしていく。確かに過去の自分が書き込んだはずのコメントなのに、1カ月経っただけで完全に記憶から消えていて「忘れてたけどこんなのあったな」というのが頻出して何度も壁を殴りたくなる。少しでもそういう論文を潰すために、スキマ時間にこの作業を進める。それでも、何千本も論文があると、一周した頃には最初のほうの論文を忘れてしまっている。つまり、この作業は永久に終わらないし、いつまでも続けなければならない。膨大な数の論文を脳の中で常にアクセス可能な引き出しとして維持しておくのにはとてもコストがかかる。

論文の読み方

ここまでは「必要に迫られたときに瞬時に正しい論文にアクセスできるように情報を整理する方法」を主に取り上げた。一方で、必要性に迫られて論文を深く読むことになった場合も、自分の記憶力の無さを前提に工夫する必要がある。同じ論文を時間を空けて二回読んだときに、一回目と同じところでつまずいたり、一回目と同じ思考回路で一回目と同じ感想に到達するという時間の無駄は避けなければならない。ここで今度はMendeleyのPrivate annotations機能が活躍する。これは、論文の本文やfigにマーカーを付けて、そこにコメントを入れることができる機能だ。ここでもGeneral notesと同じく、自分にとって価値がある部分や、自分の感想や捉え方を中心に、主観的で簡潔なメモを残す。もう一度この論文を読むことになる将来の自分が、コメント部分だけを流し読みすれば、その論文を読んだ当時の自分と同じ感想・思考段階に到達できるようなコメントを残すのが理想だ。

 ちなみに僕は論文は全てpdfでハンドリングしていて、紙に印刷することは一切ない。紙のほうが目に優しいし一覧性があって読みやすい、という意見もあって、僕も昔はそのように感じていたけど、今となってはあれは根拠のない思い込みだったのでは、と感じている。pdfで読むのが当たり前になった今、久しぶりに紙で読むと、むしろ拡大できなかったりスクロールできなかったりするのが不便に感じることもある。何よりも、全文検索ができないことや、コメントをいちいち余白に手書きしなければならない(そしてそのコメントを一覧する術がない)のが今となってはありえないことだ。例外的に論文を紙に印刷するのは、自分の論文を校正するときと、他人の論文を査読するときだ。文章構成自体を触るような読み方をするときは紙のほうが構造的なコメントやマークを入れやすいし、紙に印刷することで見た目が変わるので、細かなエラーを改めて見つける確率も高まる。

実感と効果

毎日100件余りの論文タイトルに目を通しているおかげで、自然とトレンドになっているキーワードが頭に入ってくる。例えば国際学会に出ても、そこで発表されている最新の研究から感じるトレンドは、自分が普段論文を追いかけて感じているトレンドと大差ない。つまりこの方法で、最新の業界動向を、それなりにフォローできているのではないかと思っている。この実感ができたことで、「何が分かっていて何が分かっていないのか」、端的に言えば「何をやれば論文になるのか」という点に関して、自分の感覚に自信が持てるようになった。この点は、毎日大量の論文タイトルをスキャンする労力に見合う効果が得られているのではないかと思う。

 情報に触れたときに関連論文をすぐに思い出せる/検索できるようにしているおかげで、論文を書きながら引用文献を探すときや、他人に何かを質問されたときに適切な情報を渡すときに、的確で効率的な仕事ができるようになった。引用文献探しでは、あまりに簡単に関連論文が大量に集まってしまうので、どの論文を使うか迷ってしまうことが頻発する。当然全てを引用するわけにはいかないので、結果的に「外せない有名論文」を優先的に引用することになってしまい、個別具体的な研究にまで引用を回す余裕がなくて「富める者はますます富む」状況になってしまっているなと感じたりする。

2020年代に向けて

来年以降も論文数の増加と電子化のトレンドは続くだろう。加えて、2020年代の大きな変化として、紙媒体(への印刷)を前提としない論文、より極端には論文に代わる成果発表の形態が普及するかもしれないと思う。例えば、情報のアップデートやバージョン管理が容易になったり、リンク・動画・スライド等の使用が一般的になるかもしれない。プレプリントが普及し、査読システムや出版社のビジネスモデルに対する問題もあちこちで指摘されているなかで、「ジャーナル」や「査読」という形態はそう長くは持たないのではないかと思っている。情報収集テクノロジーの進化にも期待している。現状は2次情報として敬遠している機械的リコメンド機能に基づく新着論文チェックも、精度が上がってくれば、RSS+Google Scholarによる手動の一次情報収集に代わる、信頼できる手段として乗り換えられるかもしれない。今回紹介した方法は、2010年代の論文収集・文献管理方法であり、これもまた時代の変化に応じて見直しをしていかなければならないと思う。

*1:知識の引き出し化については、「プロの知的生産術」という本に色々書いてあって面白いです

コンティグ・ゲノムへのリードマッピング・カバレッジの計算方法

 メタゲノムやメタトランスクリプトームの解析をやっていると、コンティグやゲノムのカバレッジを決めたい場面が多々出てくる。アセンブル前のリードを、アセンブルしたコンティグやゲノムにアライメントして、マッピングされた(貼り付いた)リードの量(正確にはアライメントされた長さで割った厚み)を評価することで、アセンブルされたゲノムや遺伝子が元のリード中にどれだけ含まれていたかを評価する、というのがカバレッジの考え方だ。
 アセンブルされた各ゲノムや遺伝子の環境中の現存量を把握したり、メタゲノムのビニングに使ったりと、使いどころの多いカバレッジだけど、これをちゃんと計算するのは結構めんどくさい。BWAやBowtie(2)といったマッピングソフトを使って、インデックスを作って、samやbam形式でアウトプットを出して、それをさらにsamtoolsでソートして、そこからさらに別のツール(bedtoolsとか)でカバレッジに変換するというのが一般的なやり方だと思う。加えて大変なのが、中間生成物であるsamやbamのファイルサイズがでかくて、普通に数GBを超えてくる点だ。巨大なファイルが次々と生成されてくるので、読み込みやハンドリングに時間がかかるし、ディスクスペースも圧迫される。カバレッジの情報が欲しいだけなのに、こんな大げさな事をやらなければならならず、解析作業の中でもカバレッジの計算は面倒くさい作業の一つになっていた。
で、

手っ取り早く、生リードとリファレンス配列を投げたらカバレッジを返してくれるソフトは無いものか・・・

とあれこれ探していて、最近見つけたCoverMというツールが素晴らしかったので紹介。
 名前を見てわかるように、CheckMなどで有名なHugenholtzとTyson のラボのM-Toolsの一つとして開発されている。ツール自体の論文はまだpublishされてないようだけど、GitHubのリンクを引用する形でこのツールを使ってすでに論文になっているものもある。
github.com
 dependencyマッピングソフトとして使われているのがminimap2だ。2018年に論文になったばかりだけどすでに広く使われていて、速いだけでなく、ロングリードのマッピングにも強いのが特長だ。BWAやBowtieの上位互換として考えてよいのかなと思い、個人的にも乗り換えたところだけど、minimap2・BWAの作者のブログによるとminimap2がすべての点においてBWAを上回っているわけではなく、まだBWAの出番もあるだろうとのこと。なお素晴らしいことに、CoverMはオプションでBWAをマッピングソフトに使うこともできる(デフォルトではminimap2を使う)。
 インストールは超簡単。dependencyはminimap2とsamtoolsだけで、Linuxならダウンロードしたcovermというバイナリにパスを通すだけで動く。基本的な使い方はとてもシンプルで、マッピング先にしたいコンティグが入ったfastaと、マッピングしたいペアエンドのリード(.fq.gz形式でOK)を指定して、

coverm contig -r [reference_contigs.fasta] -1 [read_R1.fq.gz] -2 [read_R2.fq.gz] > [output_name.tsv]

という形だ(オプションでシングルエンドも指定可)。これでfasta内の各コンティグのmean coverageの計算結果がoutput_name.tsvに出力される。indexをつくる必要もないし、bamやsamでディスクが埋まる心配をすることもない。内部ではもちろんindexを作ったりbamができたりするステップがあるのだけど、最終的なアウトプットは一つのtsvファイルだけだ。「そうそう、ただカバレッジが欲しいだけなんだよ!」という欲望に真っすぐに答えてくれる素晴らしいツールだ。
 --sharded オプションを付けることで、複数のfastaをreferenceにした結果を一つのtsvに出力することもできる。スレッド数を指定する-tと、マッピング時の相同性の閾値を指定する--min-read-percent-identityと組み合わせると、以下のような感じ。

coverm contig -r [reference1_contigs.fasta] [reference2_contigs.fasta] [reference3_contigs.fasta] ... --sharded -t [nCPUs] --min-read-percent-identity 0.99 -1 [read_R1.fq.gz] -2 [read_R2.fq.gz] > [output_name.tsv]

 デフォルトではコンティグ名とmean coverageだけの2列のtsvが出てくるけど、その他にも色々な情報を一緒に出力できる。例えばカバレッジだけでなく、マッピングされたリードの数や、それを長さで割った値も出してしてくれるので、メタトランスクリプトーム解析でも使いやすい(ちなみにカバレッジの計算ではデフォルトでリファレンスの両端の75 bpを無視する設定になっているので、短い配列にマッピングするときは注意。--contig-end-exclusionで設定可)。さらにRPKMまで計算してくれる(ただし、マッピングする相手をきちんと揃える必要があるのと、標準化された相対値なのでサンプル間で値を比較するときは注意が必要)。詳細は本家サイトのCalculation methodsを参照。僕の好きなセッティングはこんな感じだ。

 coverm contig -r [reference_contigs.fasta] -m mean covered_fraction variance length count reads_per_base rpkm -1 [read_R1.fq.gz] -2 [read_R2.fq.gz] > [output_name.tsv]

  「bam要らないって言ったけどごめんやっぱ欲しい!」というときは、--bam-file-cache-directory オプションで作業過程のbamを消さずに出力させることもできる。なので欲しいのがbamだろうがカバレッジだろうが、マッピングするならとりあえずCoverMでやってしまうのが楽なのではないかと思う。ちなみにすでにbamを持っている場合、bamをインプットにしてカバレッジを計算することもできる。またマッピングの条件を具体的に設定したい場合は、minimap2やBWAに渡すパラメータも細かく設定できる。他にも色々できることがあるので、詳しくはcoverm contig --full-helpの出力を参照。
 さらに今回は紹介しなかったけど、contig サブコマンドの代わりにgenomeサブコマンドを使うことで、 複数のコンティグをひとまとめにした「ゲノム」単位でカバレッジを計算することもできる。詳細はcoverm genome --full-helpの出力を参照。
 個人的にはseqkitやfastpと並んで感動した解析ツールにランクイン。有り難く使わせてもらいまくっている。
 

 

 

 

抽出マラソン完走

昨年から今年にかけ、12カ月×2水深にわたって採集した琵琶湖メタゲノム・メタトランスクリプトームサンプルのDNA/RNA抽出が完了した。限られた量のサンプルからできるだけ多くのDNAとRNAを同時に抽出するべく、8月ごろから時間をかけて慎重に条件検討を進めてきて、今月に入ってから一気に本番のサンプルをさばいた。毎度思うことながら、核酸抽出作業は最高レベルの集中を維持し続けることが求められるくせに結果が安定しないし、それなりの時間がかかるくせに最後の最後まで成否が目に見えないから好きではない。今回は莫大なコストがかかった貴重で重要なサンプルなだけに、自分自身でさばく他に手が無いのは分かっていたけど、始める前から憂鬱で、始まってみたら、心身やスケジュールへのダメージを最小限に抑えるべくもともと張り巡らせていた予防線を下回る勢いで、想像以上にうまくいかなくて時間がどんどん消えていった。「採り直しの効かないサンプルで絶対に失敗できないプレッシャー」と「核酸抽出にこんなに時間を使っている場合ではないという焦り」に挟まれ、精神的疲労の溜まる日々だった。1年半の努力の結晶が48本のチューブに集約されたのを見て、達成感や安心感以上に「もうやらなくていいんだ」という嬉しさのほうが大きかった。終わって良かった。f:id:yokazaki:20191113002259j:plain

 

琵琶湖の細菌・ウイルスのゲノムカタログ

 先日プレプリントを公開していた論文がEnvironmental Microbiology誌にてPublishされた

 データ量もかけた時間もこれまでの仕事を圧倒しており、今までで一番手がかかった論文だ。最初にこの研究の構想に至ったのがD1だった2015年の秋で、共著者の方々に声をかけて本格着手したのが2016年の3月、そこからここに至るまで、博士論文のメインの仕事と並行しながらずっと試行錯誤していて、結局3年半もの時間を使ってしまった。そういう背景もあって、自分の中ではこれは「裏博士論文」みたいな位置づけで、長い付き合いであったとともに「ようやく形になった」という安堵の気持ちが大きい。

本研究は一言でいえば、

琵琶湖水中に生息する細菌とそれに感染するウイルスのゲノムをメタゲノムで網羅的に決定し、その多様性を明らかにするとともに、生態系内で重要な機能を担うとみられるウイルスとホストを特定した

という内容だ。

 ショットガンメタゲノムの普及で、環境中の未培養の細菌・ウイルスのゲノム多様性が爆発的な勢いで明らかになりつつあるけれど、淡水環境での研究はまだ比較的少なく、特に僕が専門としている大型淡水湖の沖合や深水層においては、まだほとんど情報が無かった。本研究では琵琶湖沖で9か月・2水深にわたり、細菌(0.22~5 μm)とウイルス(<0.22 μm)の両サイズ画分からDNAサンプルを採集し、ショットガンメタゲノムシーケンスによる網羅的ゲノムアセンブルを行った。またメタゲノムのカバレッジを用いた各細菌・ウイルス系統の現存量動態の把握や、ゲノム情報に基づくウイルス-ホストペアの予測、コードされた遺伝子に基づく生態系内での機能予測も行った。さらに、他の湖や海洋のメタゲノムから得られたゲノムとの比較から、今回琵琶湖で見つかった細菌・ウイルス系統の多くが、水域環境に普遍的に生息するコスモポリタンな系統であることも示した。これらの情報を総合し、これまで見つかっていなかった優占的な淡水細菌に感染するウイルスを多数予測したほか、質・量・多様性といった観点から淡水生態系において中心的な機能を担うと見られるウイルスグループの存在も明らかにした。本研究は顕微鏡写真も実験結果も無い、完全にドライ解析のみの研究だ。なので、「現象/仮説を実験的に検証した」というよりは「膨大な情報を整理して仮説を炙り出した」というスタンスで、今後の研究のスタート地点になるという位置づけだ。

 今の論文の形になるには長い経緯があった。そもそも、細菌メタゲノムとウイルスメタゲノムは別々に進めていた研究で、先に着手した細菌のほうをまずpublishし、それを踏まえてウイルスの研究に着手するのが当初の計画だった。ところが、メタゲノムのデータを本格的に扱うのは初めてで、バイオインフォやゲノミクスの基礎から勉強しなければならなかったことや、これまで扱っていたアンプリコン解析等と比べてあまりにもデータが巨大で複雑なこともあって、思うように進まず苦しい日々が続いていた。そうこうしているうちに他の湖からの細菌メタゲノムの報告が増えてきて、新規性をアピールするうえでのハードルが上がりつつあった。一方で、後からスタートしたウイルスメタゲノムのほうのデータも出そろってきて、並行して解析を進めていたのだけど、これまたデータの巨大さと複雑さに手を焼いているところだった。そこで「どうせ時間がかかるのだから、じっくりと分析を深めて、細菌もウイルスも一緒にしてでかい論文として出そう」という考えになった。細菌とウイルスのサンプルは現場で同時に採集しているので、両者のゲノムを総合的に解析することで、「ウイルスとホストの関係性」にフォーカスした研究が可能になり、より生態学的で、新規性・インパクトの高い研究にすることができると考えた。

 このあたりですでに研究を始めてから2年近くが経っており、妥協せず納得いくまで解析を深めたいという思いの一方で、手戻りの嵐の中でなかなかアウトプットが出ないことを焦る苦しい日が続いた。それでも自分の納得いくまでデータを練り続けられたのは、「こだわり抜いて出した成果をちゃんと評価してくれる研究者が世界にいる」ということを、これまでの研究で自信をもって感じることができていたからだと思う。

 そうして少しずつ、自分の解析の腕や、研究の目の付け所にも自信が持てるようになってきて、論文になりそうな雰囲気が出てきた。で、いざ書き始めてみて次に困ったのが、情報量があまりに多すぎてとても1本の論文に収まらないということだった。本当は言いたいことが色々あるのを我慢しながら、とにかく文章を短くすることを意識して書いた初稿が1万語超え。ここから共著者と相談しながら情報を取捨選択し、「もうこれ以上煮詰まらない」と思っていた文章をさらに煮詰め、なんとか投稿可能な長さに仕上げた。どうしても削れない/捨てきれない情報はSupplementary Infomationに流し込んだ。結果的にSupplementaryだけで論文一本分くらいのボリュームになり、FigやらTableやらも合わせて30枚を超える大作になってしまった。

 論文を削りながら考えていたのが投稿先だ。自分がもし定職についていたなら、

自分の仕事を載せるのは(とりあえず読んでもらえる)中堅以上のレベルのジャーナルならどこでも良いから、あとは中身で判断し、引用で評価してくれ

というスタンスなのだけど、残念ながらまだ職探しをしないといけないので、少しでもインパクトのある雑誌を狙わなければならない。今回の仕事はこれまでで一番力を入れたし、一番クオリティも高いと思っていたので、これまでで一番良いジャーナルに載せたいと思っていた。かといってgenerality的にNatureやScienceを狙えるようなネタではないことは明らかだった。Nature Microbiologyからスタートするという考えもあったけど、論文のフォーマットが初稿と相性が悪かったことと、総合系の雑誌に載せてみたいという思いが強かった(あと、Natureブランドのやり方がなんとなく好きになれない)ことから、PNASを最初の投稿先にすることにした。

 PNASの厳しい投稿規定に合わせて論文の体裁を整え、本文だけでなく、長大なSupplementary textも全て英文校閲にチェックしてもらい(これだけで9万円近く支払った)、カバーレターも入念に準備して、3年間の苦労を思い起こして自信に変換し、気合ばっちりでPNASに投稿した。通るかどうかは分からないけど、このクオリティなら最低でもレビューには回るだろう、と思っていた。ドキドキしながら待っていると数日後の朝、時差の関係で夜中に届いていたメールに気づいて飛び起きた。嫌な予感しかしないメールを開くと、"The expert who served as editor concluded that although this work is interesting, it does not have the broad appeal needed for PNAS and is better suited for a more specialized journal. "という本当に原稿を読んでくれたのかも分からないコピペのような文章であっさりと希望を打ち砕かれた。世界は厳しい。

 次の投稿先としてはISMEを考えていた。微生物生態学ではトップジャーナルだけど、自分は一度ここに論文を掲載したことがあって、その時の仕事に比べれば、今回の仕事のほうが質・量ともにはるかに上回っているはずなので、(おこがましくも)「最低でもISMEには出せるネタだ」と考えていた。ISMEが本命(落としどころ)なのだとすれば、その前にもう一つくらいチャレンジしても良いかと思い、これまた一度掲載してみたいと思っていたtop tierのオープンアクセス誌に出してみることにした。eLifeやGenome Biologyなども見て回ったけど、ジャーナルの性格や、投稿作業の負担などを総合して、PLOS Biologyに投稿した。結果、一瞬でエディターリジェクト。後で知ったのだけど、人によっては、PNASよりもPLOS Biologyのほうが格上だという認識らしい。でもこれはダメモトチャレンジで、そんなに時間も使わなかったので、PNASの時ほど悔しくはなかった。

 で、本命のISMEに投稿することに。めんどくさいのが、ISMEはマテメソが先に来るフォーマットなので、論文を大幅に書き換えなければならないことだ。それでも、「ISMEに論文が出せるのなら大満足だ、そしてこの仕事なら必ず出せるはずだ」と信じて、クソめんどくさい改訂作業を頑張った。カバーレターも全面的に書き直し、自分の論文投稿史上、最大の自信をもってsubmitボタンをクリックした。数日後、投稿サイトにログインして進捗状況を見ると、"Under Review"との表示。少なくとも査読には回ったようだ。

 一安心し、ワクワクしながら返事を待つ日々・・・はそんなに長くなくて、なんと投稿から3週間後、昼食前の時間帯に、"Decision on ..." というメールが返ってきた。「えらく査読早いな!」とドキドキしながら開くと、まさかのリジェクト。しかも驚くべきは、査読にすら回っておらず、エディター判断でのリジェクトだったということだ。3週間も待ったのに!”Under Review”言うてたのに!そしてまたしてもお決まりのコピペのような文面で”the work did not focus on ecological questions or hypotheses that would be of interest to the journal’s broad readership”と書かれていた。本当に中身を分かる人が読んでくれたのだろうか?これには落胆を通り越して、理不尽を感じた。すかさず共著者とも相談し、昼食を食べるのも忘れてrebuttalのletterを書きはじめた。rebuttalを書くのは初めてだったけど、もう反論したい点が山ほどあったので、短いリジェクトメールに書かれていたコピペのような文言を一言一言取り上げて、具体的な反論と、この仕事の価値のアピールを、溢れる感情を排除しながら、慣れない異国の言語で最大限に客観的で丁寧な言葉づかいで、ほぼ丸一日かけてみっちり書き連ねた。letterを添付し「必要な改訂があればいくらでもするから、せめて再投稿のチャンスをもらえないか」とエディターにメール。で、2日後に返ってきたメールは"as you have found in the guide for authors, the journal does not have an appeal process, and the editorial decision is final." というこれまた全てコピペかのような冷たく短い文章。気迫を込めたrebuttalの内容には1語たりとも触れてくれてなかった。ろくに読んでもらえず、理由も教えてくれずに全否定され続けるのは辛い。

 心はボキボキだったけど、それでも次に行かなければいけない。もはや「就職に有利になるようなトップジャーナルに出したい」というモチベーションは無かったので、「論文の性格と合致し、この仕事をちゃんと評価してくれそうな雑誌」という基準で、Environmental Microbiologyに出すことに決めた。めんどくさいのが、再びマテメソを後ろに持ってこなければならなかったことだ。気が狂いそうになりながら、付加価値ゼロの改訂作業と、最高に使い勝手の悪い投稿システムと戦って、submit。これはさすがに行くだろう、と思いながらも、毎日ビクビクしながら進捗を確認し、数日後に今度こそ査読者に回ったことを確認し一安心。で、2か月後、出張ラッシュの最中、これまた時差の関係で夜中に来ていたメールに、朝ホテルのベッドで気づいて飛び起きる。メールが長い。中身を読んでもらっている。それだけで嬉しかった。専門的な査読者がちゃんと評価してくれて、建設的な指摘も色々ともらいつつ、総合判断はminor revision。出張ラッシュが一段落したところでreviseを返したところ、即日でアクセプト。これまでの苦労が嘘のように、最後はすんなりといった。「まともに読んでもらえるまで」が長い論文だった。

 査読コメントで嬉しかったのが、”I appreciate the authors’ hard work to obtain as much information as possible from this data”という言葉だ。やはり見てくれる人が世界にいる。納得いくまで時間をかけて分析を深めたことが間違いでなかったと確認出来て救われた。また、もう一人の査読者からは"The bioinformatic analyses appear to be state-of-the-art"という言葉をいただき、メタゲノムの解析経験が全くない状態から苦しんでここまでたどり着いた時間が報われたと思った。また今回は、共著者の西村さんが開発してくれた素晴らしいツール群がなければ、到底ここまでたどり着くことはできなかった。特に、ウイルスゲノムのプロテオミックツリーやアライメントをtblastxベースで計算・可視化してくれるViPTreeは、standalone版も完備されていて使い勝手がよく、環状ゲノムのアライメントがきれいに見えるように自動でゲノムを回転/反転してくれるなど、そのまま論文に使えるレベルの図も出力してくれる、素晴らしいツールだ。今回は、琵琶湖のウイルスゲノムと他の海洋/湖沼メタゲノムから集めたウイルスゲノム全てを含んだツリーとアライメントを盛り込んだSupplementary Treeのページも特別に準備してもらった。さらにアセンブルしたすべての細菌ゲノムはアノテーションしてデータベースに登録し、遺伝子単位でNCBIのnrやUniProtデータベース上で検索できるようにしたほか、アセンブルした全ウイルスゲノムとそのアノテーション情報もSupplementary Informationとして公開した。本研究では得られたデータの1%も解析しきれていないと思うし、まだまだデータを掘れば面白い情報が眠っているに違いない。そういった意味で、本研究を、論文の内容とは別に、「大水深淡水湖(琵琶湖)の沖合で採集した網羅的な細菌・ウイルスのゲノム/遺伝子カタログ」としても活用してほしいし、そういった形での引用も増えてくれるのではないかと期待している。

 さて、論文が掲載されて一段落した今になって改めて、「なぜPNASやISMEで門前払いを受けたのか」ということを考えてみると、やはり「課題ドリブンではない」という点が難しいところだったのかなと思う。僕の仕事は研究対象の性格上「まだ掘れば掘るほど新しいものが出てくるステージなので、まずは掘りまくって全体像を確認しよう」というスタンスのものが多い。なので「こういう未解決重要問題があるからこういうアプローチで取り組みました」というストーリーにはなっていないくて、そういう研究と比較するとどうしても第一印象として重要性やインパクトをアピールしにくい。このことは、これまでの論文でも、研究費の申請書などを書くときにも、常に悩んでいたことだったけど、改めて課題だなと感じた。もっと言い方や書き方を工夫して、同じ研究内容でも課題ドリブンな見せ方ができるようにしていかなければならないと思う。

  今後の展開としては、現在、本研究で得た知見・経験を横展開して国内外の複数の湖で同様の解析を進めつつあるので、それらの比較によって、琵琶湖で得られた結果を一般化したり、湖の細菌やウイルスの進化的な背景に迫るような研究に発展させていきたい。また、琵琶湖で12か月にわたって採集したメタトランスクリプトームサンプルのシーケンスを進めており、その結果から、今回得られた細菌・ウイルスゲノムの各遺伝子の発現プロファイルを明らかにし、生態系・物質循環内での機能や、未知の重要遺伝子の特定につながるような研究に発展させていく予定だ。

 ともあれ、これでその走りとなる仕事が一段落した。本当に長かった。協力してくれた全ての人と、予算と、環境に感謝したい。

学会4連続

ドイツでのSAMEに引き続いて、微生物生態学会甲府)・地球化学会(東京)・陸水学会(金沢)と参加してきた。

 微生物生態学会では陸水学会との共催シンポジウムのオーガナイザーを務め、地球化学会は招待講演で分野外の研究者の前で30分も発表の時間をいただき、陸水学会ではこれまで未公開だった新ネタ披露で、どれも準備と緊張を要する内容だったので、大きな失敗なく、また心身ともに無事に終わってホッとしている。シンポジウムも招待講演も良かったとの声をいただけて、陸水学会では発表賞までいただくことができ、タイトなスケジュールでもクオリティが下がらないように前広に準備を進めてきたのが報われて良かった。一つ心残りは、微生物生態学会での発表で時間の読み間違いで後半が早口になってしまいまともに紹介できなかったことだ。この発表はSAMEでの英語スライドをベースに日本語で作り直して準備したのだけど、聴衆がSAMEと違って水域の専門家でないことや、母国語で話ができることもあって、ついつい余計な説明や裏話を織り込んでしまって時間を使いすぎてしまった。同じスライドの内容・枚数でも、話し方によって消費時間は大きく変わるのだということに次から気を付けなければならないと思った。

 改めて、色々な学会に参加してみて思うのは、自分の研究の立ち位置を客観視できて面白いなということだ。他の研究領域ではどういうことに興味が持たれていて、何が最先端なのか、というのを知っておくことは、自分の研究の方向性や見せ方を見直すことにつながり、その魅力を少しでも多くの人に伝えるために重要なことだと思う。

 しかしそれにしても、タフな1か月だった。これ全てが9月の出来事だったとは信じられないくらい濃密だった。月の半分以上がホテル暮らしで、公私ともに払った犠牲も少なくなかった。しばらくは落ち着きたい。学振PDの3年もちょうど折り返しに差し掛かかり、投稿中の論文ももう少しで決着がつきそうなので、来月からは心機一転、新しい仕事にどんどん取り掛かっていこうと思う。