今月で2010年代が終わる。改めて「2020」という文字を見ると、近未来感があって少しワクワクする。そんな感想も今月限りなのだと思うと寂しい。世界の情報化はますます進んで、「インプットよりもアウトプット、スピードこそが価値」みたいな考えが幅を利かせていて息苦しい。アウトプットし続けないと埋もれてしまうのは事実だけど、情報があふれる今だからこそ、緻密なインプットに基づく丁寧な仕事が求められているのではないかと感じる。思い付きで何かを始める前に
- 過去に同じことを考えたことのある人が世界のどこかにいるのではないか
- この問題は今どこまで解決していて、どこから未解決なのか
といった点をしっかり押さえてから着手することで、2度手間が減り論点もクリアになって、結果的に時間に対するアウトプットの質を高めることができると思う。
研究の世界では、質・量いずれにおいても「論文」が最も重要なインプットであり、新着論文のチェックと収集した文献の管理は研究者共通の課題だ。ジャーナルの電子化が進み、論文の出る速度も数も増え続ける中で、論文の探し方・集め方・読み方も時代に合わせた方法が求められる。自分自身、色々な試行錯誤の末に自分なりのやり方に落ち着いているところなので、その方法をまとめておきたい。
文献管理の基本的な考え方(大事にしていること)
論文の内容を覚えておく必要はない。検索性が重要。
一昔前なら、情報や数字を持っていることは重要な差別化要因で、物知りであることが価値だった。ところが今は具体的情報にはネットや電子媒体の検索ですぐにアクセスできる。その代わり「情報を検索できるということを知っている」ことが差別化要因になっている。なので、必要な時に必要な情報に素早くアクセスできるよう、いかに頭の中やデジタル空間で、検索性・引き出し性を持たせて情報をストックしておくかが重要である。
一次情報に触れる
情報の電子化が進んで生情報にアクセスするのが容易になるかと思いきや、あまりにも情報量が増えすぎたせいか、他人や機械によってキュレーションされた二次情報のほうが目立つようになってきている。もちろん、ネットで話題になっている論文や、文献管理ソフトがリコメンドしてくる論文にも目を通すけど、自分と全く同じ興味の人間なんていないし、機械的リコメンドもまだ信用できない。結局、自分にとって重要な情報を逃さず補足するためには、バイアスのかかってない生の一次情報を自分の目で選別するほかない。
新着論文のチェック方法
ではその一次情報をどう取ってくるか。色々な方法を試した結果、ジャーナルのウェブサイトのRSSフィードをフォローするという方法を使っている。昔ながらの方法だけど「早くて」「一覧性があって」「どの雑誌も網羅的に追える」という観点で、RSSを超える方法は未だに見つかっていない。FeedlyというRSSリーダーを使っていて、今僕がフォローしているジャーナルは以下のような感じだ。
Applied and Environmental Microbiology, Bioinformatics, BioRxiv (section: Bioinformatics, Ecology, Evolutionary biology, Genomics, Microbiology), Current Opinion in Microbiology, FEMS Microbiology Ecology, FEMS Microbiology Letters, FEMS Microbiology Reviews, Genome Research, Microbial Ecology, mBio, Microbiology and Molecular Biology Reviews, BMC Bioinformatics, BMC Microbiology, Microbiome, Genome Biology, Microbes and Environments, mSphere, mSystems, Nature, Nature Biotechnology, Nature Ecology & Evolution, Nature Geoscience, Nature Microbiology, Nature Reviews Microbiology, Nature Communications (section: Earth and environmental sciences and Biological sciences), Nucleic Acids Research, PLOS Biology, PNAS, Science, ISME Journal, Environmental Microbiology, Environmental Microbiology Reports, Limnology, Limnology & Oceanography, Molecular Ecology, Molecular Ecology Resources, Viruses, Frontiers in Microbiology
これらを合計すると、平日は1日に50~150本くらいの新着論文が流れてくる。週末はほとんど流れてこないけど、時差があるので日本だと月曜日より土曜日のほうが多くなる。
これに加えて、補助的に使っているのがGoogle Scholarのアラート機能だ。3タイプのアラートを設定していて、
- 関心のあるキーワードを含む論文が出版されたとき
- 関心のある研究者の新しい論文が出版されたとき
- 関心のある文献を引用する新しい論文が出版されたとき
にメールが飛んでくるようになっている。上記の3タイプ合計して150条件くらい設定しているけど、こちらは数日に1度、50件くらいが一気に送られてくるペース。RSSフィードとの重複もあるし、RSSフィードよりも1週間以上は情報が遅いのだけど、RSSで追ってない雑誌に掲載される重要論文を引っ掛けるのに加えて、RSSで見逃した論文のダブルチェックという機能もかねて目を通している。
情報の取捨選択(pdfをダウンロードするまで)
これだけフォローしていると、数日チェックをサボっただけであっという間に数百件の新着論文が溜まってしまう。そうならないように、時間を見つけてはRSSやGoogle Scholarアラートに流れてくる論文タイトルを流し読みして既読にしていく。この作業は中断/再開の労力が少ないこともあって、他に使いどころのない細切れ時間(出張の移動中とか)を潰すのにちょうどよい。慣れてくると、大脳で別のことを考えながら小脳でタイトルを流し読みできるようになってくる(こういう読み方をしていると、文字の形で瞬時に情報を伝えられる漢字は偉大で、アルファベットは一覧性が低いなと改めて感じる)。
論文を選別するにあたっては、
- 自分の研究に直接的に関連する、将来的にしそうであり、引用する可能性がある
- 引用する可能性は低い周辺分野の論文だが、自分の視野を広げるうえで役立ちそう
というものを残すようにしている。ただ、「少し気になるな」くらいで残していると、ものすごい量の論文を読まなければならなくなってしまうので、常に気持ち厳しめな基準でふるい落とすようにしている。「後で気になった時にネット検索ですぐに再発見できる論文」もあまり手元に置いておかないようにしている。検索性を高めることが論文集めの目的なので、最初から検索性が高い論文は持っている必要はない。逆に言うと、
今手元に落としておかなければ、もうこういうアイデアやキーワードに触れるチャンスはないかもしれない
という論文はふるい落とさずに残すようにしている。
感覚として、タイトルスキャンだけでふるい落とされる論文が95%くらい。残りの5%はブラウザの新規タブとしてバックグラウンドに溜めていって、後でまとめてAbstractに目を通す。その半分くらいが、「タイトルは面白そうだったけどAbstractを読めば十分」って論文でそこで脱落。残り半分のうち、さらに約半分が上記の基準に合致する「すぐにダウンロード」判定の論文で、残り半分がひとまず判断を保留したい「後で読むリスト」に追加される。判定的には「すぐにダウンロード」であっても、プレプリントやadvanced publicationしかまだ出てない場合は、正式版のpdfが出るまでは「後で読むリスト」で待機させる。「後で読むリスト」は1か月に1度くらいの頻度で消化する。そこで改めてAbstractを読んで、ダウンロード判定が出る場合もあれば、「もう読まなくていいや」となって脱落する場合や「まだリストに置いておこう」となることもある。「後で読むリスト」には常に50本くらいの論文が溜まっている。
ちなみにここまで、新着論文一覧から情報を選別する方法を書いたけど、必要に迫られてのネット検索や、読んでいる論文の引用・被引用繋がりで、過去の論文を新たに手に入れる事ももちろんある。そういう論文もこの後の工程では同じようにして管理される。
ダウンロードした文献の管理方法
ダウンロードしたpdfは全てMendeley Desktopで管理している。pdf文献管理ソフトは色々あるけれど、たまたま一番最初に使ったのがMendeleyだったので今も使い続けている。実は2018年の春に、クラウドに保存されているpdfやアノテーションの一部が吹っ飛ぶという大事件があって、幸い自分のデータへの影響は小さかったものの、この時は真剣にZoteroやEndNoteへの移行を考えた。けど結局、乗り換えコストの高さに苦しんでいるうちにMendeleyが安定してきて、未遂に終わった。後述するように、僕はMendeleyのメモ機能を活用してかなりの時間をかけて自分用に論文を整理しているので、Mendeleyのデータが失われたら研究者生命にかかわるレベルでダメージを受ける。なのでこの事件以降、定期的にMendeleyのデータはバックアップを取るようにしている。
最初に書いたように、文献整理で最重視しているのが論文の検索性・引き出し性を高めることだ。読むためではなく、知識の引き出しを作るために論文を集めているという考えだ。Mendeleyにはpdfの全文検索機能がついているので、「そういえばこういう研究があったな」というときに、手持ちの全論文から、キーワードで関連情報を瞬時に掘り出すことができる。別の使い方としては、気になった生物名や遺伝子名、試薬名、キット名などで検索することで、それがどういう文脈で登場したり使われ方をされたりしているのかを一覧することができる。自分の興味に近い文献だけを検索するので、インターネット上で検索するよりもはるかに自分の知りたいことに近い、高品質な情報に瞬時にアクセスできる。
General notes機能を使って論文に自分用インデックスをつける
一方で検索には致命的な制約が存在する。それは「検索できる情報が存在することを知っている」状況でしか使えないということだ。「そういえばこういう論文があったな」と検索に思い至るためには、関連した情報に触れたときに、瞬時に頭の中でその論文の存在が思い浮かぶ状態にしていなければならない。論文の内容はハードディスクに置いておけばよいが、「論文の存在情報」は頭の中に置いておくしかない。つまり論文情報の「引き出し化」が必要になる*1。
そこで活用しているのが、Mendeley上で論文ごとにコメントを付けられるGeneral notes機能だ。論文をダウンロードしたらAbstractやFigureを流し読みして、「自分がなぜその論文をダウンロードしたのか」「この論文の結果が自分の研究にとってどのような意味を持つか」を数行の一読できる日本語にまとめてGeneral notesに書き込んでおく。ポイントは、論文の中身を客観的にまとめるのではなく、自分にとってのその論文の価値を、未来の自分にできるだけ端的に伝えられるように書くことだ。主観的で良いし、自分しか分からない内容でも構わない。大切なのは論文の内容を説明することではなく、関連する情報に触れたときにすぐにその論文のことを思い出せるようにしておくことだ。
論文をいつでも引き出せる状態にしておけば、論文の中の細かい数字やデータを覚えておく必要は無くなる。その論文に書かれている情報が必要になったときに、その論文を引き出して、深く読めばよいからだ。もちろん理想を言えば、すべての論文の内容や数字を頭の中に入れておくことができれば最高だ。だけど、通常の人間の記憶力ではそれは不可能だ。そもそも、大きな目的が無いときに論文を細かく読み込んでも頭に入ってこないし、頭に入れた知識も使わなければすぐに忘れてしまう。必要に迫られて論文を読んでいる時が、最もその論文を効率良く読んで、利用することができる瞬間だ。なので大事なのは「必要に迫られたときにその論文がすぐに頭の中に思い浮かぶようにしておくこと」であり、そこに努力を注ぐことを優先するべきだ。
General notesのインデックスを脳と同期させる
General notesに論文のインデックスを付けたところで、安心はできない。必要な時に「そういえばこういう論文があったな」という発想に至るためには、ハードディスク上に情報があっても意味がなく、情報は脳になければならない。つまり、General notesのインデックスの情報が脳と同期されていなければ意味がない。ところが脳は使わない知識はすぐに忘れてしまう。記憶を定着させるには反復が必要だ。なので、定期的に、Mendeley上でGeneral notesの部分だけを流し読みする。論文選択画面で選択中の論文のGeneral notesを表示できるので、その状態で↓キーを次々と押しながらGeneral notesだけをスキャンしていく。確かに過去の自分が書き込んだはずのコメントなのに、1カ月経っただけで完全に記憶から消えていて「忘れてたけどこんなのあったな」というのが頻出して何度も壁を殴りたくなる。少しでもそういう論文を潰すために、スキマ時間にこの作業を進める。それでも、何千本も論文があると、一周した頃には最初のほうの論文を忘れてしまっている。つまり、この作業は永久に終わらないし、いつまでも続けなければならない。膨大な数の論文を脳の中で常にアクセス可能な引き出しとして維持しておくのにはとてもコストがかかる。
論文の読み方
ここまでは「必要に迫られたときに瞬時に正しい論文にアクセスできるように情報を整理する方法」を主に取り上げた。一方で、必要性に迫られて論文を深く読むことになった場合も、自分の記憶力の無さを前提に工夫する必要がある。同じ論文を時間を空けて二回読んだときに、一回目と同じところでつまずいたり、一回目と同じ思考回路で一回目と同じ感想に到達するという時間の無駄は避けなければならない。ここで今度はMendeleyのPrivate annotations機能が活躍する。これは、論文の本文やfigにマーカーを付けて、そこにコメントを入れることができる機能だ。ここでもGeneral notesと同じく、自分にとって価値がある部分や、自分の感想や捉え方を中心に、主観的で簡潔なメモを残す。もう一度この論文を読むことになる将来の自分が、コメント部分だけを流し読みすれば、その論文を読んだ当時の自分と同じ感想・思考段階に到達できるようなコメントを残すのが理想だ。
ちなみに僕は論文は全てpdfでハンドリングしていて、紙に印刷することは一切ない。紙のほうが目に優しいし一覧性があって読みやすい、という意見もあって、僕も昔はそのように感じていたけど、今となってはあれは根拠のない思い込みだったのでは、と感じている。pdfで読むのが当たり前になった今、久しぶりに紙で読むと、むしろ拡大できなかったりスクロールできなかったりするのが不便に感じることもある。何よりも、全文検索ができないことや、コメントをいちいち余白に手書きしなければならない(そしてそのコメントを一覧する術がない)のが今となってはありえないことだ。例外的に論文を紙に印刷するのは、自分の論文を校正するときと、他人の論文を査読するときだ。文章構成自体を触るような読み方をするときは紙のほうが構造的なコメントやマークを入れやすいし、紙に印刷することで見た目が変わるので、細かなエラーを改めて見つける確率も高まる。
実感と効果
毎日100件余りの論文タイトルに目を通しているおかげで、自然とトレンドになっているキーワードが頭に入ってくる。例えば国際学会に出ても、そこで発表されている最新の研究から感じるトレンドは、自分が普段論文を追いかけて感じているトレンドと大差ない。つまりこの方法で、最新の業界動向を、それなりにフォローできているのではないかと思っている。この実感ができたことで、「何が分かっていて何が分かっていないのか」、端的に言えば「何をやれば論文になるのか」という点に関して、自分の感覚に自信が持てるようになった。この点は、毎日大量の論文タイトルをスキャンする労力に見合う効果が得られているのではないかと思う。
情報に触れたときに関連論文をすぐに思い出せる/検索できるようにしているおかげで、論文を書きながら引用文献を探すときや、他人に何かを質問されたときに適切な情報を渡すときに、的確で効率的な仕事ができるようになった。引用文献探しでは、あまりに簡単に関連論文が大量に集まってしまうので、どの論文を使うか迷ってしまうことが頻発する。当然全てを引用するわけにはいかないので、結果的に「外せない有名論文」を優先的に引用することになってしまい、個別具体的な研究にまで引用を回す余裕がなくて「富める者はますます富む」状況になってしまっているなと感じたりする。
来年以降も論文数の増加と電子化のトレンドは続くだろう。加えて、2020年代の大きな変化として、紙媒体(への印刷)を前提としない論文、より極端には論文に代わる成果発表の形態が普及するかもしれないと思う。例えば、情報のアップデートやバージョン管理が容易になったり、リンク・動画・スライド等の使用が一般的になるかもしれない。プレプリントが普及し、査読システムや出版社のビジネスモデルに対する問題もあちこちで指摘されているなかで、「ジャーナル」や「査読」という形態はそう長くは持たないのではないかと思っている。情報収集テクノロジーの進化にも期待している。現状は2次情報として敬遠している機械的リコメンド機能に基づく新着論文チェックも、精度が上がってくれば、RSS+Google Scholarによる手動の一次情報収集に代わる、信頼できる手段として乗り換えられるかもしれない。今回紹介した方法は、2010年代の論文収集・文献管理方法であり、これもまた時代の変化に応じて見直しをしていかなければならないと思う。