yokaのblog

湖で微生物の研究してます

役立ち・備忘

シェルのパイプからRを使って最大値や平均値を簡単に得る方法

シェルでデータテーブルを触るのにawkがよく使われるけど、最大値・最小値・平均値などを計算しようとすると結構めんどい。Rでやれば2語で済むような処理も、awkだとifやforを使って複数行を使って書かなければできなかったりする。自分はRのほうが得意なの…

Rの作図におけるベストな配色の選び方

論文のFigはほぼRで描いているのだけど、複雑なデータをコンパクトに見せるためにカラフルな図を作ることが多い。そこでいつも悩むのが「いかに効率よく配色するか」ということだ。カスタムの配色セットを作ってみたり、カラーパレットのパッケージをあれこ…

新着論文の集め方・文献管理方法

今月で2010年代が終わる。改めて「2020」という文字を見ると、近未来感があって少しワクワクする。そんな感想も今月限りなのだと思うと寂しい。世界の情報化はますます進んで、「インプットよりもアウトプット、スピードこそが価値」みたいな考えが幅を利か…

コンティグ・ゲノムへのリードマッピング・カバレッジの計算方法

メタゲノムやメタトランスクリプトームの解析をやっていると、コンティグやゲノムのカバレッジを決めたい場面が多々出てくる。アセンブル前のリードを、アセンブルしたコンティグやゲノムにアライメントして、マッピングされた(貼り付いた)リードの量(正…

ベクタ画像をワードに貼りつけてPDF出力する方法

昨日に引き続いて論文投稿作業の罠にハマってしまったので備忘で書く。 やりたかったことは ベクタ形式の図をワードの原稿上に貼って、ベクタ形式のままPDFとして出力したい という毎日世界中で死ぬほど発生してそうな作業だったのだけど、調べても驚くほど…

英文校閲の結果を逐一確認しながら元の原稿上で反映させる方法

論文の英文校閲、これまでいくつかの業者をこれまで試してきたけど、今のところはTextcheckというところが料金と納期とクオリティのバランスがとれていて満足度が高い。ただ一つイケてないのが、納品されてくるワードファイルのフォーマットが変更されていて…

Rでのtsv読み込み、pdf書き出し

何度もやっていることなのに久しぶりにやるといつも忘れているので備忘で書いておく。 色々な宗派があるけど、僕はRで論文のFigを作る時、tsv(タブ区切りテキストテーブル)で保存したデータをRで読み込んで図を作って、pdfで保存、イラストレーターで編集す…

seqkitを用いたFASTAのフィルタリング・ソート

世の研究者たちはFASTAファイルのハンドリングにはどのようなツールを使っているのだろうか。 長さでソートしたい 特定の文字列を持つものだけ抽出したい 名前だけ抽出したい 名前を置換したい/通しで付け直したい でかすぎるファイルを分割したい ランダム…

RNAmmerのインストール

FASTA形式のDNA配列からrRNA遺伝子を探してくるRNAmmer、元論文は2000回近く引用されていて、広く利用されているソフトだ。少量のシーケンス(1万配列、1000万塩基まで)であれば、ブラウザ上から直接配列を投げてサイト上で解析することもできて便利。RNAmmer…

RによるNMDSを用いた微生物群集構造解析

今日も解析で苦労したので備忘メモ。 ※今後、自分の理解に合わせて勝手に加筆・修正するかもしれません。 以下のものは「とりあえず動かすところまで」を目標に書いたものです。もし間違いがあった場合はご指摘くださると有難いです。 なお、今回勉強するに…

湖沼の水質の調べ方

今書いている論文で、日本中の湖沼の水質データが必要になって色々調べたのだけど、結構苦労したので方法を備忘にメモ。 まず、データベースなのだけど、おそらく日本国内の水環境を最も網羅的に調査しているのが、環境省の公共用水域水質測定調査だと思う。…

リスニング能力の強化に使っているYoutubeチャンネル

僕は英語が苦手だ。人並みには努力しているように思うのだけど、自分より早く上達していく人が多いように思われて、どうも自分には語学の才能があまりないのだと思っている。 英語ができないせいで困ったり悔しい思いをする場面はとても多い。今までで一番悔…

微生物の研究の面白さを伝える

研究者にとって自分の研究の魅力を上手く伝えることは死活問題だ。相手が研究者ならともかく、非研究者にその面白さや謎の深さを理解し、共感してもらうのは本当に難しい。僕自身も、親や親戚に「何の研究やってるの?」と聞かれて、一生懸命(目を輝かせて…

USEARCHを使った16S rRNAアンプリコンシーケンス析②

前回よりもさらにマニアックなんだけど、備忘で書いておく。 USEARCHでNGSデータを分析するとき、454のMIDタグ付きのリードファイルであれば、前回の方法でそのまま処理できるんだけど、illuminaのリードの場合は、 ①ペアエンドのリードがそれぞれ別のfastq…

USEARCHを使った16S rRNAアンプリコンシーケンス分析

細菌の16S rRNAアンプリコンシーケンスの分析を一通り勉強したので備忘で。今回はUSEARCHというパイプラインを使って分析を行うことにした。全体像をまとめると以下の通り。 ①・②がデータをきれいにするステップ、③~⑥がOTUをつくるステップ、⑦・⑧が作ったOT…

論文への特殊記号の入力方法

論文書くのに英語での特殊記号の入力にイラついているので、よく使うやつの簡単な出し方の備忘。2文字入力→「Alt+X」で入るので、いちいちフォントを変換するよりも早い。 入力したい文字 読み方 入力方法 ° 度 b0→Alt+X µ マイクロ b5→Alt+X ± プラスマイ…