Palmsonntagmorgen

NGSデータを使った解析と、その周辺。

記事一覧

Linux一般 文字列の検索・置換 リダイレクトとパイプ sortコマンドの使い方(ファイルのソート) shuf: テキストファイルの行をランダム抽出 2つのファイルの共通行を抽出する 解析環境構築 環境変数PATHの通し方 SSH公開鍵の生成・設定の方法 【Ubuntu】パ…

【DROMPAplus】Dockerを使ったparse2wig+

そういえばDROMPAplusの紹介記事を全然書いていないことに気づきました。 最近はDockerイメージからのDROMPAplusの使い方をたびたび質問いただくので、今日はDockerを使ったDROMPAplusの使い方を紹介します。 なお、旧バージョンのDROMPA3とDROMPAplusの違い…

2つのファイルの共通行を抽出する

前回に続き、今回も小ネタです。 2つの遺伝子リストファイルがあって、2ファイル間で共通する遺伝子名がいくつあるか調べたいとします。 $ ls genelist1.txt genelist2.txt $ cat genelist1.txt RNA5SP516 AC092299.1 EML3 ZNF492 AC093063.1 DDX17 SRIP1 …

shuf: テキストファイルの行をランダム抽出

shufは入力行をシャッフルして出力するコマンドです。 【 shuf 】コマンド――入力行をシャッフルして出力する:Linux基本コマンドTips(112) - @IT このshufに -nオプションを追加すると出力する行数を指定できます。これにより、たとえば「ピークファイル(…

sortコマンドの使い方(ファイルのソート)

以下の記事の中で、sortコマンドについて触れていました。 rnakato.hatenablog.jp 多くのコマンドはsorted BEDを要求しますので、事前に以下のコマンドで全てのBEDをソートしておくとストレスがないかと思います。 $ sort -k1,1 -k2,2n in.bed > in.sorted.b…

あけましておめでとうございます

本年も私とこのブログをよろしくお願いします。 と言いつつ、これからこのブログをどうしようかなあ、などと考えています。。 このブログを始めた当初はNGS解析のノウハウを記した日本語のWebサイトはRNA-seq関連くらいしかなく、ChIP-seqはMACSの使い方くら…

DROMPAplusを公開しました

少し前になりますが、DROMPA3のアップデートであるDROMPAplusを正式にリリースしました。 DROMPAplus: a pipeline tool for ChIP-seq analysis — DROMPAplus 1.4.0 documentation 今回はその記事です。 Reference 4月に以下の論文を公開しました。ChIP-seq解…

Monocle3をRstudioで起動できる dorowu/ubuntu Dockerイメージ

前回の記事↓では、ブラウザからアクセスできるLinux GUI のDockerイメージを紹介しました。 rnakato.hatenablog.jp このイメージを使って、Rstudio内でMonocle3をGUI起動できるイメージを作ったので紹介したいと思います。 イメージのダウンロード・起動 以…

docker-ubuntu-vnc-desktopを使ってDockerイメージ (ssp_drompa) をGUIで動かす

更新間隔があいてしまいすみません。 論文書いたり博論審査したり、色々大変です。 今日はDockerのお話です。 最近以下のようなツイートを見つけました。 確かに、このdocker image面白い。このdocker imageをrunすると、こんな感じでブラウザやVNCからdocke…

【Linux】リダイレクトとパイプ

リダイレクト > 記号を使うことで、ターミナルに出力される文字列をファイルに保存することができ、これをリダイレクトといいます。 $ echo aaa bbb aaa bbb $ echo aaa bbb > text.txt # echo aaa bbb の結果を text.txt に保存する $ cat text.txt aaa bbb…

DROMPA3: その11 複製解析(出芽酵母)

久しぶりのDROMPAのエントリです。今回は出芽酵母(S. cerevisiae)の複製解析を行います。複製開始後のDNAを複製前のDNAで割り算することで、ゲノム上のどこでどの程度複製フォークが進んでいるかを可視化することができます。 データは以下の論文のものを…

【Linux】【Ubuntu】パッケージ管理コマンドあれこれ(11/21追記)

今日はUbuntuのパッケージ管理についてです。 (11/21 alien について追記) apt / apt-get / aptitude 全て同じです。 最初にあったのは apt-get です。これはUbuntuの親にあたるDebianにおけるパッケージ管理システムです。 その後 aptitudeに移行しようと…

【Linux】文字列の検索・置換

現在、研究室用の新人教育ページを作っているのですが、せっかく作ったので一部転載。 文字列を検索・置換するLinuxコマンドです。 grep: 文字列の検索 対象ファイルから特定の文字列を含む行だけを表示します。 $ grep hogehoge sample.txt # sample.txtの…

Singularityを使ったDocker環境の利用が楽ちんという話

今回も解析環境構築にまつわるお話です。 結論を先に書くと、Docker使うならSingularityオススメ! Singularityとは 7月に書いた下記エントリでは、Dockerを使うメリットについて簡単に説明しました。 rnakato.hatenablog.jp 一方、Dockerにはいくつか不満な…

【Win】【Mac】【Linux】Dockerのインストール 【2019年7月現在】

Dockerベースで提供されるパッケージの割合が目に見えて増えてきたように感じるので、簡単なまとめ。 Dockerとは Dockerとはマシン上に違うマシンを立ち上げるための仮想化技術です。 WindowsやMac上でLinux環境を立ち上げたり、Linux上に異なる複数のLinux…

gtfファイルからrefFlat形式への変換

みなさんgtfファイルからrefFlatに変換する時ってどうされてるんですかね?Rを使っている? 自分は自作のツール "gtf2refFlat" を使っているので、ここではそれを紹介します。 gtf形式については↓をご覧ください。 https://bi.biopapyrus.jp/rnaseq/mapping/…

【Windows10】Windows PreviewにリリースされたWSL2をインストールしてみた (7/9追記あり)

WIndows上でLinuxをエミュレートするWindows Subsystem for Linux (WSL)はDockerに不完全な対応だったのですが、完全対応の「WSL 2」がいつのまにか使えるようになっていたので、試してみました。 forest.watch.impress.co.jp Windows Insiderに登録 WSL2…

SSH公開鍵の生成・設定の方法

たかが公開鍵、されど公開鍵。「公開鍵 生成」でググるとたくさん出てくるんだけど、やり方が色々ありすぎて新人に適当に検索させるとあれこれ迷ってしまうので、ここにまとめておきます。 参考記事 【手順つき】SSHの公開鍵認証のやり方 Linuxコマンド【 ss…

マッピング: CRAM形式を試す

マップデータの形式にはSAM, BAMの他にCRAMという形式があります。 https://www.ga4gh.org/news/cram-compression-for-genomics/ CRAMはBAMと比べて更に高圧縮率だそうです。 今まであまり使う機会が無かったのですが、Twitterで Ewan Birneyさんが強く推し…

【ご報告】PIになりました

この度4月1日付で東京大学定量生命科学研究所の講師となりました。 大規模生命情報解析研究分野という名前で研究室を主宰します。 研究室HP: http://www.iam.u-tokyo.ac.jp/nakatolab/index.html 年度末営業と研究室異動のばたばたでこのブログも全く更新で…

STAR-RSEMによる発現量推定 その3

前回の記事↓の続きです。 STAR-RSEMによる発現量推定 その1 - Palmsonntagmorgen STAR-RSEMによる発現量推定 その2 - Palmsonntagmorgen 前回のコマンドを最後まで完了すると、starディレクトリの中にstar/Myers_HUVEC_cell_2x75_200_1.<genes|isoforms>.results のようなフ</genes|isoforms>…

【Ubuntu 18.04】 Rのバージョンを3.5.2にアップグレード

最近知ったツールがRの3.5以上を要求しているのだが、手元のUbuntu 18.04はRが3.4.4 だったので、3.5にアップグレードしました。 以下備忘録。 やってることは、aptで参照されるレポジトリにR3.5を含むレポジトリを追加した上で改めてRをインストールすると…

STAR-RSEMによる発現量推定 その2 (2020/08/20 追記)

前回の記事↓の続きです。 STAR-RSEMによる発現量推定 その1 - Palmsonntagmorgen Stranded/Unstranded RNA-seq RNA-seqにはunstrandedとstranded の二種類があります。unstrandedの場合はmRNAに対して半々の確率で順鎖と逆鎖が読まれ、stranded の場合は逆…

STAR-RSEMによる発現量推定 その1

私が普段使っているSTAR, RSEMを使った発現量推定法を紹介します。 あまり最新のアップデート情報などをフォローできていないので、もっと良いやり方をご存知の方はご教示ください。 ここでは例題として、ヒトES細胞とHUVEC細胞をペアエンドで読んだサンプル…

Gene annotation データを用意する(gtf形式)

RNA-seq解析の記事を書こうとしたらgtfファイルの部分が長くなり過ぎたので単独記事にしました。 Gene annotation 既知遺伝子の情報を記載するファイルにはいくつかの形式があり、gtf形式はそのひとつです。 よく似たgff形式というものもありますが、微妙に…

HISAT-StringTie-Ballgown を試してみよう その2

前回の記事の続きです。 HISAT-StringTie-Ballgown を試してみよう - Palmsonntagmorgen 発現量データ生成 前回の記事で発現量データを生成するのを忘れていたので、ここで生成します。stringtieを使います。 for prefix in ERR188044 ERR188104 ERR188234 E…

HISAT-StringTie-Ballgown を試してみよう

せっかくNature Protocolの論文があるので試してみよう企画。 Nature Protocolはスクリプトがそのまま載っているので、追試に最適です。 一方、古いライブラリが指定されていると手元の環境で動かなかったり、著者のレベルによってへんてこなスクリプトにな…

RNA-seqによる発現量解析

本業の方で色々忙しくなっておりまして、更新の間が開いてしまいました。 今回はRNA-seqについて語りたいと思います。 RNA-seqはChIP-seqよりもメジャーなので、日本語での解説ブログも充実していますが、情報が古いものだと今だにtophat-cufflinksを使って…

2サンプル間ピーク比較

2つのサンプルから得られたピークセットがどのくらい重なるのか調べたい!という時の方法です。 今回はBEDtoolsを使うやり方と、拙作のcompare_bsを使うやり方を紹介します。 ピークデータのダウンロード ピークはBED形式であれば何でもよいのですが、ここ…

GitHubからプログラムをダウンロード・インストール

NGS解析のための新規ツールは日々論文で発表されており、それらのほとんどは世界中の人が無償で利用可能なライセンス形態になっています。 今日はその中でも多くの人に利用されている「GitHub」に公開されたツールのインストール方法を紹介します。 オープン…