Palmsonntagmorgen

NGSデータを使った解析と、その周辺。

NGS

aria2を使ってENAから高速にfastq.gzを取得する

1論文あたりで用いられるデータが年々増加しており、論文の再実験をするためにFASTQをダウンロードするのもなかなか苦労しますよね。 以下の記事でENAからwgetを使ってfastqを取得する方法を紹介していますが、 rnakato.hatenablog.jp 今回はその高速版です…

NGS解析のための共有サーバ環境構築を考える(2022年度版)(2022/9/12追記)

5年前にこんな記事を書きました。 この時はPython2系と3系の共存(というか、Anaconda環境構築のベストプラクティス)に苦労していました。 rnakato.hatenablog.jp 今はほとんどPython3系のみで事足りますが、依然としてdependenciesの問題は解決されていま…

Linux ワンライナー覚書

スクリプトなどを用いずにLinuxのCUIコマンドのみで一行で行う処理(またはその処理を行うコマンド)のことをワンライナーと呼びます。 ここではゲノム解析に使うワンライナーを順次追加していきます。 一般的なファイル操作 $ ls workdir/ # workdirに含ま…

chromapを試す(その1)

chromapは高速・高精度にリードをゲノムにマップするツールです*1。 既存ツールのbwaやbowtie2よりも遥かに高速だとのことなので、ここではChIP-seqデータを用いて使用法及び速度・精度面を確かめてみたいと思います。 chromapについて chromap は minimap2*…

fetchChromSizes を使ってgenome tableファイルを作成

以前書いた以下のエントリでは、genome配列ファイルからgenome tableファイルを作成する方法を紹介しました。 rnakato.hatenablog.jp UCSCから提供されているfetchChromSizes を使うと、この作業をより簡便に行うことが可能です。 fetchChromSizesのインスト…

【DROMPAplus】Dockerを使ったparse2wig+

そういえばDROMPAplusの紹介記事を全然書いていないことに気づきました。 最近はDockerイメージからのDROMPAplusの使い方をたびたび質問いただくので、今日はDockerを使ったDROMPAplusの使い方を紹介します。 なお、旧バージョンのDROMPA3とDROMPAplusの違い…

2つのファイルの共通行を抽出する

前回に続き、今回も小ネタです。 2つの遺伝子リストファイルがあって、2ファイル間で共通する遺伝子名がいくつあるか調べたいとします。 $ ls genelist1.txt genelist2.txt $ cat genelist1.txt RNA5SP516 AC092299.1 EML3 ZNF492 AC093063.1 DDX17 SRIP1 …

shuf: テキストファイルの行をランダム抽出

shufは入力行をシャッフルして出力するコマンドです。 【 shuf 】コマンド――入力行をシャッフルして出力する:Linux基本コマンドTips(112) - @IT このshufに -nオプションを追加すると出力する行数を指定できます。これにより、たとえば「ピークファイル(…

sortコマンドの使い方(ファイルのソート)

以下の記事の中で、sortコマンドについて触れていました。 rnakato.hatenablog.jp 多くのコマンドはsorted BEDを要求しますので、事前に以下のコマンドで全てのBEDをソートしておくとストレスがないかと思います。 $ sort -k1,1 -k2,2n in.bed > in.sorted.b…

DROMPAplusを公開しました

少し前になりますが、DROMPA3のアップデートであるDROMPAplusを正式にリリースしました。 DROMPAplus: a pipeline tool for ChIP-seq analysis — DROMPAplus 1.4.0 documentation 今回はその記事です。 Reference 4月に以下の論文を公開しました。ChIP-seq解…

DROMPA3: その11 複製解析(出芽酵母)

久しぶりのDROMPAのエントリです。今回は出芽酵母(S. cerevisiae)の複製解析を行います。複製開始後のDNAを複製前のDNAで割り算することで、ゲノム上のどこでどの程度複製フォークが進んでいるかを可視化することができます。 データは以下の論文のものを…

gtfファイルからrefFlat形式への変換

みなさんgtfファイルからrefFlatに変換する時ってどうされてるんですかね?Rを使っている? 自分は自作のツール "gtf2refFlat" を使っているので、ここではそれを紹介します。 gtf形式については↓をご覧ください。 https://bi.biopapyrus.jp/rnaseq/mapping/…

マッピング: CRAM形式を試す

マップデータの形式にはSAM, BAMの他にCRAMという形式があります。 https://www.ga4gh.org/news/cram-compression-for-genomics/ CRAMはBAMと比べて更に高圧縮率だそうです。 今まであまり使う機会が無かったのですが、Twitterで Ewan Birneyさんが強く推し…

STAR-RSEMによる発現量推定 その3

前回の記事↓の続きです。 STAR-RSEMによる発現量推定 その1 - Palmsonntagmorgen STAR-RSEMによる発現量推定 その2 - Palmsonntagmorgen 前回のコマンドを最後まで完了すると、starディレクトリの中にstar/Myers_HUVEC_cell_2x75_200_1.<genes|isoforms>.results のようなフ</genes|isoforms>…

STAR-RSEMによる発現量推定 その2 (2020/08/20 追記)

前回の記事↓の続きです。 STAR-RSEMによる発現量推定 その1 - Palmsonntagmorgen Stranded/Unstranded RNA-seq RNA-seqにはunstrandedとstranded の二種類があります。unstrandedの場合はmRNAに対して半々の確率で順鎖と逆鎖が読まれ、stranded の場合は逆…

STAR-RSEMによる発現量推定 その1

私が普段使っているSTAR, RSEMを使った発現量推定法を紹介します。 あまり最新のアップデート情報などをフォローできていないので、もっと良いやり方をご存知の方はご教示ください。 ここでは例題として、ヒトES細胞とHUVEC細胞をペアエンドで読んだサンプル…

Gene annotation データを用意する(gtf形式)

RNA-seq解析の記事を書こうとしたらgtfファイルの部分が長くなり過ぎたので単独記事にしました。 Gene annotation 既知遺伝子の情報を記載するファイルにはいくつかの形式があり、gtf形式はそのひとつです。 よく似たgff形式というものもありますが、微妙に…

HISAT-StringTie-Ballgown を試してみよう その2

前回の記事の続きです。 HISAT-StringTie-Ballgown を試してみよう - Palmsonntagmorgen 発現量データ生成 前回の記事で発現量データを生成するのを忘れていたので、ここで生成します。stringtieを使います。 for prefix in ERR188044 ERR188104 ERR188234 E…

HISAT-StringTie-Ballgown を試してみよう

せっかくNature Protocolの論文があるので試してみよう企画。 Nature Protocolはスクリプトがそのまま載っているので、追試に最適です。 一方、古いライブラリが指定されていると手元の環境で動かなかったり、著者のレベルによってへんてこなスクリプトにな…

RNA-seqによる発現量解析

本業の方で色々忙しくなっておりまして、更新の間が開いてしまいました。 今回はRNA-seqについて語りたいと思います。 RNA-seqはChIP-seqよりもメジャーなので、日本語での解説ブログも充実していますが、情報が古いものだと今だにtophat-cufflinksを使って…

2サンプル間ピーク比較

2つのサンプルから得られたピークセットがどのくらい重なるのか調べたい!という時の方法です。 今回はBEDtoolsを使うやり方と、拙作のcompare_bsを使うやり方を紹介します。 ピークデータのダウンロード ピークはBED形式であれば何でもよいのですが、ここ…

GitHubからプログラムをダウンロード・インストール

NGS解析のための新規ツールは日々論文で発表されており、それらのほとんどは世界中の人が無償で利用可能なライセンス形態になっています。 今日はその中でも多くの人に利用されている「GitHub」に公開されたツールのインストール方法を紹介します。 オープン…

LiftOver: BEDファイルを異なるbuildへ変換

公開されているゲノム配列は現在も更新中であるため、いくつかのバージョン (build) があります。 humanだとhg18, hg19, hg38などがあり、hg38が現時点で最新です。 NGS解析をするうえでは全ての解析データのbuildを統一する必要がありますが、「既存論文の…

DROMPA3: その10 ヒートマップ

今回はDROMPAを用いたヒートマップの描画について説明します。 HEATMAPコマンド(TSS周辺) 前回の記事では、DROMPAを用いたリードプロファイルの描画について解説しました。 rnakato.hatenablog.jp 使ったコマンドは以下のようなものです。(詳しくは前回の記…

DROMPA3: その9 リードプロファイル

DROMPA3を用いたリードプロファイルの描画です。 ここでプロファイルと呼んでいるものは、遺伝子回り、あるいはピーク回りにおけるマップリードの平均分布のことで、aggregation plotと呼ばれることもあります。 全遺伝子や全ピークの平均値として見ることに…

S/N比の評価手法 その4 SSP

時間がかかってしまいましたが、やっとSSPの登場です。 この記事は以下の記事の続きです。 S/N比の評価手法 その1 - Palmsonntagmorgen S/N比の評価手法 その2 Cross-correlation profile - Palmsonntagmorgen S/N比の評価手法 その3 deepTools - Palmsonnt…

S/N比の評価手法 その3 deepTools

今回はIHEC projectの公式品質評価ツールに採用されているdeepToolsについて解説します。 deepToolsとは deepToolsはChIP-seq, RNA-seq, MNase-seqなどの品質評価及び種々の可視化をするために作られたソフトウェアで、samtoolsやbamtoolsでは手の届かないよ…

S/N比の評価手法 その2 Cross-correlation profile

これは前回の記事の続きですので、未読の方はそちらから読んでください。 Cross-correlation profile Cross-correlation profile (以下CCP)はENCODEのグループによって提案されたS/N比計測手法です*1。 CCPは、順鎖ー逆鎖間のマップリード分布の「ずれ」を利…

S/N比の評価手法 その1

私が開発したChIP-seqの品質評価ツール"SSP"の論文がBioinformatics誌にアクセプトされました。 Sensitive and robust assessment of ChIP-seq read distribution using a strand-shift profile | Bioinformatics | Oxford Academic 本論文はbioRxivでも無料…

DROMPA3: その8 GVコマンドでのマクロな可視化

今回は、全染色体を1行でマクロに可視化するGVコマンドを使います。なおGVはGlobal viewの略です。 parse2wig 今回はROADMAP web portalからダウンロードしたK562細胞のヒストン修飾データ一式を使います。 以下のコマンドでtagAlignファイルをダウンロード…