Palmsonntagmorgen

NGSデータを使った解析と、その周辺。

Linux

HISAT-StringTie-Ballgown を試してみよう

せっかくNature Protocolの論文があるので試してみよう企画。 Nature Protocolはスクリプトがそのまま載っているので、追試に最適です。 一方、古いライブラリが指定されていると手元の環境で動かなかったり、著者のレベルによってへんてこなスクリプトにな…

2サンプル間ピーク比較

2つのサンプルから得られたピークセットがどのくらい重なるのか調べたい!という時の方法です。 今回はBEDtoolsを使うやり方と、拙作のcompare_bsを使うやり方を紹介します。 ピークデータのダウンロード ピークはBED形式であれば何でもよいのですが、ここ…

GitHubからプログラムをダウンロード・インストール

NGS解析のための新規ツールは日々論文で発表されており、それらのほとんどは世界中の人が無償で利用可能なライセンス形態になっています。 今日はその中でも多くの人に利用されている「GitHub」に公開されたツールのインストール方法を紹介します。 オープン…

LiftOver: BEDファイルを異なるbuildへ変換

公開されているゲノム配列は現在も更新中であるため、いくつかのバージョン (build) があります。 humanだとhg18, hg19, hg38などがあり、hg38が現時点で最新です。 NGS解析をするうえでは全ての解析データのbuildを統一する必要がありますが、「既存論文の…

S/N比の評価手法 その4 SSP

時間がかかってしまいましたが、やっとSSPの登場です。 この記事は以下の記事の続きです。 S/N比の評価手法 その1 - Palmsonntagmorgen S/N比の評価手法 その2 Cross-correlation profile - Palmsonntagmorgen S/N比の評価手法 その3 deepTools - Palmsonnt…

S/N比の評価手法 その1

私が開発したChIP-seqの品質評価ツール"SSP"の論文がBioinformatics誌にアクセプトされました。 Sensitive and robust assessment of ChIP-seq read distribution using a strand-shift profile | Bioinformatics | Oxford Academic 本論文はbioRxivでも無料…

BEDtoolsワンライナー覚書

BEDtoolsの作者は開発熱心なので、できることがどんどん増えているような気がします。 手元のバージョンはv2.27.1です。 前準備 多くのコマンドはsorted BEDを要求しますので、事前に以下のコマンドで全てのBEDをソートしておくとストレスがないかと思います…

DROMPA3: その6 ChIP/Input ratio 及び p値の可視化

リード分布の可視化の続きです。 このエントリは↓の記事の続きになりますので、まだ読んでいない方は先にこちらを参照してください。 DROMPA3: その4 マップリード分布の可視化その1 - Palmsonntagmorgen Input readの可視化 前回はChIPサンプルのみを可視化…

DROMPA3: その5 シェル変数を使う

今日はシェル変数について。 前回の記事の「複数サンプルの可視化」の項で、以下のコマンドを実行しました。 $ drompa_draw PC_SHARP \ $ -i parse2wigdir/H3K4me3,parse2wigdir/Input,H3K4me3 \ $ -i parse2wigdir/H3K27me3,parse2wigdir/Input,H3K27me3 \ …

SAMtoolsワンライナー覚書

順次追加するかも。versionは1.5です。 .sort.bam はソート済BAMを表します。 SAM -> BAM 変換 $ samtools view -bS sample.sam > sample.bam BAM -> SAM 変換 $ samtools view sample.bam > sample.sam BAMをソート $ samtools sort sample.bam > sample.so…

環境変数PATHの通し方

同内容の記事はたくさんありますが、やはり避けては通れないので… 環境変数PATHとは githubなどからツールを新たにダウンロードした場合、その実行ファイルを起動するには実行ファイルのありかを直接指定する必要があります。 $ ./bowtie2-2.2.9/bowtie2 の…

バイオインフォマティクスのためのpython環境構築方法を考える (10/13追記あり)

先日、以下の記事でLinux上でのpython環境構築にはpyenvが良いと書いたのですが、 pyenvでPython環境を構築する - Palmsonntagmorgen 少し気が変わってきました。 以下、現状の考えをまとめます。 私もPythonにはそこまで詳しくないので、良い方法をご存じの…

Readをゲノムにマッピング (その3) 圧縮ファイルを入力にする方法

マッピングの記事その3。 Readをゲノムにマッピング (その1) - Palmsonntagmorgen Readをゲノムにマッピング (その2) - Palmsonntagmorgen 圧縮ファイル(fastq.gz)を直接マッピングの入力にする方法です。 圧縮ファイルのままマッピングしたい fastqファ…

Readをゲノムにマッピング (その2)

前回の続きです。 Readをゲノムにマッピング (その1) - Palmsonntagmorgen 今回ではbowtie, bowtie2, bwaのマッピングコマンドを説明します。 どのマッピングツールも、ゲノム配列をindex配列にまず変換し、そのindexに対してマッピングするという手順を踏…

Readをゲノムにマッピング (その1) (2017/12/19 追記あり)

NGS解析の最初のステップは、シーケンサから出力されたfastq形式のリード配列をゲノム配列にマップするマッピングです。 これにより、ゲノム上のどの領域から得られたリードなのかを知ることができます。 マッピングツール ChIP-seq解析で主に用いられるマッ…

pyenvでPython環境を構築する

ざっくりですが。 Pythonツールのインストール 最近はPythonで書かれたツール類が増えてきています。 pip や conda でツールをインストールできるのはエラーも少なく、大変便利ですね。 ただ、pythonは2系と3系があり、python2.xでしか動かないツール、pytho…

ENA,DDBJからfastqを取得する

前回のエントリでは、SRAからfastqを取得する方法を紹介しました。 SRAからfastqを取得する - Palmsonntagmorgen 一方、ENA (European Nucleotide Archive) やDDBJから直接fastqファイルをダウンロードすることも可能です。 European Nucleotide Archive < E…

2bit genome を作成する

2bit genome はゲノム配列ファイルを2bit (バイナリ)形式で格納したものです。 2bit 形式はテキストエディタで開くことはできませんが、multifasta 形式よりも非常に高速にプログラムに読みこむことができるため、 ゲノム解析ツールを使う際にまれに 2bit …

常染色体と性染色体のみのゲノム配列ファイル genome.fa を作成する

UCSC genome browserからダウンロードした ゲノム配列データにはコンティグ配列なども含まれていますが、これらは通常ゲノムの解析には用いません。 そこでこれらを除去し、常染色体と性染色体のみのゲノム配列ファイル genome.fa を作成します。 ここではhg…