Palmsonntagmorgen

NGSデータを使った解析と、その周辺。

記事一覧

解析環境構築 環境変数PATHの通し方 pyenvでPython環境を構築する バイオインフォマティクスのためのpython環境構築方法を考える データ生成 常染色体と性染色体のみのゲノム配列ファイル genome.fa を作成する 2bit genome を作成する genome tableを作成す…

DROMPA3: その8 GVコマンドでのマクロな可視化

今回は、全染色体を1行でマクロに可視化するGVコマンドを使います。なおGVはGlobal viewの略です。 parse2wig 今回はROADMAP web portalからダウンロードしたK562細胞のヒストン修飾データ一式を使います。 以下のコマンドでtagAlignファイルをダウンロード…

NGS界隈におけるプログラミング言語の競争について – 極めて主観的な見地から(1/30・31追記)

タイトルはこの有名な記事からもらいました。 自分の学生時代に講義で学んだプログラミング言語はCとPerl(とjavaとPostgreSQL)でしたが、状況はずいぶんと変わってきました。じゃあどういう時代になったの?というのを、自分が今いるNGS解析のフィールドか…

BEDtoolsワンライナー覚書

BEDtoolsの作者は開発熱心なので、できることがどんどん増えているような気がします。 手元のバージョンはv2.27.1です。 前準備 多くのコマンドはsorted BEDを要求しますので、事前に以下のコマンドで全てのBEDをソートしておくとストレスがないかと思います…

DROMPA3: その7 -i オプション詳細

DROMPA3: その4 マップリード分布の可視化その1 では以下のコマンドを実行しました。 $ drompa_draw PC_SHARP \ $ -i parse2wigdir/H3K4me3,parse2wigdir/Input,H3K4me3,,,200 \ $ -i parse2wigdir/H3K27me3,parse2wigdir/Input,H3K27me3,,,10 \ $ -i parse2…

DROMPA3: その6 ChIP/Input ratio 及び p値の可視化

リード分布の可視化の続きです。 このエントリは↓の記事の続きになりますので、まだ読んでいない方は先にこちらを参照してください。 DROMPA3: その4 マップリード分布の可視化その1 - Palmsonntagmorgen Input readの可視化 前回はChIPサンプルのみを可視化…

DROMPA3: その5 シェル変数を使う

今日はシェル変数について。 前回の記事の「複数サンプルの可視化」の項で、以下のコマンドを実行しました。 $ drompa_draw PC_SHARP \ $ -i parse2wigdir/H3K4me3,parse2wigdir/Input,H3K4me3 \ $ -i parse2wigdir/H3K27me3,parse2wigdir/Input,H3K27me3 \ …

DROMPA3: その4 マップリード分布の可視化その1

今回はDROMPA3のメイン機能であるマップリード分布の可視化を紹介します。 インストール DROMPA3のインストール方法についてはこの記事を参照してください。 Genome table作成 DROMPA3の実行にはGenome tableファイルが必要になります。 Genome tableの作成…

DROMPA3: その3 ピーク抽出(peak calling)

DROMPA3解説その3はピーク抽出(peak calling)です。ピーク抽出とは、ゲノムからreadが有意に濃縮している箇所を網羅的に同定する作業です。 インストール DROMPA3でのピーク抽出は、drompa_peakcall を使います。 DROMPA3のインストール方法についてはこの…

Library complexity (PCR bias)とは何か

前回の DROMPA3: その2 parse2wig - Palmsonntagmorgen で登場した評価指標である Library complexity (PCR bias) の解説です。 PCR biasとは クロマチン免疫沈降法(ChIP)で得られたリードをゲノムにマップすると、以下のようなマップリード分布が得られる…

DROMPA3: その2 parse2wig

parse2wigはマッピングファイルを入力とし、Wig形式に変換してくれるツールです。 内部でPCR biasのフィルタ、Total readによる正規化、種々の品質評価も行います。 インストール DROMPA3のインストール方法についてはこの記事を参照してください。 単にpars…

DROMPA3: その1 インストール

今回からは私が開発したDROMPA3の利用法について解説します。 DROMPAとは ChIP-seq解析のためのパイプラインツールです。ピーク抽出の他、品質評価、可視化、複数サンプルの比較解析などができます。 複数のサンプルを同時に解析できること、pdf形式でデータ…

SAMtoolsワンライナー覚書

順次追加するかも。versionは1.5です。 .sort.bam はソート済BAMを表します。 SAM -> BAM 変換 $ samtools view -bS sample.sam > sample.bam BAM -> SAM 変換 $ samtools view sample.bam > sample.sam BAMをソート $ samtools sort sample.bam > sample.so…

環境変数PATHの通し方

同内容の記事はたくさんありますが、やはり避けては通れないので… 環境変数PATHとは githubなどからツールを新たにダウンロードした場合、その実行ファイルを起動するには実行ファイルのありかを直接指定する必要があります。 $ ./bowtie2-2.2.9/bowtie2 の…

Bowtie2が system CPU を大量に消費している件で

Bowtie2の最新バージョンは2017/10/10 時点でVersion 2.3.3.1となっています。 Change logを見ると、version 2.3.0 において major updateが施され、 マルチスレッドを使用した場合のスケーラビリティを改善したとあります。 具体的には、利用するライブラリ…

SAMtoolsとリダイレクト

SAMtools 先日紹介したリードのマッピングの記事では、出力をSAM形式に指定していました。 rnakato.hatenablog.jp SAM形式はファイルサイズが非常に大きく読み込みにも時間がかかるので、バイナリ形式のSAMであるBAM形式が下流解析でよく利用されています。 …

バイオインフォマティクスのためのpython環境構築方法を考える (10/13追記あり)

先日、以下の記事でLinux上でのpython環境構築にはpyenvが良いと書いたのですが、 pyenvでPython環境を構築する - Palmsonntagmorgen 少し気が変わってきました。 以下、現状の考えをまとめます。 私もPythonにはそこまで詳しくないので、良い方法をご存じの…

Readをゲノムにマッピング (その3) 圧縮ファイルを入力にする方法

マッピングの記事その3。 Readをゲノムにマッピング (その1) - Palmsonntagmorgen Readをゲノムにマッピング (その2) - Palmsonntagmorgen 圧縮ファイル(fastq.gz)を直接マッピングの入力にする方法です。 圧縮ファイルのままマッピングしたい fastqファ…

Error: libpng12.so.0 not found (VMware)

メモ。 VMwareにインストールしたUbuntu上で ftp://hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64/ のUCSC toolsを実行すると以下のエラーが出る。 error while loading shared libraries: libpng12.so.0: cannot open shared object file: No such file …

R in Anaconda にrJavaをインストール(8/15追記)

個人的につまったので忘備録。 anaconda は Linux (Ubuntu 16.04)上でpyenvを使ってインストールしているという前提です。 $ conda create -c r r-irkernel # anaconda内にRのインストール Rを起動してrJavaをインストールしようとするとエラーになる。 > in…

Readをゲノムにマッピング (その2)

前回の続きです。 Readをゲノムにマッピング (その1) - Palmsonntagmorgen 今回ではbowtie, bowtie2, bwaのマッピングコマンドを説明します。 どのマッピングツールも、ゲノム配列をindex配列にまず変換し、そのindexに対してマッピングするという手順を踏…

Readをゲノムにマッピング (その1) (2017/12/19 追記あり)

NGS解析の最初のステップは、シーケンサから出力されたfastq形式のリード配列をゲノム配列にマップするマッピングです。 これにより、ゲノム上のどの領域から得られたリードなのかを知ることができます。 マッピングツール ChIP-seq解析で主に用いられるマッ…

pyenvでPython環境を構築する

ざっくりですが。 Pythonツールのインストール 最近はPythonで書かれたツール類が増えてきています。 pip や conda でツールをインストールできるのはエラーも少なく、大変便利ですね。 ただ、pythonは2系と3系があり、python2.xでしか動かないツール、pytho…

ENA,DDBJからfastqを取得する

前回のエントリでは、SRAからfastqを取得する方法を紹介しました。 SRAからfastqを取得する - Palmsonntagmorgen 一方、ENA (European Nucleotide Archive) やDDBJから直接fastqファイルをダウンロードすることも可能です。 European Nucleotide Archive < E…

SRAからfastqを取得する

更新の間が随分空いてしまいました。 その間に2つの学会に参加してきたのですが、海外の解析手法の進化具合にずいぶん衝撃を受けました。 が、ここは予定通り初歩的な作業から説明していきたいと思います。 今日はSRA(Sequence Read Archive) からfastqファ…

2bit genome を作成する

2bit genome はゲノム配列ファイルを2bit (バイナリ)形式で格納したものです。 2bit 形式はテキストエディタで開くことはできませんが、multifasta 形式よりも非常に高速にプログラムに読みこむことができるため、 ゲノム解析ツールを使う際にまれに 2bit …

常染色体と性染色体のみのゲノム配列ファイル genome.fa を作成する

UCSC genome browserからダウンロードした ゲノム配列データにはコンティグ配列なども含まれていますが、これらは通常ゲノムの解析には用いません。 そこでこれらを除去し、常染色体と性染色体のみのゲノム配列ファイル genome.fa を作成します。 ここではhg…

genome tableを作成する

genome table はゲノム中に存在する各染色体の名前とその長さをタブ区切りで記述したファイルで、DROMPA や bedtools などの解析ツールを使う時に必要になります。 UCSC genome browserの *.chrom.sizes ファイルをダウンロードしてもいいのですが、自分で自…