Palmsonntagmorgen

NGSデータを使った解析と、その周辺。

記事一覧

解析環境構築 環境変数PATHの通し方 pyenvでPython環境を構築する - Palmsonntagmorgen バイオインフォマティクスのためのpython環境構築方法を考える データ生成 常染色体と性染色体のみのゲノム配列ファイル genome.fa を作成する - Palmsonntagmorgen 2bi…

DROMPA3: その4 マップリード分布の可視化その1

今回はDROMPA3のメイン機能であるマップリード分布の可視化を紹介します。 インストール DROMPA3のインストール方法についてはこの記事を参照してください。 Genome table作成 DROMPA3の実行にはGenome tableファイルが必要になります。 Genome tableの作成…

DROMPA3: その3 ピーク抽出(peak calling)

DROMPA3解説その3はピーク抽出(peak calling)です。ピーク抽出とは、ゲノムからreadが有意に濃縮している箇所を網羅的に同定する作業です。 インストール DROMPA3でのピーク抽出は、drompa_peakcall を使います。 DROMPA3のインストール方法についてはこの…

Library complexity (PCR bias)とは何か

前回の DROMPA3: その2 parse2wig - Palmsonntagmorgen で登場した評価指標である Library complexity (PCR bias) の解説です。 PCR biasとは クロマチン免疫沈降法(ChIP)で得られたリードをゲノムにマップすると、以下のようなマップリード分布が得られる…

DROMPA3: その2 parse2wig

parse2wigはマッピングファイルを入力とし、Wig形式に変換してくれるツールです。 内部でPCR biasのフィルタ、Total readによる正規化、種々の品質評価も行います。 インストール DROMPA3のインストール方法についてはこの記事を参照してください。 単にpars…

DROMPA3: その1 インストール

今回からは私が開発したDROMPA3の利用法について解説します。 DROMPAとは ChIP-seq解析のためのパイプラインツールです。ピーク抽出の他、品質評価、可視化、複数サンプルの比較解析などができます。 複数のサンプルを同時に解析できること、pdf形式でデータ…

SAMtoolsワンライナー覚書

順次追加するかも。versionは1.5です。 .sort.bam はソート済BAMを表します。 SAM -> BAM 変換 $ samtools view -bS sample.sam > sample.bam BAM -> SAM 変換 $ samtools view sample.bam > sample.sam BAMをソート $ samtools sort sample.bam > sample.so…

環境変数PATHの通し方

同内容の記事はたくさんありますが、やはり避けては通れないので… 環境変数PATHとは githubなどからツールを新たにダウンロードした場合、その実行ファイルを起動するには実行ファイルのありかを直接指定する必要があります。 $ ./bowtie2-2.2.9/bowtie2 の…

Bowtie2が system CPU を大量に消費している件で

Bowtie2の最新バージョンは2017/10/10 時点でVersion 2.3.3.1となっています。 Change logを見ると、version 2.3.0 において major updateが施され、 マルチスレッドを使用した場合のスケーラビリティを改善したとあります。 具体的には、利用するライブラリ…

SAMtoolsとリダイレクト

SAMtools 先日紹介したリードのマッピングの記事では、出力をSAM形式に指定していました。 rnakato.hatenablog.jp SAM形式はファイルサイズが非常に大きく読み込みにも時間がかかるので、バイナリ形式のSAMであるBAM形式が下流解析でよく利用されています。 …

バイオインフォマティクスのためのpython環境構築方法を考える (10/13追記あり)

先日、以下の記事でLinux上でのpython環境構築にはpyenvが良いと書いたのですが、 pyenvでPython環境を構築する - Palmsonntagmorgen 少し気が変わってきました。 以下、現状の考えをまとめます。 私もPythonにはそこまで詳しくないので、良い方法をご存じの…

Readをゲノムにマッピング (その3) 圧縮ファイルを入力にする方法

マッピングの記事その3。 Readをゲノムにマッピング (その1) - Palmsonntagmorgen Readをゲノムにマッピング (その2) - Palmsonntagmorgen 圧縮ファイル(fastq.gz)を直接マッピングの入力にする方法です。 圧縮ファイルのままマッピングしたい fastqファ…

Error: libpng12.so.0 not found (VMware)

メモ。 VMwareにインストールしたUbuntu上で ftp://hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64/ のUCSC toolsを実行すると以下のエラーが出る。 error while loading shared libraries: libpng12.so.0: cannot open shared object file: No such file …

R in Anaconda にrJavaをインストール(8/15追記)

個人的につまったので忘備録。 anaconda は Linux (Ubuntu 16.04)上でpyenvを使ってインストールしているという前提です。 $ conda create -c r r-irkernel # anaconda内にRのインストール Rを起動してrJavaをインストールしようとするとエラーになる。 > in…

Readをゲノムにマッピング (その2)

前回の続きです。 Readをゲノムにマッピング (その1) - Palmsonntagmorgen 今回ではbowtie, bowtie2, bwaのマッピングコマンドを説明します。 どのマッピングツールも、ゲノム配列をindex配列にまず変換し、そのindexに対してマッピングするという手順を踏…

Readをゲノムにマッピング (その1)

NGS解析の最初のステップは、シーケンサから出力されたfastq形式のリード配列をゲノム配列にマップするマッピングです。 これにより、ゲノム上のどの領域から得られたリードなのかを知ることができます。 マッピングツール ChIP-seq解析で主に用いられるマッ…

pyenvでPython環境を構築する

ざっくりですが。 Pythonツールのインストール 最近はPythonで書かれたツール類が増えてきています。 pip や conda でツールをインストールできるのはエラーも少なく、大変便利ですね。 ただ、pythonは2系と3系があり、python2.xでしか動かないツール、pytho…

ENA,DDBJからfastqを取得する

前回のエントリでは、SRAからfastqを取得する方法を紹介しました。 SRAからfastqを取得する - Palmsonntagmorgen 一方、ENA (European Nucleotide Archive) やDDBJから直接fastqファイルをダウンロードすることも可能です。 European Nucleotide Archive < E…

SRAからfastqを取得する

更新の間が随分空いてしまいました。 その間に2つの学会に参加してきたのですが、海外の解析手法の進化具合にずいぶん衝撃を受けました。 が、ここは予定通り初歩的な作業から説明していきたいと思います。 今日はSRA(Sequence Read Archive) からfastqファ…

2bit genome を作成する

2bit genome はゲノム配列ファイルを2bit 形式で格納したものです。 2bit 形式はテキストエディタで開くことはできませんが、multifasta 形式よりも非常に高速にプログラムに読みこむことができるため、 ゲノム解析ツールを使う際にまれに 2bit genomeを要求…

常染色体と性染色体のみのゲノム配列ファイル genome.fa を作成する

UCSC genome browserからダウンロードした ゲノム配列データにはコンティグ配列なども含まれていますが、これらは通常ゲノムの解析には用いません。 そこでこれらを除去し、常染色体と性染色体のみのゲノム配列ファイル genome.fa を作成します。 ここではhg…

genome tableを作成する

genome table はゲノム中に存在する各染色体の名前とその長さをタブ区切りで記述したファイルで、DROMPA や bedtools などの解析ツールを使う時に必要になります。 UCSC genome browserの *.chrom.sizes ファイルをダウンロードしてもいいのですが、自分で自…