Palmsonntagmorgen

NGSデータを使った解析と、その周辺。

Genome

マッピング: CRAM形式を試す

マップデータの形式にはSAM, BAMの他にCRAMという形式があります。 https://www.ga4gh.org/news/cram-compression-for-genomics/ CRAMはBAMと比べて更に高圧縮率だそうです。 今まであまり使う機会が無かったのですが、Twitterで Ewan Birneyさんが強く推し…

STAR-RSEMによる発現量推定 その3

前回の記事↓の続きです。 STAR-RSEMによる発現量推定 その1 - Palmsonntagmorgen STAR-RSEMによる発現量推定 その2 - Palmsonntagmorgen 前回のコマンドを最後まで完了すると、starディレクトリの中にstar/Myers_HUVEC_cell_2x75_200_1.<genes|isoforms>.results のようなフ</genes|isoforms>…

STAR-RSEMによる発現量推定 その2

前回の記事↓の続きです。 STAR-RSEMによる発現量推定 その1 - Palmsonntagmorgen Stranded/Unstranded RNA-seq RNA-seqにはunstrandedとstranded の二種類があります。unstrandedの場合はmRNAに対して半々の確率で順鎖と逆鎖が読まれ、stranded の場合は逆…

STAR-RSEMによる発現量推定 その1

私が普段使っているSTAR, RSEMを使った発現量推定法を紹介します。 あまり最新のアップデート情報などをフォローできていないので、もっと良いやり方をご存知の方はご教示ください。 ここでは例題として、ヒトES細胞とHUVEC細胞をペアエンドで読んだサンプル…

Gene annotation データを用意する(gtf形式)

RNA-seq解析の記事を書こうとしたらgtfファイルの部分が長くなり過ぎたので単独記事にしました。 Gene annotation 既知遺伝子の情報を記載するファイルにはいくつかの形式があり、gtf形式はそのひとつです。 よく似たgff形式というものもありますが、微妙に…

Readをゲノムにマッピング (その3) 圧縮ファイルを入力にする方法

マッピングの記事その3。 Readをゲノムにマッピング (その1) - Palmsonntagmorgen Readをゲノムにマッピング (その2) - Palmsonntagmorgen 圧縮ファイル(fastq.gz)を直接マッピングの入力にする方法です。 圧縮ファイルのままマッピングしたい fastqファ…

Readをゲノムにマッピング (その2)

前回の続きです。 Readをゲノムにマッピング (その1) - Palmsonntagmorgen 今回ではbowtie, bowtie2, bwaのマッピングコマンドを説明します。 どのマッピングツールも、ゲノム配列をindex配列にまず変換し、そのindexに対してマッピングするという手順を踏…

Readをゲノムにマッピング (その1) (2017/12/19, 2018/11/19 追記あり)

NGS解析の最初のステップは、シーケンサから出力されたfastq形式のリード配列をゲノム配列にマップするマッピングです。 これにより、ゲノム上のどの領域から得られたリードなのかを知ることができます。 マッピングツール ChIP-seq解析で主に用いられるマッ…

SRAからfastqを取得する

更新の間が随分空いてしまいました。 その間に2つの学会に参加してきたのですが、海外の解析手法の進化具合にずいぶん衝撃を受けました。 が、ここは予定通り初歩的な作業から説明していきたいと思います。 今日はSRA(Sequence Read Archive) からfastqファ…

2bit genome を作成する

2bit genome はゲノム配列ファイルを2bit (バイナリ)形式で格納したものです。 2bit 形式はテキストエディタで開くことはできませんが、multifasta 形式よりも非常に高速にプログラムに読みこむことができるため、 ゲノム解析ツールを使う際にまれに 2bit …

常染色体と性染色体のみのゲノム配列ファイル genome.fa を作成する

UCSC genome browserからダウンロードした ゲノム配列データにはコンティグ配列なども含まれていますが、これらは通常ゲノムの解析には用いません。 そこでこれらを除去し、常染色体と性染色体のみのゲノム配列ファイル genome.fa を作成します。 ここではhg…

genome tableを作成する

genome table はゲノム中に存在する各染色体の名前とその長さをタブ区切りで記述したファイルで、DROMPA や bedtools などの解析ツールを使う時に必要になります。 UCSC genome browserの *.chrom.sizes ファイルをダウンロードしてもいいのですが、自分で自…