Genome
スクリプトなどを用いずにLinuxのCUIコマンドのみで一行で行う処理(またはその処理を行うコマンド)のことをワンライナーと呼びます。 ここではゲノム解析に使うワンライナーを順次追加していきます。 一般的なファイル操作 $ ls workdir/ # workdirに含ま…
chromapは高速・高精度にリードをゲノムにマップするツールです*1。 既存ツールのbwaやbowtie2よりも遥かに高速だとのことなので、ここではChIP-seqデータを用いて使用法及び速度・精度面を確かめてみたいと思います。 chromapについて chromap は minimap2*…
以前書いた以下のエントリでは、genome配列ファイルからgenome tableファイルを作成する方法を紹介しました。 rnakato.hatenablog.jp UCSCから提供されているfetchChromSizes を使うと、この作業をより簡便に行うことが可能です。 fetchChromSizesのインスト…
久しぶりのDROMPAのエントリです。今回は出芽酵母(S. cerevisiae)の複製解析を行います。複製開始後のDNAを複製前のDNAで割り算することで、ゲノム上のどこでどの程度複製フォークが進んでいるかを可視化することができます。 データは以下の論文のものを…
みなさんgtfファイルからrefFlatに変換する時ってどうされてるんですかね?Rを使っている? 自分は自作のツール "gtf2refFlat" を使っているので、ここではそれを紹介します。 gtf形式については↓をご覧ください。 https://bi.biopapyrus.jp/rnaseq/mapping/…
マップデータの形式にはSAM, BAMの他にCRAMという形式があります。 https://www.ga4gh.org/news/cram-compression-for-genomics/ CRAMはBAMと比べて更に高圧縮率だそうです。 今まであまり使う機会が無かったのですが、Twitterで Ewan Birneyさんが強く推し…
前回の記事↓の続きです。 STAR-RSEMによる発現量推定 その1 - Palmsonntagmorgen STAR-RSEMによる発現量推定 その2 - Palmsonntagmorgen 前回のコマンドを最後まで完了すると、starディレクトリの中にstar/Myers_HUVEC_cell_2x75_200_1.<genes|isoforms>.results のようなフ</genes|isoforms>…
前回の記事↓の続きです。 STAR-RSEMによる発現量推定 その1 - Palmsonntagmorgen Stranded/Unstranded RNA-seq RNA-seqにはunstrandedとstranded の二種類があります。unstrandedの場合はmRNAに対して半々の確率で順鎖と逆鎖が読まれ、stranded の場合は逆…
私が普段使っているSTAR, RSEMを使った発現量推定法を紹介します。 あまり最新のアップデート情報などをフォローできていないので、もっと良いやり方をご存知の方はご教示ください。 ここでは例題として、ヒトES細胞とHUVEC細胞をペアエンドで読んだサンプル…
RNA-seq解析の記事を書こうとしたらgtfファイルの部分が長くなり過ぎたので単独記事にしました。 Gene annotation 既知遺伝子の情報を記載するファイルにはいくつかの形式があり、gtf形式はそのひとつです。 よく似たgff形式というものもありますが、微妙に…
順次追加するかも。versionは1.5です。 .sort.bam はソート済BAMを表します。 SAM -> BAM 変換 $ samtools view -bS sample.sam > sample.bam BAM -> SAM 変換 $ samtools view -h sample.bam > sample.sam BAMをソート $ samtools sort sample.bam > sample…
マッピングの記事その3。 Readをゲノムにマッピング (その1) - Palmsonntagmorgen Readをゲノムにマッピング (その2) - Palmsonntagmorgen 圧縮ファイル(fastq.gz)を直接マッピングの入力にする方法です。 圧縮ファイルのままマッピングしたい fastqファ…
前回の続きです。 Readをゲノムにマッピング (その1) (2017/12/19, 2018/11/19 追記あり) - Palmsonntagmorgen 今回ではbowtie, bowtie2, bwaのマッピングコマンドを説明します。 どのマッピングツールも、ゲノム配列をindex配列にまず変換し、そのindexに…
NGS解析の最初のステップは、シーケンサから出力されたfastq形式のリード配列をゲノム配列にマップするマッピングです。 これにより、ゲノム上のどの領域から得られたリードなのかを知ることができます。 マッピングツール ChIP-seq解析で主に用いられるマッ…
更新の間が随分空いてしまいました。 その間に2つの学会に参加してきたのですが、海外の解析手法の進化具合にずいぶん衝撃を受けました。 が、ここは予定通り初歩的な作業から説明していきたいと思います。 今日はSRA(Sequence Read Archive) からfastqファ…
2bit genome はゲノム配列ファイルを2bit (バイナリ)形式で格納したものです。 2bit 形式はテキストエディタで開くことはできませんが、multifasta 形式よりも非常に高速にプログラムに読みこむことができるため、 ゲノム解析ツールを使う際にまれに 2bit …
UCSC genome browserからダウンロードした ゲノム配列データにはコンティグ配列なども含まれていますが、これらは通常ゲノムの解析には用いません。 そこでこれらを除去し、常染色体と性染色体のみのゲノム配列ファイル genome.fa を作成します。 ここではhg…
genome table はゲノム中に存在する各染色体の名前とその長さをタブ区切りで記述したファイルで、DROMPA や bedtools などの解析ツールを使う時に必要になります。 UCSC genome browserの *.chrom.sizes ファイルをダウンロードしてもいいのですが、自分で自…