Palmsonntagmorgen

NGSデータを使った解析と、その周辺。

genome tableを作成する

genome table はゲノム中に存在する各染色体の名前とその長さをタブ区切りで記述したファイルで、DROMPA や bedtools などの解析ツールを使う時に必要になります。
UCSC genome browserの *.chrom.sizes ファイルをダウンロードしてもいいのですが、自分で自由に作成できる方が便利なので、makegenometable.plスクリプトを作成しました。

Download

github:DROMPA3のscripts フォルダからmakegenometable.pl をダウンロードしてください。
下記の git clone コマンドを実行してDROMPA3ごとダウンロードすることもできます:

 $ git clone https://github.com/rnakato/DROMPA3.git

DROMPA3/script/ ディレクトリの中に makegenometable.pl が入っています。

実行

makegenometable.pl の入力となるのは全染色体を含んだゲノム配列データ(multifasta形式)です。
例としてhuman genome build hg38のgenome tableを作成してみます。
まずUCSC genome browserのhg38.fa.gz をダウンロード・解凍します。

 $ wget http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz
 $ gunzip hg38.fa.gz  # 解凍

生成された hg38.fa に含まれる配列を確認します。

 $ grep \> hg38.fa 
>chr1
>chr10
>chr11
>chr11_KI270721v1_random
>chr12
>chr13
>chr14
>chr14_GL000009v2_random
>chr14_GL000225v1_random
>chr14_KI270722v1_random
>chr14_GL000194v1_random
...
>chrUn_GL000218v1
>chrX
>chrY
>chrY_KI270740v1_random

細かいコンティグなども含まれていますが、今回はこれをそのまま利用します。
作成されたhg38.fa に対してmakegenometable.pl を実行し、出力先をgenometable.txtに指定します。

 $ makegenometable.pl hg38.fa > genometable.txt

catでgenometable.txtを表示して以下のように表示されれば成功です。

 $ cat genometable.txt
chr1    248956422
chr10   133797422
chr11   135086622
chr11_KI270721v1_random 100316
chr12   133275309
chr13   114364328
chr14   107043718
chr14_GL000009v2_random 201709
chr14_GL000225v1_random 211173
chr14_KI270722v1_random 194050
chr14_GL000194v1_random 191469
...
chrUn_GL000218v1    161147
chrX    156040895
chrY    57227415
chrY_KI270740v1_random  37240

makegenometable.plは遺伝子配列長の計測にも利用可能です。