genome table はゲノム中に存在する各染色体の名前とその長さをタブ区切りで記述したファイルで、DROMPA や bedtools などの解析ツールを使う時に必要になります。
UCSC genome browserの *.chrom.sizes ファイルをダウンロードしてもいいのですが、自分で自由に作成できる方が便利なので、makegenometable.plスクリプトを作成しました。
Download
github:DROMPA3のscripts フォルダからmakegenometable.pl をダウンロードしてください。
下記の git clone コマンドを実行してDROMPA3ごとダウンロードすることもできます:
$ git clone https://github.com/rnakato/DROMPA3.git
DROMPA3/script/ ディレクトリの中に makegenometable.pl が入っています。
実行
makegenometable.pl の入力となるのは全染色体を含んだゲノム配列データ(multifasta形式)です。
例としてhuman genome build hg38のgenome tableを作成してみます。
まずUCSC genome browserのhg38.fa.gz をダウンロード・解凍します。
$ wget http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz
$ gunzip hg38.fa.gz # 解凍
生成された hg38.fa に含まれる配列を確認します。
$ grep \> hg38.fa >chr1 >chr10 >chr11 >chr11_KI270721v1_random >chr12 >chr13 >chr14 >chr14_GL000009v2_random >chr14_GL000225v1_random >chr14_KI270722v1_random >chr14_GL000194v1_random ... >chrUn_GL000218v1 >chrX >chrY >chrY_KI270740v1_random
細かいコンティグなども含まれていますが、今回はこれをそのまま利用します。
作成されたhg38.fa に対してmakegenometable.pl を実行し、出力先をgenometable.txtに指定します。
$ makegenometable.pl hg38.fa > genometable.txt
catでgenometable.txtを表示して以下のように表示されれば成功です。
$ cat genometable.txt chr1 248956422 chr10 133797422 chr11 135086622 chr11_KI270721v1_random 100316 chr12 133275309 chr13 114364328 chr14 107043718 chr14_GL000009v2_random 201709 chr14_GL000225v1_random 211173 chr14_KI270722v1_random 194050 chr14_GL000194v1_random 191469 ... chrUn_GL000218v1 161147 chrX 156040895 chrY 57227415 chrY_KI270740v1_random 37240
makegenometable.plは遺伝子配列長の計測にも利用可能です。