2bit genome はゲノム配列ファイルを2bit (バイナリ)形式で格納したものです。
2bit 形式はテキストエディタで開くことはできませんが、multifasta 形式よりも非常に高速にプログラムに読みこむことができるため、
ゲノム解析ツールを使う際にまれに 2bit genomeを要求されることがあります。
初めて見ると戸惑うかもしれませんが、UCSC genome browserで提供されているので、それをダウンロードして使えばOKです。
例えばhg38であれば http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/ の hg38.2bit がそれに該当します。
2bit genome の作成
この2bit genomeファイルはUCSCから提供されているプログラムで作成することも可能です。
UCSC genome browserからダウンロードした ゲノム配列データにはコンティグ配列も含まれていますので(下記エントリ参照)、
それらを取り除いた2bitファイルが欲しいというような場合は自分で作成するとよいでしょう。
twoBitToFa と faToTwoBit を使った相互変換
2bit 形式 と multifasta 形式の相互変換には twoBitToFa と faToTwoBit のふたつのプログラムを使います。
まずはこの2つのプログラムをダウンロードし、実行権限を付与します。
$ wget http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/faToTwoBit $ wget http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/twoBitToFa $ chmod +x faToTwoBit twoBitToFa # 実行権限の付与
UCSC genome browserからhg38 の 2bit genomeをダウンロードしてみましょう。
$ wget http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.2bit $ less hg38.2bit # lessコマンドでオープンを試みると "hg38.2bit" may be a binary file. See it anyway?
hg38.2bitはバイナリファイルなので開けませんよ、と警告が出ます。
2bit genome → multifasta の変換
2bit genome → multifasta の変換には twoBitToFa を使います。
$ ./twoBitToFa hg38.2bit hg38.fa $ less hg38.fa >chr1 NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN ...
multifastaはテキストファイルなので、lessでオープンすることができます。
なお、ここでNが並んでいるのは、chr1の末端はテロメア領域であり配列が解読されていないためです。
このような未解読の領域は「ギャップ領域」と呼ばれます。
ヒトゲノム解読が完了したとは言っても、このようなギャップ領域はまだたくさん残っているということですね。
multifasta → 2bit genome の変換
こちらは faToTwoBit を使います。
$ ./faToTwoBit hg38.fa hg38.2bit
hg38.faとhg38.2bitはファイル形式が異なるだけで内容は同一ですので、
このように、何度でも相互変換をすることができます。
なお、http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/ に格納されている
UCSCのコマンドツール群には他にも便利なものが色々ありますので、
全部ダウンロードして利用可能にしておくのがオススメです。