前回のエントリでは、SRAからfastqを取得する方法を紹介しました。
SRAからfastqを取得する (2019/07/16 追記あり) - Palmsonntagmorgen
一方、ENA (European Nucleotide Archive) やDDBJから直接fastqファイルをダウンロードすることも可能です。
ENA Browser
http://trace.ddbj.nig.ac.jp/dra/index_e.html
SRA, DDBJ, ENAのデータベースは互いに同期されており、基本的にどのサイトからでも同一のファイルを取得できます。
2017/7/13の時点では、ENAからは fastq.gz 形式、DDBJからは fastq.bz2 形式でダウンロード可能です。
SRAを使うと、sraのダウンロード -> fastq への変換 -> fastq.gz への圧縮と三段階必要であるのに比べ、
上記サイトを使えば fastq.gz のダウンロードのみになるので、簡便かつ高速です。
なお私的には.bz2形式よりも.gz形式の方が使いやすいので、ここではENAからのダウンロードを紹介します。
DDBJからのダウンロードについては下記のサイトに詳述されていますので、そちらを参考にしてください(適当)。
https://bi.biopapyrus.jp/rnaseq/fastq-data/download-fastq-ddbj.html
(2019/9/6追記:DDBJは2017年4月7日からSRAのミラーリングを停止しているそうです。SRAのデータのダウンロードにはSRA本体かENAを使ってください。
参考:https://www.ddbj.nig.ac.jp/news/ja/180918_2.html)
(2021/5/7追記:2020年からDDBJのミラーリングは再開されたそうです。)
ENAからデータの取得
ここではサンプルデータとして SRR390728 を使います。
ENAのサイト上でSRR390728を検索すると、下記のような画面になります。
"FASTQ files (FTP)" のリンクをクリックするとダウンロードが始まります。
SRR390728 は paired-end なので、2ファイルに分かれています。
singleとpairedを間違うこともないので、簡単ですね。
Linux ターミナル上ではwgetを使ってダウンロードをすることも可能です。
上記ページからFTPのリンクをコピーし、以下のようにコマンドを打ちます。
$ wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR390/SRR390728/SRR390728_1.fastq.gz $ wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR390/SRR390728/SRR390728_2.fastq.gz
wget を使ったファイルの一括取得
サンプル数が多い場合にひとつひとつ手作業でダウンロードするのは面倒です。
そのような時はFTPリンクをファイルに保存し、wget -i
を使うと簡単です。
ここではサンプルデータとして SRP000712 を使います。
ENA上で SRP000712 を検索すると、以下のように25サンプル含まれていることがわかります。
画面上部の "TEXT" をクリックすると、各サンプルの詳細をテキスト形式でダウンロードできます。
この例では "PRJNA106023.txt" というファイル名で保存されます。
FTPのURLは10列目に記載されているので、10列目だけ抽出したファイルを作成しましょう。
$ cut -f10 PRJNA106023.txt > ftp.txt
あとはこのファイルにwget -i
を実行すれば順番にダウンロードされます。
$ wget -i ftp.txt
サンプルによっては1サンプルにつき複数のURLが ; 区切りで記載されていたりしますが、 ; を改行に変換するなどして対応してください。