Palmsonntagmorgen

NGSデータを使った解析と、その周辺。

ENA,DDBJからfastqを取得する

前回のエントリでは、SRAからfastqを取得する方法を紹介しました。

SRAからfastqを取得する - Palmsonntagmorgen

一方、ENA (European Nucleotide Archive) やDDBJから直接fastqファイルをダウンロードすることも可能です。

European Nucleotide Archive < EMBL-EBI
DDBJ Sequence Read Archive - Home

SRA, DDBJ, ENAのデータベースは互いに同期されており、基本的にどのサイトからでも同一のファイルを取得できます。
2017/7/13の時点では、ENAからは fastq.gz 形式、DDBJからは fastq.bz2 形式でダウンロード可能です。
SRAを使うと、sraのダウンロード -> fastq への変換 -> fastq.gz への圧縮と三段階必要であるのに比べ、 上記サイトを使えば fastq.gz のダウンロードのみになるので、簡便かつ高速です。 なお私的には.bz2形式よりも.gz形式の方が使いやすいので、ここではENAからのダウンロードを紹介します。
DDBJからのダウンロードについては下記のサイトに詳述されていますので、そちらを参考にしてください(適当)。

DDBJ から FASTQ をダウンロードする方法 | シングルエンドリード

ENAからデータの取得

ここではサンプルデータとして SRR390728 を使います。
ENAのサイト上でSRR390728を検索すると、下記のような画面になります。

f:id:rnakato:20170713151016p:plain

"FASTQ files (FTP)" のリンクをクリックするとダウンロードが始まります。 SRR390728 は paired-end なので、2ファイルに分かれています。 singleとpairedを間違うこともないので、簡単ですね。
Linux ターミナル上ではwgetを使ってダウンロードをすることも可能です。 上記ページからFTPのリンクをコピーし、以下のようにコマンドを打ちます。

 $ wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR390/SRR390728/SRR390728_1.fastq.gz
 $ wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR390/SRR390728/SRR390728_2.fastq.gz

wget を使ったファイルの一括取得

サンプル数が多い場合にひとつひとつ手作業でダウンロードするのは面倒です。 そのような時はFTPリンクをファイルに保存し、wget -i を使うと簡単です。

ここではサンプルデータとして SRP000712 を使います。
ENA上で SRP000712 を検索すると、以下のように25サンプル含まれていることがわかります。

f:id:rnakato:20170713152534p:plain

画面上部の "TEXT" をクリックすると、各サンプルの詳細をテキスト形式でダウンロードできます。 この例では "PRJNA106023.txt" というファイル名で保存されます。
FTPのURLは10列目に記載されているので、10列目だけ抽出したファイルを作成しましょう。

 $ cut -f10 PRJNA106023.txt > ftp.txt

あとはこのファイルにwget -i を実行すれば順番にダウンロードされます。

 $ wget -i ftp.txt

サンプルによっては1サンプルにつき複数のURLが ; 区切りで記載されていたりしますが、 ; を改行に変換するなどして対応してください。