There is only one way (I know) to robustly download raw sequence data from GEO/SRA/ENA.

fastq-dump, fastrq-dump, fastq-dl, wget, etc are very slow even if separate files are downloaded in parallel.

Instead, aria2c can be used to dl files with multiple connections. (1/2). pic.twitter.com/YYQG1qBVeJ
— Mark Sanborn (@Sanbomics) 2023年11月30日

ENAから fastqファイルを取得する

ここでは例として、Ahn et al., Nature, 2021の論文のRNA-seqデータ（paired-end）を使います。IDはPRJNA604380です。

ENA上で PRJNA604380を検索すると、以下のようなページになります。RNA-seqデータが18サンプル含まれています。

右側にある "Download All" をクリックすればダウンロードが開始されますが、めちゃくちゃ遅いです。しばしば途中でタイムアウトになり、うまくダウンロードされません。 FASTQのリンクをクリックすれば個別にダウンロードできますが、それでも遅いですし、サンプル数が多いと大変です。

ENAから wget を使ってfastqファイルを一括取得する

FTPリンクをファイルに保存し、wget -i を使う方法をおさらいします。

画面上部 "Download report"の TSV をクリックすると、各サンプルの詳細をテキスト形式でダウンロードできます。ここでは "filereport_read_run_PRJNA604380_tsv.txt" という名前で保存されました。

 $ head -n3 filereport_read_run_PRJNA604380_tsv.txt
study_accession sample_accession        experiment_accession    run_accession   tax_id  scientific_name fastq_ftp       submitted_ftp   sra_ftbam_ftp
PRJNA604380     SAMN13967826    SRX7659655      SRR10998571     9606    Homo sapiens    ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/071/SRR10998571/SRR10998571_1.fastq.gz;ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/071/SRR10998571/SRR10998571_2.fastq.gz          ftp.sra.ebi.ac.uk/vol1/srr/SRR109/071/SRR10998571
PRJNA604380     SAMN13967825    SRX7659656      SRR10998572     9606    Homo sapiens    ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/072/SRR10998572/SRR10998572_1.fastq.gz;ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/072/SRR10998572/SRR10998572_2.fastq.gz          ftp.sra.ebi.ac.uk/vol1/srr/SRR109/072/SRR10998572

ごちゃごちゃしていますが、サンプルの各種IDや生物種、FTPのURLなどが記載されています。 FTPのURLは7列目に記載されています。

 $ cut -f7 filereport_read_run_PRJNA604380_tsv.txt
ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/071/SRR10998571/SRR10998571_1.fastq.gz;ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/071/SRR10998571/SRR10998571_2.fastq.gz
ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/072/SRR10998572/SRR10998572_1.fastq.gz;ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/072/SRR10998572/SRR10998572_2.fastq.gz
ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/073/SRR10998573/SRR10998573_1.fastq.gz;ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/073/SRR10998573/SRR10998573_2.fastq.gz
ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/074/SRR10998574/SRR10998574_1.fastq.gz;ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/074/SRR10998574/SRR10998574_2.fastq.gz
ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/075/SRR10998575/SRR10998575_1.fastq.gz;ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/075/SRR10998575/SRR10998575_2.fastq.gz
ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/078/SRR10998578/SRR10998578_1.fastq.gz;ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/078/SRR10998578/SRR10998578_2.fastq.gz
ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/081/SRR10998581/SRR10998581.fastq.gz
ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/079/SRR10998579/SRR10998579_1.fastq.gz;ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/079/SRR10998579/SRR10998579_2.fastq.gz
ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/082/SRR10998582/SRR10998582.fastq.gz
ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/083/SRR10998583/SRR10998583.fastq.gz
ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/084/SRR10998584/SRR10998584.fastq.gz
ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/087/SRR10998587/SRR10998587.fastq.gz
ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/086/SRR10998586/SRR10998586.fastq.gz
ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/088/SRR10998588/SRR10998588.fastq.gz
ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/076/SRR10998576/SRR10998576_1.fastq.gz;ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/076/SRR10998576/SRR10998576_2.fastq.gz
ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/077/SRR10998577/SRR10998577_1.fastq.gz;ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/077/SRR10998577/SRR10998577_2.fastq.gz
ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/080/SRR10998580/SRR10998580_1.fastq.gz;ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/080/SRR10998580/SRR10998580_2.fastq.gz
ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/085/SRR10998585/SRR10998585.fastq.gz

paired-end のファイルがセミコロン(;) 区切りで記載されているので、セミコロンを改行に変換してファイル保存します。

 $ cut -f7 filereport_read_run_PRJNA604380_tsv.txt | sed 's/;/\n/g' | grep -v fastq_ftp > ftp.txt
 $ cat ftp.txt
ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/071/SRR10998571/SRR10998571_1.fastq.gz
ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/071/SRR10998571/SRR10998571_2.fastq.gz
ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/072/SRR10998572/SRR10998572_1.fastq.gz
ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/072/SRR10998572/SRR10998572_2.fastq.gz
ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/073/SRR10998573/SRR10998573_1.fastq.gz
ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/073/SRR10998573/SRR10998573_2.fastq.gz
(中略)
ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/080/SRR10998580/SRR10998580_1.fastq.gz
ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/080/SRR10998580/SRR10998580_2.fastq.gz
ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/085/SRR10998585/SRR10998585.fastq.gz

あとはこのファイルにwget -i を実行すれば順番にダウンロードされます。

 $ wget -i ftp.txt

aria2を使ってfastqファイルを一括取得する

wgetはやはり低速であり、ダウンロードに時間がかかるという点では改善されません。ここではwgetよりも高速にダウンロードできるaria2を使ってみましょう。

curlやwgetの数倍速い爆速ダウンローダー aria2を使う #Linux - Qiita

aria2がインストールされていない場合はインストールします。aptでもbrewでも入ります。

 $ sudo apt install aria2

ひとつファイルをダウンロードしてみましょう。コマンド名はaria2c です。元のFTP URLは受け付けないようですので、冒頭に "ftp://" を追加して実行してください。

 $ aria2c -x 16 ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR109/085/SRR10998585/SRR10998585.fastq.gz

-x 16 は使用するCPU数です。最大で16まで指定できます。これにより、wgetよりも圧倒的に高速にファイルをダウンロードすることが可能です。

全ファイルをダウンロードしてみましょう。aria2cも "-i" オプションが使えますが、ここでは "ftp://"を追加しなければいけません。色々なやり方がありますが、ここではシンプルにfor文を使いましょう。

for url in $(cat ftp.txt); do
    echo $url
    aria2c -x 16 ftp://$url
done

これで全ファイルをダウンロードできます。

終わりに

この方法をGEOやSRAで使えると楽なのですが、これらのデータベースではダウンロードURLが公開されていません。ariaやwgetを使いたい場合はENAを使いましょう。
また、aria2cも時々ダウンロードに失敗することがあるようです。ダウンロード完了後には全てのファイルが揃っているか確認するようにしてください。

2023-02-01

Linux command Tips

Linux Tips

qiita.com

2023-01-31

フリー素材・イラストデザインなど

その他

qiita.com

2023-01-31

無料公開されている講義資料など

その他

随時追加します。Tweetはクリックするとスレッドが読めます。

データ分析
機械学習
Deep learning
強化学習
Transformer/BERT
時系列分析
Bioinformatics

強化学習

強化学習の基礎と深層強化学習（東京大学松尾研究室深層強化学習サマースクール講義資料） from Shota Imai

www.slideshare.net

Transformer/BERT

BERTによるテキスト分類のチュートリアルを公開しました！

・ライブドアニュースコーパスを対象とした9値分類
・前処理+主要な評価指標の算出
・実験結果の管理
をモダンな記法・設計で実装しました。

深層学習・NLP初学者の方をはじめ、色々な方の参考になれば嬉しいです！https://t.co/cYaecEjLTm
— hpp (@hpp_ricecake) 2023年1月14日

時系列分析

NTTコミュニケーションズが無料公開している時系列データ分析の解説サイト。前処理からモデリングまで一連の基本的な分析手法をPythonコードと合わせて学べる。https://t.co/g21KWSz1aj pic.twitter.com/1mPCt13hUx
— QDくん⚡️Python x 機械学習 x 金融工学 (@developer_quant) 2023年1月28日

Bioinformatics

10 courses/books to learn bioinformatics 🧵👇
— Ming "Tommy" Tang (@tangming2005) 2022年10月25日

2023-01-31

Analysis Tips

Tips

解析するうえで参考になる情報まとめ。Tweetはクリックするとスレッドが読めます。

Data Visualization
Data analysis
R analysis
Python analysis
100本ノック

Data Visualization

Making a heatmap is an essential skill for a bioinformatician.
But you probably do not understand heatmap. 7 reading resources to understand heatmap!👇🧵
compiled at https://t.co/H8KOw50mXx
— Ming "Tommy" Tang (@tangming2005) 2022年11月30日

A thread about using color as a design tool in science presentations. Color is a great tool to separate different categories of information, to highlight information, or to establish an emotional tone. 🧵1/20 pic.twitter.com/AHWxuWYdAT
— @IAmSciComm - On a Break! (@iamscicomm) 2022年5月31日

Check out Gosling, "A Grammar-based Toolkit for Scalable and Interactive Genomics Data Visualization"https://t.co/Eyyh488mcb

And an editable example!https://t.co/RffTYObTuX pic.twitter.com/MerP0rQ6xJ
— Sean Davis (@seandavis12) 2022年7月21日

Creating a cattle-mouse comparative browser view and use it to compare DNA methylation in heart, lung and liver between cow and mouse with the WashU Comparative Epigenome Browser. Work by @XiaoyuZhuo @SilasHsu @twang5 etc. Please check https://t.co/Lpk62Nulwe @biorxivpreprint pic.twitter.com/3T7ziAzUgi
— WashU Epigenome Browser (@wuepgg) 2022年12月3日

You can step up your data visualization game with {ggiraph} & {patchwork}.

Two premier tools for creating interactive, connected plots with click events and tool-tips. (And they're super easy to use too.)

Code: https://t.co/MwbHYjdVN1 #rstats #dataviz pic.twitter.com/qup1n3mTro
— Albert Rapp (@rappa753) 2023年1月28日

plotly.expressのお気に入りグラフ3選 - Qiita

www.data-to-viz.com

🤔Ever wondered where to find the best #dataviz projects ?

➡️I've done this for HOURS to build https://t.co/kwYyrJgAo6.

Let me share my favorite resources, and please tell me ⭐️yours⭐️!! pic.twitter.com/1Gjlsy8vI1
— Yan Holtz (@R_Graph_Gallery) 2023年1月11日

Data analysis

PCA is my go-to analysis tool for high-dimensional data.
8 links to BETTER understand principal component analysis (PCA):

Bookmark this blog post: https://t.co/ADBKssiBmC you want to find it later.
— Ming "Tommy" Tang (@tangming2005) 2022年11月7日

Data Science Cheatsheets

R analysis

A comprehensive review paper (https://t.co/lBBTEfKJjd), and blog on R packages for exploratory analysis (EDA). Some auto generate reports.
Top 4 packages:
1. summarytools
2. DataExplorer
3. visdat
4. funModeling
Deep Exploratory Data Analysis (EDA) in R https://t.co/cpaBFS2P12
— Steven Ge (@StevenXGe) 2022年12月27日

Rで背景情報や回帰の結果をきれいにまとめてくれるgtsummary。

使ってるときの「あれどうするんだっけ？」に答える、かゆいところに手を届かせるコードまとめ。

yuzaR-Blog: R package reviews {gtsummary} Publication-Ready Tables of Data, Stat-Tests and Models! https://t.co/JfAhbvDBpY
— Sato Shuntaro｜佐藤俊太朗 (@Shuntarooo3) 2022年12月3日

Tidy-transcriptomics manifesto - Tidy transcriptomics

10 command-line and R tools to deal with excel, tsv, csv files👇🧵
compiled at here too https://t.co/rQJPgPl7Wi
— Ming "Tommy" Tang (@tangming2005) 2022年11月28日

Python analysis

github.com

うっ、嘘でしょ…たったコード一行でモデルのパフォーマンスが一括評価できちゃうの⁉️

performanceパッケージのcheck_model()関数は、以下の図のように一瞬で正規性、等分散性、多重共線性、外れ値の影響など、仮定への適合性を”見える化”してくれます。
check_model(model名)って書くだけでOK。 pic.twitter.com/ck68sh0hDT
— すきとほる, MPH | 疫学専門家 (@iznaiy_emjawak) 2022年4月25日

はじめに — Python早見帳

100本ノック

GitHub - rougier/numpy-100: 100 numpy exercises (with solutions)

GitHub - The-Japan-DataScientist-Society/100knocks-preprocess: データサイエンス100本ノック（構造化データ加工編）

qiita.com

2023-01-31

口頭発表資料作成のポイントリンク集

その他 Tips

随時追加します。Tweetはクリックするとスレッドが読めます。

そろそろ卒業研究発表の準備をされる方も多いことかと思います。発表の準備について何らかの参考になれば幸いです。https://t.co/tctTwZFl8K
— Takayuki Itoh (@1t0ocha) 2021年1月12日

Knowing how to give a good talk is a crucial skill to have, but it's mostly not formally taught very well. Here's a 🧵on my strategy for how to prepare for the presentation, actually present it, and then answer the questions.
— Itai Yanai (@ItaiYanai) 2022年11月30日

Palmsonntagmorgen

NGSデータを使った解析と、その周辺。

記事一覧

Linux一般

解析環境構築

Docker・Singularity

データ生成

fastqデータ取得

ゲノムマッピング

マップデータ操作

ChIP-seq解析: DROMPA

ChIP-seq解析: 品質評価

ChIP-seq解析: ピークを入力とする操作

RNA-seq解析:

その他:

aria2を使ってENAから高速にfastq.gzを取得する

ENAから fastqファイルを取得する

ENAから wget を使ってfastqファイルを一括取得する

aria2を使ってfastqファイルを一括取得する

終わりに

Linux command Tips

フリー素材・イラストデザインなど

無料公開されている講義資料など

データ分析

機械学習

Deep learning

強化学習

Transformer/BERT

時系列分析

Bioinformatics

Analysis Tips

Data Visualization

Data analysis

R analysis

Python analysis

100本ノック

口頭発表資料作成のポイントリンク集