Palmsonntagmorgen

NGSデータを使った解析と、その周辺。

Linux

aria2を使ってENAから高速にfastq.gzを取得する

1論文あたりで用いられるデータが年々増加しており、論文の再実験をするためにFASTQをダウンロードするのもなかなか苦労しますよね。 以下の記事でENAからwgetを使ってfastqを取得する方法を紹介していますが、 rnakato.hatenablog.jp 今回はその高速版です…

Linux command Tips

qiita.com

Docker daemonが ルートディレクトリの容量を圧迫するのを回避する

Dockerのイメージを大量にビルドなどしていると、気づくとルート(/)の容量がいっぱいになっていることがあります。 $ df -h ファイルシス サイズ 使用 残り 使用% マウント位置 udev 126G 0 126G 0% /dev tmpfs 26G 2.5M 26G 1% /run /dev/sda3 275G 273G 0 …

Linux ワンライナー覚書

スクリプトなどを用いずにLinuxのCUIコマンドのみで一行で行う処理(またはその処理を行うコマンド)のことをワンライナーと呼びます。 ここではゲノム解析に使うワンライナーを順次追加していきます。 一般的なファイル操作 $ ls workdir/ # workdirに含ま…

chromapを試す(その1)

chromapは高速・高精度にリードをゲノムにマップするツールです*1。 既存ツールのbwaやbowtie2よりも遥かに高速だとのことなので、ここではChIP-seqデータを用いて使用法及び速度・精度面を確かめてみたいと思います。 chromapについて chromap は minimap2*…

SSHその3 ssh の設定を保存 (.ssh/config)

SSHの記事その3です。ここまでの流れは以下の記事を参照してください。 rnakato.hatenablog.jp rnakato.hatenablog.jp 「その2」の記事で、 .ssh/configに以下を記入することでサーバ間のssh, scpをする際に秘密鍵、パスワードの入力が不要になると述べま…

SSHその2 ssh のパスワード入力を省略 (ssh-agent)

諸事情によりまたしばらく基礎的な内容になります。 クラウドサービス含め、サーバに接続する時にはセキュリティ面を考えて公開鍵方式のSSHを利用するのが一般的です。 公開鍵については過去に記事にしています。 rnakato.hatenablog.jp しかしサーバに接続…

2つのファイルの共通行を抽出する

前回に続き、今回も小ネタです。 2つの遺伝子リストファイルがあって、2ファイル間で共通する遺伝子名がいくつあるか調べたいとします。 $ ls genelist1.txt genelist2.txt $ cat genelist1.txt RNA5SP516 AC092299.1 EML3 ZNF492 AC093063.1 DDX17 SRIP1 …

shuf: テキストファイルの行をランダム抽出

shufは入力行をシャッフルして出力するコマンドです。 【 shuf 】コマンド――入力行をシャッフルして出力する:Linux基本コマンドTips(112) - @IT このshufに -nオプションを追加すると出力する行数を指定できます。これにより、たとえば「ピークファイル(…

sortコマンドの使い方(ファイルのソート)

以下の記事の中で、sortコマンドについて触れていました。 rnakato.hatenablog.jp 多くのコマンドはsorted BEDを要求しますので、事前に以下のコマンドで全てのBEDをソートしておくとストレスがないかと思います。 $ sort -k1,1 -k2,2n in.bed > in.sorted.b…

【Linux】リダイレクトとパイプ

リダイレクト > 記号を使うことで、ターミナルに出力される文字列をファイルに保存することができ、これをリダイレクトといいます。 $ echo aaa bbb aaa bbb $ echo aaa bbb > text.txt # echo aaa bbb の結果を text.txt に保存する $ cat text.txt aaa bbb…

【Linux】【Ubuntu】パッケージ管理コマンドあれこれ(11/21追記)(2021/6/18追記)

今日はUbuntuのパッケージ管理についてです。 (11/21 alien について追記) apt / apt-get / aptitude 全て同じです。 最初にあったのは apt-get です。これはUbuntuの親にあたるDebianにおけるパッケージ管理システムです。 その後 aptitudeに移行しようと…

【Linux】文字列の検索・置換

現在、研究室用の新人教育ページを作っているのですが、せっかく作ったので一部転載。 文字列を検索・置換するLinuxコマンドです。 grep: 文字列の検索 対象ファイルから特定の文字列を含む行だけを表示します。 $ grep hogehoge sample.txt # sample.txtの…

Singularityを使ったDocker環境の利用が楽ちんという話 (2022/3/13, 2022/4/12追記)

今回も解析環境構築にまつわるお話です。 結論を先に書くと、Docker使うならSingularityオススメ! Singularityとは 7月に書いた下記エントリでは、Dockerを使うメリットについて簡単に説明しました。 rnakato.hatenablog.jp 一方、Dockerにはいくつか不満な…

【Win】【Mac】【Linux】Dockerのインストール 【2019年7月現在】

Dockerベースで提供されるパッケージの割合が目に見えて増えてきたように感じるので、簡単なまとめ。 Dockerとは Dockerとはマシン上に違うマシンを立ち上げるための仮想化技術です。 WindowsやMac上でLinux環境を立ち上げたり、Linux上に異なる複数のLinux…

SSH公開鍵の生成・設定の方法

たかが公開鍵、されど公開鍵。「公開鍵 生成」でググるとたくさん出てくるんだけど、やり方が色々ありすぎて新人に適当に検索させるとあれこれ迷ってしまうので、ここにまとめておきます。 参考記事 【手順つき】SSHの公開鍵認証のやり方 Linuxコマンド【 ss…

マッピング: CRAM形式を試す

マップデータの形式にはSAM, BAMの他にCRAMという形式があります。 https://www.ga4gh.org/news/cram-compression-for-genomics/ CRAMはBAMと比べて更に高圧縮率だそうです。 今まであまり使う機会が無かったのですが、Twitterで Ewan Birneyさんが強く推し…

【Ubuntu 18.04】 Rのバージョンを3.5.2にアップグレード

最近知ったツールがRの3.5以上を要求しているのだが、手元のUbuntu 18.04はRが3.4.4 だったので、3.5にアップグレードしました。 以下備忘録。 やってることは、aptで参照されるレポジトリにR3.5を含むレポジトリを追加した上で改めてRをインストールすると…

HISAT-StringTie-Ballgown を試してみよう その2

前回の記事の続きです。 HISAT-StringTie-Ballgown を試してみよう - Palmsonntagmorgen 発現量データ生成 前回の記事で発現量データを生成するのを忘れていたので、ここで生成します。stringtieを使います。 for prefix in ERR188044 ERR188104 ERR188234 E…

HISAT-StringTie-Ballgown を試してみよう

せっかくNature Protocolの論文があるので試してみよう企画。 Nature Protocolはスクリプトがそのまま載っているので、追試に最適です。 一方、古いライブラリが指定されていると手元の環境で動かなかったり、著者のレベルによってへんてこなスクリプトにな…

2サンプル間ピーク比較

2つのサンプルから得られたピークセットがどのくらい重なるのか調べたい!という時の方法です。 今回はBEDtoolsを使うやり方と、拙作のcompare_bsを使うやり方を紹介します。 ピークデータのダウンロード ピークはBED形式であれば何でもよいのですが、ここ…

GitHubからプログラムをダウンロード・インストール

NGS解析のための新規ツールは日々論文で発表されており、それらのほとんどは世界中の人が無償で利用可能なライセンス形態になっています。 今日はその中でも多くの人に利用されている「GitHub」に公開されたツールのインストール方法を紹介します。 オープン…

LiftOver: BEDファイルを異なるbuildへ変換

公開されているゲノム配列は現在も更新中であるため、いくつかのバージョン (build) があります。 humanだとhg18, hg19, hg38などがあり、hg38が現時点で最新です。 NGS解析をするうえでは全ての解析データのbuildを統一する必要がありますが、「既存論文の…

S/N比の評価手法 その4 SSP

時間がかかってしまいましたが、やっとSSPの登場です。 この記事は以下の記事の続きです。 S/N比の評価手法 その1 - Palmsonntagmorgen S/N比の評価手法 その2 Cross-correlation profile - Palmsonntagmorgen S/N比の評価手法 その3 deepTools - Palmsonnt…

S/N比の評価手法 その1

私が開発したChIP-seqの品質評価ツール"SSP"の論文がBioinformatics誌にアクセプトされました。 Sensitive and robust assessment of ChIP-seq read distribution using a strand-shift profile | Bioinformatics | Oxford Academic 本論文はbioRxivでも無料…

BEDtoolsワンライナー覚書

BEDtoolsの作者は開発熱心なので、できることがどんどん増えているような気がします。 手元のバージョンはv2.27.1です。 前準備 多くのコマンドはsorted BEDを要求しますので、事前に以下のコマンドで全てのBEDをソートしておくとストレスがないかと思います…

DROMPA3: その6 ChIP/Input ratio 及び p値の可視化

リード分布の可視化の続きです。 このエントリは↓の記事の続きになりますので、まだ読んでいない方は先にこちらを参照してください。 DROMPA3: その4 マップリード分布の可視化その1 - Palmsonntagmorgen Input readの可視化 前回はChIPサンプルのみを可視化…

DROMPA3: その5 シェル変数を使う

今日はシェル変数について。 前回の記事の「複数サンプルの可視化」の項で、以下のコマンドを実行しました。 $ drompa_draw PC_SHARP \ $ -i parse2wigdir/H3K4me3,parse2wigdir/Input,H3K4me3 \ $ -i parse2wigdir/H3K27me3,parse2wigdir/Input,H3K27me3 \ …

SAMtoolsワンライナー覚書

順次追加するかも。versionは1.5です。 .sort.bam はソート済BAMを表します。 SAM -> BAM 変換 $ samtools view -bS sample.sam > sample.bam BAM -> SAM 変換 $ samtools view -h sample.bam > sample.sam BAMをソート $ samtools sort sample.bam > sample…

環境変数PATHの通し方

同内容の記事はたくさんありますが、やはり避けては通れないので… 環境変数PATHとは githubなどからツールを新たにダウンロードした場合、その実行ファイルを起動するには実行ファイルのありかを直接指定する必要があります。 $ ./bowtie2-2.2.9/bowtie2 の…