Palmsonntagmorgen

NGSデータを使った解析と、その周辺。

S/N比の評価手法 その1

私が開発したChIP-seqの品質評価ツール"SSP"の論文がBioinformatics誌にアクセプトされました。

Sensitive and robust assessment of ChIP-seq read distribution using a strand-shift profile | Bioinformatics | Oxford Academic

本論文はbioRxivでも無料公開されています。

Sensitive and robust assessment of ChIP-seq read distribution using a strand-shift profile | bioRxiv

SSPは、ChIP-seqサンプルのS/N比の計測の他、得られたピークの信頼性、ピークのモード(sharp/broad)の評価などが可能です。

論文出版記念ということで、このSSPの利用法とメリットについて解説したいと思いますが、そのためにはまず、ChIP-seqサンプルのS/N比計測のための既存手法について解説する必要がありますので、今回はそれについて述べます。

S/N比

S/N比(signal-to-noise ratio)は抗体の力価を表しますが、ChIP-seq解析においては「ゲノム全体でどの程度ピークが得られているか」を表します。平たく言えば、そのサンプルから得られたピークの総数及び強度(ピークの高さ)の程度です。
例えば同一細胞種・同一抗体で生産したreplicate間でもテクニカルな要因により得られるピーク数が大きくばらつく場合がありますが、この場合S/N比が異なるサンプルと表現します。 当然ながらChIPサンプルはたくさんピークが取れていて欲しいのでS/N比は高い方が良く、Inputサンプルはピークが多い=ノイズが多いことを意味しますのでS/N比が低い方が望ましいです。

このS/N比の計測手法については、簡単なようで色々と問題点があり、全てのサンプルに対して適用可能な方法が今まで存在しませんでした。SSPはこれらの課題をクリアすべく開発したものです。以下、詳細です。

S/N比の計測手法

最も簡単なS/N比の計測手法は「ピークの数をカウントする」というものですが、これは同一抗体を使った場合のように、ピークの形がサンプル間で共通であるという前提が必要になります。例えばH3K4me3とH3K36me3のようにsharpなピークとbroadなピークを持つサンプルは、単純なピーク数では比較できません。また、broadなピークを持つサンプルでも「broadさ」はかなり違いますので、broad-broad間でもやはり比較できません。

そこで、FRiP (fraction of reads in peaks) というスコアが提案されました*1。 これもやはり単純で、「得られたピーク領域内にマップされたリード数の全マップリード数に対する割合」を表します。 マップリード数が100万で、ピーク領域内にマップされたリード数が20万であれば、FRiPの値は0.2になります。スコアが高いほどS/N比が高いことになります。
この方法だとサンプル間のピーク形状の違いを吸収することができますが、ピークの数と強度は区別できません。 つまり、「ピーク数は少ないが強度が強いサンプル」と「ピーク数は多いが強度は弱いサンプル」が同じFRiPスコアを持つことはあり得ます。

更に、ピーク数にしろFRiPにしろ、共通の問題点があります。それは、得られるスコアの値がピーク抽出ツールやマップリード数に依存するということです。
これらのスコアは実際に得られたピーク数に基づいて計算しますが、ピーク数はピーク抽出の方法を変えれば当然変化します。例えばInputサンプルを用いた場合と用いない場合では、得られるピークセットは大きく変わるでしょう。異なるInputサンプルを使った場合でもピーク数は変わるかもしれません。「ざっくり知ることができれば十分」という場合は別によいのですが、厳密に評価したい場合には問題です。
また、同一のサンプルでもリード数を増やせば増やすほど統計的有意になる領域が増えるため、得られるピーク数もそれに伴って増加します。従って、FRiPの値をサンプル間で比較する際にはサンプル間であらかじめリード数を統一する(ダウンサンプリングする)必要があります。ダウンサンプリングは時間的にも手間的にも面倒で、サンプル数が多い場合には極めて大変です。が、逆にそういった大規模な解析(データベース作成など)ほどS/N比の計測など品質評価を行いたいわけです。可能であれば、ツールやリード数に依存しないS/N比評価を可能にしたいのです。

そこでCross-correlation profileが登場するのですが、長くなってしまいましたので、日を改めて書きたいと思います。 ちなみに今日書いたような品質評価の話は私が以前執筆したレビュー論文*2によくまとまっていますので(自画自賛)より詳細が知りたいというかたは参照されてください。

*1:Landt, S. G. et al. (2012). ChIP-seq guidelines and practices of the ENCODE and modENCODE consortia. Genome Res, 22(9), 1813–31.

*2:Nakato, R. and Shirahige, K. (2017). Recent advances in ChIP-seq analysis: from quality management to whole-genome annotation. Brief Bioinform, 18(2), 279–290.