Palmsonntagmorgen

NGSデータを使った解析と、その周辺。

DROMPA3: その6 ChIP/Input ratio 及び p値の可視化

リード分布の可視化の続きです。 このエントリは↓の記事の続きになりますので、まだ読んでいない方は先にこちらを参照してください。

DROMPA3: その4 マップリード分布の可視化その1 - Palmsonntagmorgen

Input readの可視化

前回はChIPサンプルのみを可視化しましたが、Inputサンプルのリード分布を並列して可視化することもできます。 以下のように、-show_itag 1 を付加して可視化しましょう。

drompa_draw PC_SHARP \
-i parse2wigdir/H3K4me3,parse2wigdir/Input,H3K4me3,,,200 \
-i parse2wigdir/H3K27me3,parse2wigdir/Input,H3K27me3,,,10 \
-i parse2wigdir/H3K36me3,parse2wigdir/Input,H3K36me3,,,10 \
-p K562_1 -gene refFlat.txt -gt $gt -chr 1 -lpp 2 -show_itag 1 -rmchr

f:id:rnakato:20171221163620p:plain

各ChIPサンプルの下に、対応するInputサンプルのリード分布が表示されるようになりました。 Inputサンプルのy軸のスケールはChIPサンプルで指定したものに準拠します。

今回の例の場合はInputサンプルは3サンプル共通ですので、別々に表示する必要はありません。 -show_itag 2として、最下段にのみInputサンプルを表示するようにしましょう。

drompa_draw PC_SHARP \
-i parse2wigdir/H3K4me3,parse2wigdir/Input,H3K4me3,,,200 \
-i parse2wigdir/H3K27me3,parse2wigdir/Input,H3K27me3,,,10 \
-i parse2wigdir/H3K36me3,parse2wigdir/Input,H3K36me3,,,10 \
-p K562_2 -gene refFlat.txt -gt $gt -chr 1 -lpp 2 -show_itag 2 -rmchr

f:id:rnakato:20171221163809p:plain

すっきりと表示することができました。なお、Inputサンプルがサンプル毎に異なる場合に-show_itag 2を付加すると、最初に指定されたInputサンプルを代表として可視化します。

ChIP/Input ratio, p値の可視化

DROMPAはリード分布を可視化するだけではなく、ChIP/Input ratio, ピークコールに使った二種類の検定のp値(こちらの記事参照)も可視化することができます。

  • -showratio 1で ChIP/Input ratio,
  • -showpinter 1 でChIP internal p-value,
  • -showpenrich 1 でChIP/Input enrichment p-valueをそれぞれ可視化します。

それではすべてを可視化してみましょう。段数が多くなるので、-lppの値を1に変えました。

drompa_draw PC_SHARP \
-i parse2wigdir/H3K4me3,parse2wigdir/Input,H3K4me3,,,200 \
-i parse2wigdir/H3K27me3,parse2wigdir/Input,H3K27me3,,,10 \
-i parse2wigdir/H3K36me3,parse2wigdir/Input,H3K36me3,,,10 \
-p K562_3 -gene refFlat.txt -gt $gt -chr 1 -lpp 1 -show_itag 2 -rmchr \
-showratio 1 -showpinter 1 -showpenrich 1 

f:id:rnakato:20171221164459p:plain

それぞれのサンプルについて、上から ChIP internal、ChIP/Input enrichment p-value、ChIP/Input ratio、ChIP readの順に表示されています。 2種類のp値は-log10(p)の値に変換されています。すなわち、例えばp=0.01の場合は値が2になります。
それぞれのパラメータについて、設定された閾値を上回る領域は赤色、それ以外の領域は灰色で表示されます。上記コマンドではデフォルト設定のため、

  • ChIP internal p < 1e-4
  • ChIP/Input enrichment p < 1e-4
  • ChIP/Input ratio > 0

の領域がそれぞれ赤で表示されます。なお、全ての閾値をクリアした領域、すなわちピーク領域はChIP readのラインが赤色になります*1

このような表示は、適切な閾値の推定に役立ちます。例えばH3K27me3やH3K36me3のサンプルは、濃縮領域と思われる領域が緑色になっており、ピークとして検出されていません。p値のラインを見ると、 ChIP internalの閾値はクリアしているが、ChIP/Input enrichmentのp値が閾値を下回っていることがわかります。従ってこの領域をピークとして検出できるように閾値を緩めたい場合は、ChIP/Input enrichmentの閾値-pthre_enrich)を緩めればよいことになります。 DROMPA PC_SHARPのデフォルトパラメータはH3K4me3のようなstrong sharp peakに最適化されていますので、broad peakやS/N比の弱い抗体などを使った場合は、閾値を緩めた方が良い結果が得られるでしょう。

*1:厳密には、可視化ではq値を考慮していないため、実際に出力されるピークリストと赤色でハイライトされる領域が微妙に食い違う場合があります。また、可視化領域に対してピーク領域が微小すぎる場合、赤色がつぶれて見えなくなる場合があります。