Hi-Cを用いたゲノム立体構造解析

書籍「エピゲノム情報解析」を出版しました！みんな買ってね！

www.coronasha.co.jp

本記事は書籍出版記念更新その２として、本書籍で紹介しているHi-Cを用いたゲノム立体構造解析について書いてみたいと思います。

Hi-C解析について

NGSを用いたゲノム立体構造解析には様々な種類があり、おおまかには以下のように分類できます。

全ゲノム的な相互作用を対象とした手法：Hi-C, Micro-C, Omni-Cなど
特定のタンパク質結合を介したクロマチンループ抽出を対象とした手法：ChIA-PET, Hi-ChIP, PLAC-seqなど
タンパク質を定めずにプロモーター・エンハンサーなどのゲノム間相互作用を抽出する手法：Capture-Hi-C (Capture-C)、Micro-Capture-Cなど

これらの手法をもとにした変種のアッセイも数多く提案されていますが、基本的には上の３つの分類に集約されます（シングルセル立体構造解析は本記事では割愛します）。

2.と3.は直接的な立体相互作用である「クロマチンループ」の検出に特化した手法です。 TADやコンパートメントなど、より巨視的な立体構造を見る場合には1.を利用する必要があります。漠然と「ゲノム立体構造解析」と言う場合には1.を指すことが多く、その中でもHi-Cが最も一般的でよく用いられている（公開データも豊富である）ので、書籍「エピゲノム情報解析」ではHi-Cにフォーカスして情報解析の各ステップを解説しました。

実際、Hi-C, Micro-C, Omni-Cなどの亜種は基本的にゲノムの断片化が異なるだけであり、情報解析部分ではほとんど同一のワークフローで良いため、Hi-Cについて理解すれば基本的に十分です。

コンタクトマップ

Hi-C解析では以下のようなコンタクトマップを図示しながら議論することが一般的です。立体構造解析に携わっていなくても、この図を見たことがある人は多いでしょう。 Hi-Cに関するあらゆる解析法は、このコンタクトマップを入力としてスタートします。

私がHi-C解析で一番最初に感じた疑問は「四角形の図と三角形の図は何が違うのだろう？」というものでしたが、実際には全く違いはありません。コンタクトマップは対称行列であるため、上三角部分だけを可視化しても情報量は変わりません。可視化にどちらを使うかは著者の好みによります。

Hi-C解析パイプライン

世界的に利用されているHi-C解析パイプラインは以下のようなものがあります。

Juicer (juicertoolsを含む)
Cooler (cooltools, pairtoolsなどを含む)
Hi-C Pro
HOMER

中でもJuicer、Coolerが最も有名であり、このどちらかを使うのが基本的には間違いありません。 ENCODE ProjectではJuicer, 4DN projectではCoolerが採用されています。

Hi-C Proは既に開発が止まっていますが、導入が簡単であることから利用される人が多い印象です。 FitHiChIPというHi-ChIP用のループ検出ツールはHi-C Proをデフォルトに採用しています。

HOMERはモチーフ検出ツールとして使っている方が多いと思いますが、Hi-C解析にも使えます。こちらも導入が簡単で初心者向きですが、精度面が十分確認されていないためこの業界（？）ではあまり利用されません。

これら以外にもHiCExplorer, FAN-Cなどのパイプラインが存在しますが、これらは上記のパイプラインのどれかを内部的に動かしており、オリジナルのものではありません。

なお私もCustardPyというパイプラインを2023年に発表し、研究室内で利用していますが、これはメインエンジンにJuicerを使いつつ、他のツール群も使えるようにした汎用パイプラインです。需要があればCustardPyの使い方などもこのブログで紹介していきたいと思っています。

どのパイプラインが一番よいのか

Hi-Cで最も有名な（引用数の多い）論文に以下の２つがあります。

Comprehensive Mapping of Long-Range Interactions Reveals Folding Principles of the Human Genome (Lieberman-Aiden et al, Science, 2009)
A 3D Map of the Human Genome at Kilobase Resolution Reveals Principles of Chromatin Looping (Rao et al, Cell, 2014)

１つめは最も初期のHi-C解析論文であり、コンパートメントという構造単位を提唱した論文です。２つめはGM12878細胞を用いて超高解像度のHi-Cデータを生成した論文で、このGM12878データは以降のHi-Cツール論文に非常によく用いられています。

この２つの論文を出版したErez Lieberman-Aiden がJuicerの作者であり、Juicerは上記論文の概念を反映した設計になっています。従って、これらの論文で提案された解析を踏襲する場合にはJuicerが第一選択肢になります。そのため私のCustardPyでもJuicerを第一エンジンに用いていました。

しかしながら、Juicerは最近開発が止まっており、従って最新の知見は取り入れられていないものと思われます。例えば制限酵素を用いないMicro-C解析には直接用いることができません。また、Java言語を用いて作られており、内部がブラックボックス的であること、バージョン間で非互換であり、異なるバージョンで生成された.hicファイルを読み込ませるとエラーになるということもよく起こります。

2025年時点で最も精力的に更新が続けられているのはCoolerシリーズであり、Open2Cというコミュニティによってオープンな開発がなされています。最近も以下のような論文が出されました。

Pairtools: From sequencing data to chromosome contacts (Open2C et al, PLOS Computational Biology, 2024)
Cooltools: Enabling high-resolution Hi-C analysis in Python (Open2C et al, PLOS Computational Biology, 2024)

これらはPythonで書かれており、APIも充実しています。オープンサイエンスの精神を最も反映していると個人的には感じており、CustardPyの最新版（v3.0.0予定）ではCoolerをメインエンジンにするために大幅な更新を行う予定です。

まとめ

Hi-C解析ツールなどについて簡単に紹介しました。 Hi-C解析自体にはほとんど触れていませんが、機会があればこのブログでも簡単に紹介したいと思っています。

なお、日本国内でのHi-C解析コミュニティはなかなか大きくならないのですが、個人的にはもっと盛り上がって欲しいと思っています。それでHi-C研究会という名前の研究会を開催して、お互いに意見と知見を交換する場を作ったりしています。クローズドのコミュニティですが、誰でも参加歓迎ですので、もし参加されたい人がいましたらいつでもご相談ください。

Palmsonntagmorgen

NGSデータを使った解析と、その周辺。

Hi-Cを用いたゲノム立体構造解析

Hi-C解析について

コンタクトマップ

Hi-C解析パイプライン

どのパイプラインが一番よいのか

まとめ