PCC-GAN:3DポイントベースのコンテキストクラスタGANによる高品質PET画像再構成

GAN（敵対的生成ネットワーク） 2024年03月28日

3つの要点
✔️ 低線量PET (LPET) 画像から標準線量PET (SPET) 画像を再構成
✔️ 3DポイントベースのコンテキストクラスタGAN、｢PCC-GAN｣を提案
✔️ PCC-GANが質的にも量的にも最先端の再構成手法を上回ることを実証

Image2Points:A 3D Point-based Context Clusters GAN for High-Quality PET Image Reconstruction
written by Jiaqi Cui, Yan Wang, Lu Wen, Pinxian Zeng, Xi Wu, Jiliu Zhou, Dinggang Shen
(Submitted on 1 Feb 2024)
Comments: Accepted by ICASSP 2024
Subjects: Image and Video Processing (eess.IV); Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

近年、放射線被曝を最小限に抑えながら高品質の陽電子放出断層撮影 (PET) 画像を取得するために、低線量PET (LPET) 画像から標準線量PET (SPET) 画像を再構成する方法が数多く提案されています。しかし、これらの方法はボクセルベースの表現に大きく依存しているため、正確な構造 (各器官・組織のサイズや境界など) や微細なコンテキスト (異なる臓器・組織間の関係や相互作用など) を十分に考慮することができないという課題が生じます。

そこで本論文では、LPET画像から高品質のSPET画像を再構成するための3次元点ベースのコンテキストクラスタGAN、すなわちPCC-GANが提案されています。このPCC-GANは、3次元PET画像の複雑な構造を明示的に保存できる点ベース表現を用いることで、より鮮明な再構成を実現します。さらに、点間の文脈的関係を探索するためにコンテキストクラスタリングを適用することで、再構成された画像内の小さな構造の曖昧さを緩和しています。

最後に臨床データセットとファントムデータセットの両方を用いた実験により、本論文の提案手法であるPCC-GANが質的にも量的にも最先端の再構成手法を上回ることが実証されました。

PCC-GAN

PCC-GANの全体像はFig.1に示すように、階層的生成器 (Generator) と点ベース識別器 (Discriminator) から構成されます。

生成器ではまず点構築によりLPET画像を点に変換し、4つのコンテキストクラスタ (CoC) ブロックと4つの転置コンテキストクラスタ (TCoC) ブロックをそれぞれ用いて、LPETとSPETの間の残差点を生成します。次に、これらの残差点をLPET点に加え、予測PET点を生成します。その後、予測された点は点回帰により画像に戻され、生成器の出力、すなわち推定PET画像 (EPETと表記) が得られます。最後に点ベース識別器は、本物/偽物のPET画像ペアを入力とし、点の観点からその真偽を判定します。

Points Construction

画像と点の間の視差を考慮し、まず、入力された3D LPET画像を点構築によって点の集合に変換します。ここで、LPET画像を $x∈ℝ^{C×H×W×D}$ ($C$はチャネル数、$H、W、D$は高さ、幅、奥行き)とします。

まず、$x$ を点集合 $e_p∈ℝ^{C×n} (n=W×H×D)$ に変換します。続いて、明示的な構造情報を組み込むために、点の3次元幾何座標 $e_c∈ℝ^{3×n}$ を $e_p$ に連結します。これにより入力LPET画像に対応する点集合 $e_0=\{e_p,e_c\}∈ℝ^{d_0×n_0} (d_0=C+3)$ が得られます。

このように、各点は元の特徴 (テクスチャやエッジなど) だけでなく、明示的な幾何学的構造情報も含んでいます。得られた $e_0$ はさらにCoCブロックに送られ、文脈上の関係を発掘します。

CoC Block

・Points Reducer

マルチスケール情報の利用を容易にしながら計算オーべーヘッドを削減するために、各CoCブロックの最初に点の数を削減しています。

$i$ 番目のCoCブロックに対して、Points Reducerでは前のブロックの出力 $e_{i-1}∈ℝ^{d_{i-1},n_{i-1}}$ を入力として受け取り、点空間内のアンカー $A (A=32,16,8,4)$ を均等に選択します。

次に、各アンカーについてその$k$近傍点が選択され、チャネル次元に沿って連結され、線形射影によって融合されます。

最後に、新しい点集合 $f_i∈ℝ^{d_i×n_i}$ が得られます。ただしその点数はアンカーの数 ($=d$) と同じです。

このようにして点数は8倍になり、次元はレイヤーごとに2倍になります。

・Context Clustering

-Clusters Generating:

点集合 $f_i$ が与えられたとき、文脈上の親和性に基づいて全ての点をグループ化します。

まず、従来のSuperPixel法であるSLICに従い、$f_i$ の点空間においてクラスタ $c$ の中心を提案し、$f_i$ の各点と提案された全ての中心との間のペアワイズ余弦類似度を計算します。その後、$f_i$ の各点を文脈的に最も類似した中心に割り当て、クラスタ $c$ を得ます。

各点は元の特徴と幾何学的構造的知識の両方を含むので、類似度計算により文脈的親和性だけでなく構造的局所性も強調され、文脈的関係と構造的関係の両方の探索が促進されるようになります。

-Points Aggregating:

文脈上の関係をさらに強調するために、クラスタの中心に対する文脈上の親和性に基づいて、各クラスタ内のすべての点を動的に集約します。

クラスタが $M$ 個の点で構成され、クラスタの点空間における中心を $v^c_i$ と仮定すると、クラスタ内の点は $V_i=\{v_{i,m},s_{i,m}\}^M_{m=1}∈ℝ^{M×d_i}$ と表せます。

集約点 $g_i∈ℝ^d_i$ はクラスタ内の点の中心 $v^c_i$ に対する文脈類似度加重和であり、次式で定式化されます。

ここで、$\alpha$ は類似度をスケーリングおよびシフトするための学習可能なパラメータであり、$sig(-)$ はシグモイド活性化関数を意味し、$C$ は正規化係数です。

このように、文脈の親和性に応じて各点を集約することで文脈の関係を正確に記述することができ、きめ細かな文脈を持つコンパクトな表現を得ることができます。

-Points Dispatching:

集約された点 $g_i$ は文脈の類似性によってクラスタ内の各点に適応的に割り当てられることで、点間の相互通信が促進され、クラスター全体の構造的・文脈的情報を集合的に共有できるようになります。特に、ある点 $v_{i,m}$ に対して次のように更新します。

これらの手順によって明示的な構造と細かなコンテキストが効率的に探索され、最後に $i$ 番目のブロックの出力 $e_i∈ℝ^{d_i×n_i}$ が得られます。

TCoC Block

TCoCブロックの構造はCoCブロックの構造と酷似しています。唯一の違いは、CoCブロックは点の数を減らすためにPoints Reducerを利用するのに対して、TCoCブロックでは点の数を増やすためにPoints Expanderを利用する点です。

Points Reducerとは非対称的に、Points Expanderでは点集合のすべての点をアンカーとして扱います。各アンカーに対して線形射影層が適用され、そのチャネル次元が $k$ のファクターだけ拡大されます。その後、チャネル次元に沿って $k$ 個の点に分割され、アンカーの周囲に一様に配置されることにより、コンテキストクラスタリングによってさらなる処理を受ける拡大点セットが作成されます。

以上のように、TCoCブロックの導入によって点の拡張と復元が可能になります。さらに、CoCブロックによって抽出された補完情報を利用するために、TCoCブロックの出力を対応するCoCブロックに追加する残余接続が利用されます。

最終的に、最後のCoCブロックはLPETとSPETの間の残差点を出力し、それはLPET点 $e_0$ に追加され、さらに画像に戻され、生成器の最終出力、すなわちEPET画像を生成します。

Points-based Discriminator

画質を向上させるために、入力画像のペアの真偽を判定するための点ベースの識別器を組み込んでいます。

ボクセルパッチの形で3次元画像を識別する従来のパッチベースの識別器とは異なり、PCC-GANの識別器は点の観点から画像の真偽を判定します。

まず、本物/偽物のPET画像ペア (LPET画像と、それに対応する本物のSPET画像または偽物のEPET画像) を入力とし、点構築 (Points Construction) によって画像を点に変換し、次に4つのCoCブロックを用いてより識別性の高い構造知識を学習します。最後に、入力が本物かどうかを判定するためにシグモイド関数を適用しています。

この点ベースのネットワークは、点固有の利点を活用することで、実画像と再構成画像の間の構造的な不一致をよりよく識別することができ、生成器へ有益なフィードバックを提供することができます。

目的関数

PCC-GANの目的関数は、推定誤差損失と敵対的損失で構成されてます。

推定誤差損失は、再構成されたEPET画像 $G(x)$ と実SPET画像 $y$ の間の類似性を高めるために、次式で表されるL1損失が適用されてます。

さらに、実SPET画像とEPET画像の間のデータ分布の一貫性を維持するために、次式で定義される敵対的損失が導入されています。

全体としてPCC-GANの目的関数は以下のように定式化されます。ただし $\lambda$ は2つの項のバランスをとるためのハイパーパラメータです。

実験

データセット

臨床データセットには、8人の正常対照 (NC) 被験者と8人の軽度認知障害 (MCI) 被験者のPET画像が含まれています。SPET画像は12分間で取得した画像データを使用し、LPET画像は標準線量の4分の1をシミュレートするために3分間に短縮して取得した画像データを使用しています。

ファントムデータセットには、BrainWebデータベースから取得した20人の模擬被験者が含まれており、LPET画像は通常のカウントレベルの4分の1でシミュレートして得られた画像データを使用しています。

両データセットのPET画像のサイズは128×128×128であり、各3D画像からサイズ64×64×64のオーバーラップしたラージパッチを729個抽出しています。また、より偏りのない性能評価を得るために、学習時にleave-one-out cross-validation (LOOCV) を行っています。

結果

PCC-GANを、Auto-Context、Hi-Net、Sino-cGAN、M-UNet、LCPR-Net、Trans-GANを含む6つの最先端のPET再構成アプローチと比較した結果、臨床データセットとファントムデータセットでの定量的比較結果はそれぞれTable.1とTable.2のようになりました。

Table.1とTable.2より、両データセットにおいてPCC-GANが比較的少ないパラメータで、全ての評価基準の中で最良の結果を達成していることが確認できます。

さらにFig.2の視覚化は、PCC-GANによって生成された画像が、最小の誤差で最良の視覚効果をもたらすことを示しています。これらの結果はすべて、正確なSPET画像を予測する上でPCC-GANが最も優れていることを示しています。

本論文ではPCC-GANの臨床的価値を証明するために、さらに下流タスクとしてアルツハイマー病診断実験を臨床データセット上で行っています。Fig.3に示すように、PCC-GANの分類精度 (88.9%) は、SPET画像の分類精度 (90.0%) に最も近く、PCC-GANが疾患診断において大きな臨床的可能性を持つことを示しています。

おわりに

本論文では、LPET画像から高品質のSPET画像を再構成するために、3次元点ベースのコンテキストクラスタGAN、PCC-GANが提案されました。点の幾何学的表現を利用することで、PCC-GANは3次元PET画像の複雑な構造を明示的に保持し、鮮明鮮明な再構成を実現しました。また、コンテキストクラスタリングを利用することで、きめ細かな文脈的関係を探索し、小さなサイズの構造の曖昧さや欠落を軽減しました。さらに広範な実験により、PCC-GANの優位性が実証されました。

提案されたPCC-GANの特に素晴らしい点は、点の幾何学的表現を活用したアプローチによって、従来の手法では達成困難だったクリアな再構成を可能にしたことだと感じました。将来的には、この手法が臨床現場での実用化に向けてどのように進展していくかが楽しみであり、本研究の成果がさらなる発展を拓く可能性を感じます。