W &Dによる医療画像分析

転移学習 2022年07月16日

3つの要点
✔️ W&D(ワイド＆ディープネットワークモデル)を用いて前立腺がんの画像分析診断技術の向上
✔️ 既存の機械学習モデルよりも高い精度での画像分類を実現
✔️ W&Dの汎用性の高さを証明

Wide & Deep neural network model for patch aggregation in CNN-based prostate cancer detection systems
written by Lourdes Duran-Lopez, Juan P. Dominguez-Morales, Daniel Gutierrez-Galan, Antonio Rios-Navarro, Angel Jimenez-Fernandez, Saturnino Vicente-Diaz, Alejandro Linares-Barranco
(Submitted on 20 May 2021)
Comments: Accepted by arXiv
Subjects: Machine Learning (cs.LG)

code：

はじめに

ここ数年で画像認識用AI技術は大きく発展しました。その要因の1つにディープラーニング（DL）の使用が拡大されたことがあります。

今回はそんな医療画像分析について前立腺がん（PCa）の医療画像診断を通してさまざまなモデルの診断精度を比較しその中でも特にレコメンドで一時期話題となったネットワークであるW&D(ワイド＆ディープネットワークモデル)に注目し医療画像分析に活用した論文「Wide & Deep neural network model for patch aggregation in CNN-based prostate cancer detection systems」について解説していきます。

前立腺がん（PCa）は、男性で2番目に頻繁に診断されるがんであり、がんによる死亡の5番目に多い原因であり、2020年には141万人以上、世界中で約375,000人が死亡しています。

一般に、PCaを診断するための最初のステップは、前立腺の初期臨床評価の主要な検査である直腸指診（DRE）を行います。
DREの異常な結果が見つかった場合、腫瘍の調査のためのscreening methodとして前立腺特異抗原（PSA）分析が実行されます。
PSAが陽性の場合、経直腸的超音波ガイド下生検が検討されます。
前立腺サンプルが取得され、実験室で処理されてスキャンされ、全スライド画像（WSI）と呼ばれるギガピクセル解像度の画像が生成されます。これらの画像が病理学者によって分析され、最終的に癌かどうかを診断します。

今回の医療画像分析では前立腺組織のWSIが正常か悪性かを高精度で分析および検出を行うように学習しています。

これらのアルゴリズムは、セカンドオピニオンとなり、特定の画像分析タスクで医師を支援するためのscreening methodとして重要な役割を果たす可能性があります。特に、最近は畳み込みニューラルネットワーク(CNN)およびその他のさまざまなDLメカニズムがWSIの悪性組織を分析および検出するように学習され、デジタル組織病理学で広く使用されています。

CNNを使用して得られた結果はパッチレベルで報告されているため、それらを組み合わせてスライドレベルの分類結果を生成するために、さまざまなテクニックが提案されています。この手法はパッチアグリゲーションと呼ばれています。

提案されている様々な研究の中には、リカレントニューラルネットワーク(RNN)、ランダムフォレスト(RF)、その他の機械学習(ML)や統計的な代替手段に基づいて、様々なパッチアグリゲーション技術を実行したものがあり、病理医の作業を助けることができる正確なscreening methodにつながっています。

データセットと前処理

Virgende Valme Hospital（スペイン、セビリア）の病理解剖学ユニットから提供されたヘマトキシリンおよびエオシン（H＆E）染色スライドのセット（158個の正常なWSIと174個の悪性WSI）を使用します。これらの画像は以下の手順によってWSIをパッチレベルで処理し予測まで行われます

Readと呼ばれるステップで、入力WSIからパッチが抽出され、バックグラウンドに対応するパッチが破棄されます。
Scoringのステップで、不要な領域に対応するパッチを破棄するために、各パッチにスコアが付けられます。このスコアは、パッチに含まれる組織の量、H&Eの色相範囲内にあるピクセルの割合、彩度チャネルと明るさチャネルの分散という3つの要素を考慮して区別します。このステップで破棄されたパッチは赤で表示され、スコアリングフィルターを通過したパッチは緑で強調表示されます。
Stain normalization(染色正規化)と呼ばれる3番目のステップでは、サンプル間の色のばらつきを減らすために、ラインハルトの染色正規化方法に基づいてパッチに色正規化を適用します。
Predictステップでは、各パッチがPROMETEOと呼ばれるCNNへの入力として使用され、CNNはそれらを悪性組織または正常組織のいずれかに分類します。

※PROMETEOとはWSI前立腺がん検出のためのCNNベースのコンピュータ支援診断システム。

また、悪性（左）サンプルと正常（右）サンプルを下記図で区別します。

このヒストグラムはすべてのWSIにわたる正規化されたパッチ頻度の平均確率ヒストグラムです。赤い破線は最小二乗回帰直線を表しています。

ヒストグラムからがんのWSIでは、悪性に分類されたパッチは腫瘍部分に集中する傾向があります。したがって悪性と判定されたパッチの分散係数はスライドレベルでの正常なWSIと悪性のWSIを分類するためのもう一つの入力になりうるのではと考えます。この係数は、悪性の連結成分（MCC）の数を計算することで得られました。

悪性パッチの中心座標に基づいて連結成分数を算出する方法の詳細はアルゴリズム1を参照してください。
この値はパッチからのユークリッド距離（半径）に相当し、2つのパッチ間の距離が100ピクセル（パッチのサイズは100×100ピクセル）であることを考慮して、1〜5パッチ-距離の範囲で設定してあります。連結成分の数は、各WSIの悪性パッチの総数を基準に正規化しています。

アルゴリズム1:MCCを求めるアルゴリズム

W&D

W&Dモデルは、その名の通りワイド成分(幅)とディープ成分(深さ)の両方を兼ね備えています。ワイド成分は、特徴間のスパースな相互作用を効果的に記憶します。これは、スパースな入力値の組み合わせに対して出力がどのように反応するかを学習すると定義することができます。

一方ディープ成分は、順伝播型ニューラルネットワークに相当し、汎化、つまり見たことのないデータを扱う能力を表します。そのため、記憶（ワイド）と汎化（ディープ）の両方の利点を組み合わせて記憶（ワイド）と汎化（ディープ）の両方の利点が組み合わされ、1つのモデルで実現しています

学習と検証

この検証で用いたW&Dのネットワークモデルは以下である

各隠れ層は300個のニューロンで構成されています。

入力は

WSIの悪性組織比（MTR）
ヒストグラムの最小二乗回帰直線（LSRL）の傾きとY切片
(MCC)に関しては上に詳しく記述しているので省略
5%ticksで50％〜100％の10分割悪性確率ヒストグラム（MPH）

これらの入力を用いて、WSIを悪性（M）または正常（N）のいずれかに分類します。

ここからは全体のPCaスクリーニングタスクの処理ステップ全体について

まず、前処理に示したのと同じ手順に従って、WSIをパッチレベルで処理します。
次に、元のWSIからのフィルター処理された各パッチの出力分類を使用して、上図に示したW＆Dモデルを使用してスライドレベルの予測を実行します。

また、モデルの汎化性能を測定するために、K-fold stratified cross-validation(層化抽出法を用いたK-分割交差検証)を行っています。ネットワークを検証するために、accuracy・sensitivity・precision・F1スコア・およびF1スコア・ROC(ReceiverOperating Characteristic)曲線のAUCという異なる評価指標を用いています。

結果と考察

W&Dのネットワークモデルの検証結果としてK-fold stratified cross-validationの結果と、すべての評価指標の平均値をまとめたものです。

平均結果は、accuracy 94.24%・sensitivity 98.87%・precision90.23％・F1 score94.33％・AUCは0.94でした。この分類タスクで検討されたすべての評価指標で非常に高いスコアを達成しており、特にSensitiveの点で優れています。Sensitiveとは、この分野ではPCaを識別するシステムの能力と定義され、スクリーニング検査の性能を報告・評価する上で最も重要なものです。すなわち、悪性サンプルを予測する際にほとんどミスがなく、W&Dモデルは信頼性の高いパッチアグリゲーション手法であることを意味しています。

その他の有名な機械学習モデルと比較した結果が以下である

表からわかるように、Accuracy・Sensitive・F1score・AUCについては、提案したW&Dモデルで最良の結果が得られていますが、Presicionについては例外でSVMがが最も高い値を達成しました。

前述したように、Sensitiveはスクリーニングを行う際の分類器の性能を測定するための最も関連性の高い指標ですので今回の画像分析という点ではW&Dが一番優れています。SVMは約99%のPresicionを達成しており、これは他のバイナリまたはマルチクラスの分類タスクに非常に適していると考えられます。