【Kaggler必見】世界最大規模の前立腺がん診断コンペ『PANDAチャレンジ』！！

medical 2022年04月15日

3つの要点
✔️ PANDAチャレンジは、欧米の6施設から約13,000枚の病理組織像を収集し、世界65カ国から約1,300人が参加した世界最大の病理組織コンペティションである。
✔️ 本研究では、同一データセットに複数のチームが取り掛かるという、これまでの医療AI論文にはない取組を行っており、提出された複数の機械学習モデルを検証している。
✔️ 提出された複数のアルゴリズムは基本的に似たアプローチであり、上位モデルは病理医と同等かそれ以上の診断精度を達成し、さらに検証用データでも高い性能を発揮し、その汎化性をも示した。

Artificial intelligence for diagnosis and Gleason grading of prostate cancer: the PANDA challenge
written by Wouter Bulten, Kimmo Kartasalo
(Submitted on 13 Jan 2022)
Comments: Nature Medicine

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

Abstract

これまでの医学領域における人工知能（artificial intelligence, AI）研究は、いわば個別具体的な結果が多く、あるデータセット（組織標本など）に対して複数の研究チームがそれぞれ機械学習（machine learning, ML）モデルを構築するようなことはありませんでした。そこで本研究では、前立腺がんの生検組織をデータセットとした国際的な医用画像コンペティションである『PANDAチャレンジ（the Prostate cANcer graDe Assesment）』を開催し、コンペに提出された機械学習モデルを評価・分析することとしました。

提出されたアルゴリズムのうち、診断精度の高いモデルを選抜したところ、それぞれのモデルは微妙な違いはあるものの基本的には同様のアプローチをとっていることが分かりました。また、評価用データセットは異なる医療施設で得られた標本であることから、コンペ上位のモデルは汎用的であることが示されました。上位モデルはいずれも専門医と約86%の診断一致率を示しており、今後はより臨床的な検証が期待されています。

Main

グリーソン分類（Gleanson grading）は、前立腺がんの病理組織学的な分類であり、治療計画に必要です。病理医は、腫瘍組織の組織形態学的な特徴から腫瘍の分類を行いますが、この評価は主観的であり、病理医間でもばらつきがあることが知られていました。

そこでAIによる分類が有望視されていますが、AIの開発には人間（病理医）によるアノテーションが必要であったり、その人間も他施設の標本ではうまくアノテーションできなかったりなど、AI開発は様々なバイアスの影響を受けやすいことが報告されています。その結果、あるAIはその開発元の医療機関のデータでしか高い性能を発揮できず、特定の条件では精度が低下してしまうことがあります。また医療AI開発は基本的に閉鎖的であり、良い写真を提供したり、より経験の多い専門医が開発者に直接アドバイスできたり、ポジティブバイアスが働きやすい環境であることも指摘されています。

本研究では、コンペティション形式によりアルゴリズムを開発することで上記の問題を回避しています。具体的には、アルゴリズムの開発者とは別の人物が検証を行い、異なる施設からデータセットを収集した上で追加の検証を行います。これによりそのアルゴリズムが汎化的かどうかを見極めることができます。

コンペティションで使用されるデータセットは、これまでに公開されている前立腺生検のデータセットと、ヨーロッパ（EU）に存在する医療機関から得たデータです。これをもとにPANDAチャレンジを開催し、上位のモデルを研究チームで再現しました。再現モデルに対して、アメリカに存在する医療機関から得たデータセットと、コンペで使用したものとは別のEUデータセットを用いて、開発者とは独立した環境で検証しました。その結果と病理医の診断を比較し、各アルゴリズムの真の評価を行いました。

Results

データセットの特徴

アルゴリズムの開発・チューニング・外部検証のために合計12,625枚の全体スライドイメージ（whole slide image, WSI）を6つの医療機関から収集しました（表1）。

上記が得られたデータセットの内訳です。developing set（開発用）とtuning set（チューニング用）の2つがコンペ参加者が利用可能なデータセットであり、チューニング用は競技中のアルゴリズム評価のために用いられています。コンペの順位はinternal validation set（内部評価用）で決定され、その後さらにexternal validation set（外部評価用）で汎化性能を検証されます。施設名はSource行に書かれています。なお開発者や内部検証の担当者は、外部検証データの収集には関与していません。

データセットの参照基準

オランダ（Netherland）の訓練用データセットのアノテーションは、既存の病理報告書を参照して決定しました。スウェーデンの訓練データは、1人の泌尿器科医がアノテーションを行っています。オランダの内部検証用データは、18-28年のキャリアを持つ3人の泌尿器科医（2つの医療施設に所属）の合意により正解ラベルが決定されました。スウェーデンの残りのデータセットでは、臨床経験25年以上の4名の泌尿器科医がアノテーションを行いました。

アメリカの外部検証用データセットは、アメリカまたはカナダの6施設から収集され、18-34年の臨床経験を持つ泌尿器科医が多数決でアノテーションを行っています。また外部検証用データは、より正確な診断のために免疫組織化学的染色を施しています。加えてEUの外部検証用データは1人の泌尿器科医がアノテーションを行いました。大陸間（EUとUS）での一致度を調査するため、EUの専門医がUSのデータを診断したり、あるいはその逆を行ったところ、高い一致率を認めました（註：一致度について、Supplementary Table 9を参照とありますが、本記事作成時点ではアクセスできませんでした）。

コンペティションの総括

コンペは2020年4月21日から7月23日まで参加者を募集し、Kaggleで開催されました。65か国、1,290名からなる1,010チームが参加しました（図1）。

コンペ期間中、各チームはチューニングデータセットを用いて、アルゴリズムの評価を要求することができました。

最終的に、全チームで合計34,262個のアルゴリズムが提出されました。なお内部検証用データセットでの検証によると、泌尿器科医と90%以上の診断一致率を示した初めてのチームはコンペ開始10日以内に現れており、33日目には全チームの診断一致率の中央値が85%を上回っています。

評価対象アルゴリズムの総括

コンペ終了後、参加者に対してPANDAコンソーシアム（外部検証）への参加を呼びかけました。33チームがその後の検証フェーズに進み、モデルの性能やアルゴリズムの説明に基づき、15チームが選出されました。なお、そのうち7チームはコンペでも上位30位以内にランクインしています。

選出されたアルゴリズムはすべてディープラーニングが用いられていました。上位のほとんどのチームは、WSIを小さなパッチに分けるアプローチを採用していました。これらのパッチはCNNに入力され、特徴量が抽出され、最終的な分類層で診断が決定されています。

いくつかの上位チームが採用した手法に、自動ラベル洗浄（automated label cleaning）があります。これは、間違ってラベル付けされたであろうサンプルの正解ラベルを採用せずにトレーニングデータから除外あるいはラベルの付け直しを行う手法です。いくつかのチームは、推論結果が正解ラベルと大きく異なる画像を検出し、これを自動で除外・再ラベル付を行っており、モデルの性能が向上するだけ繰り返し適応しました。

また全チームに共通する特徴として、様々なアルゴリズムやネットワーク構造、前処理を適用したことが挙げられます。コンペとしては多様なアルゴリズムが提出されていますが、各チームがモデルをアンサンブルした結果、ほとんどのチームが同等の性能を達成しました。なお個々のアルゴリズムは研究のために事由に利用できます。

内部検証用データセットにおける分類性能

内部検証では、選出されたすべてのアルゴリズムは、2つの異なるコンピューティングプラットフォームで再現されました。それぞれのアルゴリズムの平均値は、専門医の診断と高い一致率（92-94%）を示しました。また感度は99.7%、特異度92.9%を達成しました。

上記は、重み付けκ係数（quadratic weighted κ）（横軸）とアルゴリズム（縦軸）をプロットしたものです（註：重み付けκ係数とは、複数の専門医が同一の診断をすればスコアが高く、意見が分かれるほどスコアが低くなるように計算した指標です）。選出されたほとんどのアルゴリズムが専門医の診断と一致していることがわかります。

上記のaは内部検証用データセット、b, cは外部検証用データセットです。d, eは一般病理医と専門家の正解ラベルとの比較です。一般病理医（赤）よりも感度・特異度ともに高いことが分かります。

外部検証用データセットにおける分類性能

選出されたアルゴリズムは、2つの外部検証用データセットで独立に評価されました。一致度（重み付けκ係数）は、0.868および0.862であり、専門家の基準と同等です。

代表的なアルゴリズムは、外部検証においてUSセットとEUセットでそれぞれ98.6%、97.7%の感度を示しました。内部検証と比較すると、偽陽性が高くなった結果特異度が下がり、75.2%、84.3%となりました。

一般病理医との分類性能の比較

アルゴリズムと一般病理医を比較するため、オランダの内部検証用データセットに対して8か国13名（EUから7名、それ以外6名）が70症例を診断し、USの外部検証用データセットに対して米国20名が237症例を診断しました。

まずオランダの内部検証用データセット70症例では、アルゴリズムの方が一般病理医よりも専門医との高い診断一致度を示しました。これは有意差があり、すべての一般病理医よりも感度・特異度ともに高い値を示しています。平均して、一般病理医は1.8%のがんを見落としていますが、アルゴリズムは1%程度でした。

上図は、個々の診断を色で示したものです。一行（横方向）が1人の一般病理医が行った診断であり、列（縦方向）が各症例です。アルゴリズムが上段、一般病理医が下段ですが、上段の方が診断のパターン（色）が似ていることがわかります。つまり一般病理医の方が診断結果がバラバラであることが示されています。

Discussion

これまでの医療AI研究はサイロ化（註：ひとつのデータセットにひとつの研究チームが取り組む）しており、多国籍チームによる多様なアプローチが比較検討されることはありませんでした。本研究では、個々のソリューションを超越し、より汎化的なアルゴリズムの開発を目的としました。

PANDAチャレンジは、これまでにない最大級の病理画像コンペとなりました。本コンペによって上位のアルゴリズムは専門医と同等あるいはそれ以上の性能を発揮するだけでなく、外部検証用データセットを用いることで汎化的な性能をもつことが示されました。

選出されたアルゴリズムは一般病理医と比較すると、感度が高く特異度が低い方へとシフトしていることが明らかになりました。これは開発チームがチューニング用データセットのみでモデルの性能を推し量っていたためと考えられています（専門医によるラベル付けが原因ではなく）。またアルゴリズムの方が、一般病理医よりもより高い分類グレードを付与することがわかっており、臨床応用される際には動作点をチューニングする必要があります。

本研究では、前立腺がんの分類について検討したが、臨床的にはその他のがんについても検知できなくてはならない。重度の炎症、上皮内がん、部分的な萎縮などを検出することは今後も大変興味深いことです。そのため日常的に採取される検体に対して、より包括的で広範な評価を行う必要があります。