モバイル機器から皮膚がんがわかる！？大規模データセット・CNNを活用した、皮膚がんの自動分類モデルの提案！

medical 2022年03月24日

3つの要点
✔️ 皮膚がんでは、初期に比べ、末期の生存率が著しく低下することから、特に患者自身でおこなうことのできる早期発見が求められている。
✔️ 本研究では、大規模なデータセットおよびCNNを活用し、皮膚がんを自動分類する深層学習モデルを提案
✔️ その結果、提案モデルでは、皮膚科医と同等、それ以上の分類性能を達成したことを報告している。

Dermatologist-level classification of skin cancer with deep neural networks
written by Andre Esteva, Brett Kuprel, Roberto A. Novoa, Justin Ko, Susan M. Swetter, Helen M. Blau, Sebastian Thrun
(Submitted on 25 Jan 2017)
Comments: nature

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

背景

多様な症状を持つ皮膚がんを自動判別するモデルの開発は可能か？

本研究では、大量の画像データ・深層畳み込みニューラルネットワーク—Convolution Neural network: CNN—を活用し、皮膚がんに対する自動分類をおこなう画像分類モデルの構築、を目指す。

皮膚がんは、悪性腫瘍の中で最も一般的な疾患の一つである。この疾患では、視覚的に診断され、臨床検査から、皮膚鏡による分析・生検・病理組織学的検査がおこなわれる；一方、皮膚病変の外観は多岐に渡り、これまで画像に基づく自動分類は困難であった。こうした中、本研究では、2032種類の疾患から構成される、129450枚の臨床画像データセットを用いてCNNを転移学習に基づいて学習し、分類精度を検証した：具体的には、生検で証明されたユースケース—ケラチノサイト癌と良性脂漏性角化症、悪性黒色腫と良性母斑—について、21人の認定皮膚科医・分類性能をテストをおこなった：最初のケースは、一般的な癌の識別、2番目はより深刻な皮膚癌の識別、を対象とした。本モデルでは、分類精度において、人と同等のパフォーマンスを達成し、モバイル端末への導入を考えると、今後、皮膚がんの予後改善に大きく寄与できることが期待される。

皮膚がんとは？

最初に、皮膚がんの概要について述べる。

皮膚がんは、皮膚に生じたがん全体を指し、病態進行として、最初は緩慢、次第に加速度的に進行する特徴を持つ。また、発症原因では、主に紫外線の影響が大きいと指摘され、遺伝的要因の可能性も示唆されている。米国では、5人に1人が、皮膚悪性腫瘍と診断されると言われており、皮膚癌の一種であるメラノーマは、皮膚がん関連死亡の75％を占める、と報告されている。メラノーマの推定5年生存率—疾患後の生存確立を示す指標—において、末期発見の場合14%程度と低く、初期段階での発見—早期発見—が重要である、とされる。

研究目的

本研究では、皮膚がんのデータセットから構築された学習モデルに基づき、自動的に画像分類をおこなうモデル構築、を目指す。

皮膚癌では、初期段階に比べ、末期で発見された場合の生存率が著しく低下するため、早期発見が重要である—そのため、診察以外の場面で、患者自身が皮膚がんを診断できるツールが求められている。一方、こうした画像分類に関する先行研究では、画像状の要素—ズーム、角度、照明など—にばらつきがあることが課題となり、高精度な分類タスクが困難であった。本研究では、大規模なデータセット、また、シンプルな画像分類モデルを活用することで、皮膚画像からがんを早期発見するモデルの構築を目指す：具体的には、CNNをもとに、メラノーマ分類、ダーモスコピー—皮膚状態を観察する検査器具—を用いたメラノーマ分類、ガン腫分類、の分類を対象として、画像分類モデルを構築する。またこのモデルでは、141万枚の事前学習画像を活用し、画像ごとのばらつきによる影響を加味し、転移学習による学習をおこなった。こうしたモデルから、個々の疾患を学習クラスにマッピングする疾患分割アルゴリズムを作成し、皮膚がんを自動的に検知できるシステムの構築を目指す。

手法

ここでは、本研究における提案手法について、述べる。

本研究での、皮膚がんの自動分類モデルの構築の特徴は、二点ある：専門医によるラベル付がおこなわれた大規模データセットによる学習；転移学習によるモデル構築。

データセット

ここでは、提案手法として活用したデータセットについて述べる。

本研究では、141万枚の事前学習画像を活用し、画像のばらつき—i.g. ズーム・明るさ—を考慮した学習をおこなっている。データセットは、皮膚科医にラベル付けされた画像から構成され、2,032の疾患からなるツリー構造の分類法で、個々の疾患は葉のノードを形成している—下図参照。

また、対象ラベルである、メラノサイト系病変には、最も深刻な皮膚癌である、悪性メラノーマと良性の母斑が含まれる；表皮性病変には、悪性の基底細胞癌、扁平上皮癌、上皮内癌、前悪性光線性角化症、良性の脂漏性角化症が含まれる。これらの疾患は、医学専門家により臨床的かつ視覚的に整理された分類法のサブセットとして定義される。

提案モデル

ここでは、画像分類に関するモデルについて述べる。

本研究のモデル構築では、Inception v3に基づく転移学習を活用している：2014 ImageNet Large Scale Visual Recognition Challenge6からの約128万枚の画像—1000のオブジェクトカテゴリ）―で事前学習した、GoogleNet Inception v3 CNNを利用している—下図参照。

また、CNN は 757 の疾患クラスを登用し、データセットを127,463枚のトレーニング画像と検証画像、および1,942枚の生検ラベル付きテスト画像に分割し、学習をおこなった。

結果

このセクションでは、評価について解説する。本研究における、評価では、9-foldクロスバリデーションを用いて、画像分類精度および提案モデルの有効性を検証している。

皮膚がんの分類精度

ここでは皮膚がんの分類精度に関する評価について述べる。

最初に、3クラスの疾患—良性病変、悪性病変、非腫瘍性病変の第1レベルノード、ツリー図におけるskin diseases に直接つながるノード—を対象として、検証した。その結果、提案モデルは72.1 % の総合精度—個々の疾患における推論精度の平均—を達成した；一方、比較対象とした専門医2人の分類精度は、65.6%・66.0%であった。次に、各クラスの疾患における9クラスの疾患分割—第2レベルのノード、第１ノードに接続した疾患群—を対象として検証した：その結果、提案モデルは55.4 %、2人の皮膚科医は53.3%と55.0%の精度を達成していた。また、これらの結果から3クラスや9クラスより細かい疾患区分で学習した場合、直接学習したCNNよりも高い精度を達成したことも確認された。検証セットの画像は皮膚科医によってラベル付けされているが、生検によって確認されているわけではないため、CNNがこうした疾患における関連情報を学習していること、が推察される。

表皮とメラノサイト病変の分類

次に、表皮とメラノサイト病変の分類に対する検証について述べる。

表皮とメラノサイト病変の分類では、CNNと21人の認定皮膚科医の疾患に対する分類精度を比較した—下図参照。各画像に対して、皮膚科医では、下記の質問に回答する形で分類精度を評価した：病変の生検・治療をおこなうか、患者を安心させるか。赤い点は、皮膚科医1人の感度・特異度である。

ここから、CNNは、感度と特異度では皮膚科医を上回った—各ケースの曲線下面積（AUC）は91％以上であった。また、サンプルデータセットとフルデータセットを比較すると、AUCの変化は<0.03であり、より大きなデータセットでの結果の信頼性が高いことを示唆している。

CNNの特徴量

ここでは、t-SNE—t-distributed Stochastic Neighbor Embedding—を用いて、CNNにおける学習特徴量を調査した—下図参照。

その結果、各点は、CNNの最終隠れ層の2048次元出力から2次元に射影された皮膚病変画像であり、同じ臨床クラスの点のクラスターが確認された。メラノーマは中央に集まっていた；また、母斑は左右にそれぞれ集結しており、中央から対照的な結果となった。同様に、脂漏性角化症は、悪性のものと左右対称にクラスターを形成する特徴が見られた。

考察

本研究では、皮膚画像・画像分類モデルを活用し、皮膚がんを自動判定するアルゴリズムの構築をおこなった。具体的には、皮膚病変の分類について訓練したCNN—Inception v3—を使用して、3つの診断タスク—角化細胞癌分類、メラノーマ分類、皮膚鏡を用いたメラノーマ分類—を対象に、検証をおこなった—その結果、21人の皮膚科医の分類精度と同等、もしくはそれ以上の性能を達成した。

本手法の特徴は、高速で分類でき、かつ、高いスケーラビリティがある、点である。今回用いているモデルは、CNN一層で構成された単純なモデルであるが、複雑な処理を必要としないため、臨床現場に導入しやすい、ことが推察される。また、現在、モバイルデバイスの普及から携帯カメラを活用して皮膚画像を入手することは容易であるためで、本研究により、プライマリケア診療の範囲を広げ、皮膚科専門医の臨床的意思決定を補強するなど、臨床的に大きな影響を与えることが期待される。従来の診察では、皮膚科医による目視や内視鏡で観察することを主体としており、専門医の経験に依存することも多かった。そのため、本モデルで示されたように、深層学習を用いて皮膚科専門医と同等、それ以上の精度での皮膚病変画像の分類を実現することで、経験の不足している医師でも診断する精度を改善することができる、と考えられる。また、患者自身で皮膚がんを判別できるようになることで、発症前における医療へのアクセスを増幅させ、予後を大幅に改善できる可能性が高い。

一方、課題として、臨床現場での導入、が考えられる。本研究では、臨床現場にて、皮膚画像から皮膚がんを自動で判定する手法の実現を目的に定めているため、臨床現場にて有用であるか、という点は考察する必要がある。本研究では、シンプルなモデルを使っている一方、現在のモバイル端末の性能を考えると、処理速度に難点があることが考えられる。こうした課題に対して、エッジコンピューティングで活用される技術を導入する、といった解決策が考えられる。