深層学習による舌画像診断：舌から全身の不調がわかる！？ Part2

medical 2021年04月14日

3つの要点
✔️ 中国伝統医学において極めて重要な役割を果たした舌の診断、特に歯痕のある舌の診断は主観的で難しい課題があります。
✔️ CNNを用いて，舌の歯形を認識するため、異なる機器で撮影した1548枚の舌画像を含むデータセットを構築し、ResNetで特徴を抽出するモデルを提案しています。
✔️ 80％以下の精度だった、モデルの全体的な精度を90%以上に向上

Artificial intelligence in tongue diagnosis: Using deep convolutional neural network for recognizing unhealthy tongue with tooth-mark
written by XuWang, JingweiLiu, ChaoyongWu, JunhongLiu, QianqianLi, YufengChen, XinrongWang, XinliChen, XiaohanPang, BinglongChang, JiayingLin, ShifengZhao, ZhihongLi, QingqiongDeng, YiLu, DongbinZhao, JianxinChen
(Submitted on 8 April 2020)
Comments: Accepted to Computational and Structural Biotechnology Journal.
Subjects: CNN (cs: CNN)

背景

東洋医学の課題である、診断の主観性を深層学習は超えられるのでしょうか？

この論文では、鍼灸治療・漢方と言った東洋医学の診断方法の一種である、舌による診断に焦点を当てています。こうした診断は、古来中国より望診として古くから用いられている手法であり、ある特定の病気だけでなく、体全体の不調を把握し、症状だけでなく、病気の根幹を治療するために有用な方法であると考えられています。その一方、こうした診断方法は医師の経験・主観的な判断の要因が大きく、経験の少ない医師や、知見のない人にとって実践するのが難しいことが課題として指摘されていました。

この研究では、こうした課題に対して、CNNを用いたアーキテクチャを提案しています。先行研究の手法では、精度80%以下の報告が多数を占める一方、本研究ではResNetを用いた特徴量抽出と舌画像の大規模なデータセットを用いることで90%以上の精度を実現しています。この記事ではこうした提案手法の概要について解説していきます。

東洋医学とは

まず初めに、東洋医学について簡単に述べます。

東洋医学は、古代中国で生まれた考え方・治療法で、約2000年の歴史を持つ伝統医学です。西洋医学は投薬や手術で、体の悪い部分に直接アプローチするのに対し、東洋医学では体の不調を内側から根本的に治す治療を主に行います。また、西洋医学は短い時間で病気を治療でき、東洋医学の治療は時間がかかるものの、体に負担がかかりにくい、また対症療法でなく根治治療を目的としているため、難病と言われる病気の治療・改善にも用いられることが多いです。またこうした治療に生薬や漢方、鍼や灸などを用いるのが特徴でもあり、よく聞かれる「ツボ」も、東洋医学の考え方のひとつです。

東洋医学では、特定の臓器だけでなく、体全体を診断することを基本的な考え方としており、臓器は互いに関連し合うと考えています。こうした考えに基づき、健康な状態を確認する要素として、「気血水」があります。「気」は生命活動を行うために必要なエネルギー、「血」は血液、「水」はリンパ液や汗といった血液以外の体液のことを指します。この「気血水」が、体内を過不足なく滑らかに巡っている状況を健康的な状態であると考えます。またこれらは、お互いに影響を及ぼし合っていると考えられ、ひとつに異常があると、全体のバランスが崩れると言われています。バランスが崩れると、体調が崩れやすくなるため、気血水のバランスを保つことが健康維持に重要であると考えられています。また、「気」は生命力の源とされ、「病は気から」という言葉通り、まずは「気」の管理を行うのが最重要と考えられています。

五臓とは

五臓は、上述した気血水を巡回させる働きを持つもので、「肝」「心」「脾」「肺」「腎」の5つから構成されます。これらの臓は、西洋医学でいうところの臓器とは異なっています（一部重複するものもあります）。

働きとしては、肝は「血液の貯蔵、自律神経などのコントロール、肝臓・胆のう」、心は「血液の循環、睡眠リズム調節、心臓」、脾は「代謝や筋肉への栄養供給、消化器系」、肺は「気を全身に巡回、皮膚や水代謝、呼吸器系」、腎は、「成長、発育、生殖、老化、腎臓や膀胱などの泌尿器系」と考えてもらえるとイメージをつかみやすいと思います。これらを整え、気を巡回・維持することで、健康な状態を長く保て、長寿になると考えられています。

また、六腑はこれらの五臓の子供のようなもので、胆・小腸・胃・大腸・膀胱・三焦から構成されます。これらはそれぞれ親となる臓を持ちます。詳しいことはまた別の機会に記載する予定です。

舌診とは

舌診（舌を用いた診断方法）は東洋医学の診断方法の一つで、舌の形や色などから病気の診断を行うものです。舌の特徴として、身体内部の健康状態（内臓、気、血、寒さ、熱など）や病気の重症度や進行度を反映しているとされ、こうした状態を観察することで、適切な治療法を選択することができます。

しかし、伝統的な舌の診断は、施術者の主観的な観察に基づいており、個人的な経験や環境の照明の変化などによって偏りが生じることが多い課題があります。そのため，開業医の診断を助けることができる，客観的かつ定量的な舌の診断方法を開発する必要があります。

特に最も重要な特徴の一つである歯痕は、隣接する歯によって圧迫された舌体から確認されます。歯痕は、中医学の理論によれば、脾虚、寒湿を伴う陽虚、痰や滞留液、瘀血などに関係していることが多いとされています。また、歯状舌の微小変化には、血液供給障害、局所的な低酸素、組織の浮腫などがあります。歯牙状舌の人の臨床症状は、食欲不振、腹痛、胃部膨満感、緩い便などである。舌苔の診断は、症状の鑑別や治療法の選択に大きく関与する一方、歯痕には様々な種類（i.e. 色や形）があり、前述した主観的な判断要素も多分にあるため、中医学の専門家にとって歯痕付き舌の認識は困難であるとされています。そのため、こうした主観的部分による診断の障壁を緩和するため、深層学習の導入が進んでいます。

歯痕識別に関する先行研究

上述した、歯痕識別の主観的部分による診断の障壁を克服するため、画像処理，統計，機械学習の手法を用いて，コンピュータによる舌の歯形認識モデルが提案されています。これらの研究では，歯形領域の局所的な色や凹凸の特徴に焦点を当てており、高レベルの意味的特徴を自動的に抽出することができ，多くの画像分類タスクで優れた性能を発揮する、畳み込みニューラルネットワーク（CNN）モデルを歯形の舌の分類に適用した例が徐々に報告されてきています。

これらは、歯形のついた舌の自動認識の分野で多くの成果を上げているが、重要な課題もあります。特に、多くのモデルの精度が80%以下、データセットは同一の機器から得られたもので、他の機器で撮影された舌の画像を分類する一般化が未知数、データセットのサンプルサイズが小さい（i.e. 645個）、モデルの学習とテストに生データから分離した舌領域画像のみで学習し顔や周囲の部分の影響を考慮していていない、と言った課題があります。

本研究の目的

本研究では，こうした課題に対し、データセットおよびモデルの特徴量抽出をより深くする点に焦点を当て、技術の拡張を行っています。具体的には、異なる機器で撮影された1500枚以上の舌画像を用いて，より大規模な歯形付き舌のデータセットを構築し，各画像に対して舌領域のラベル付けを行い，舌領域画像データセットを構成しています。次に，深層学習の利点を最大限に活かすために，より深い層を持つCNNモデルを用いて特徴を抽出し，分類を行っています。

手法

データセット

安定した舌画像データセットの構築のため，Shanghai Daosh Medical Technology Ltd (DS01-B)、Shanghai Xieyang Intelligent Technology Ltd (XYSM01)が設計した標準的な機器を用いて舌画像を取得しています。今回の研究は、詳細な評価手順は以下の通りです。まず、3人の専門家が歯形のついた舌の診断基準について明確に行い、1人の専門家が，1548枚の画像をすべて「歯形あり」「歯形なし」に分類しました。最後に、他の2人の専門家がそれぞれラベリングの結果を確認した。意見が一致しない場合は、3人の専門家が話し合い、最終的に決定します。結果として、歯形のある舌の画像672枚と歯形のない舌の画像876枚がデータセットとして構築しています。さらに、各生の舌の画像に対して、舌の領域を手動でラベル付けしました。この目的は、舌の周りの無関係な顔の部分や背景の影響を抑制し、モデルの性能を向上させることにあります。その結果、生の舌画像データセットと舌領域画像データセットの2つのデータセットが構築されました。

アーキテクチャ

本研究では，舌の画像を分類するために，34層からなる典型的なResNetアーキテクチャ（ResNet34）を使用しています（図２）。CNNは深さが増すにつれ、トレーニングが難しくなり、トレーニングエラーが大きくなるため、ResNetは、ネットワークの深さに起因する消失勾配や劣化の問題に対してネットワークをロバストに保つことができ、従来のネットワークモデルよりも優れた性能を発揮します。各畳み込み層の後の活性化関数には，Rectified Linear Unit（ReLU）を用いています。

学習・評価

ネットワークは，ImageNet データセットで事前に学習した重みを用いて初期化しています。舌の眼底画像は，デバイスごとに解像度が異なるため、モデルを学習する前に，すべての画像を416×416ピクセルにランダムにリサイズ，トリミングし，さらに水平方向に反転して調整しています。その後，16のバッチサイズで40回のエポックを行い，ネットワークを微調整しました。オプティマイザーには，学習率0.001，運動量0.9のStochastic Gradient Descent（SGD）を用いています。テストでは，学習したネットワークの入力テスト画像を420×420ピクセルにリサイズしています。

精度，感度，特異度を用いて，モデルの性能を評価しています。また、学習には、頑健で偏りの少ないとされる、k-foldクロスバリデーションを用いています。一般的な手順は以下の通りです。1) データを k 個のサブセットにランダムに分割する 2) サブセットを 1 つ確保し，他のすべてのサブセットでモデルを学習する 3) 確保したサブセットでモデルをテストし，評価指標を記録する 4) k 個のサブセットのそれぞれがテストデータセットとなるまで，上記のプロセスを繰り返す 5) k 個のモデルの評価指標の平均と分散を計算して，性能をまとめる．今回の研究では，k=5で実験し、1548枚の舌画像をランダムにシャッフルし，5つのサブセットに分け、4つのサブセットをトレーニングに、残りの1つのサブセットをテストに使用しています。そして，5つのモデルの精度，感度，特異度の平均値と標準偏差（SD）を算出しました。

検証方法

モデルの頑健性を評価するため、普通のカメラで撮影した、様々な照明による影響のある、50枚の舌の画像からなる新しいテストデータセットによりテストを行なっています。これらは、歯型のある舌画像27枚と歯型のない舌画像23枚に分割され、評価を行っています。また、比較実験には，オックスフォード大学のVisual Geometry Groupが提案したVGG16を用いています。本モデルでは、入力画像のサイズは416×416であるため，完全連結（FC）層前に，出力サイズが7×7の適応型平均プーリング層を適用しています。学習パラメータは，前述のResNet34と同様に調整しています。これらのモデルを先行研究（Sunら）と比較しています。また、Gradient-weighted Class Activation Mapping (Grad-CAM) を用いて，歯形のついた舌の最も指標となる領域を可視化し，モデルの判断基準の視覚化を行なっています。Grad-CAMは、CNNの畳み込み層における推定の判断基準をヒートマップにより、視覚化する技術です。これにより、従来深層学習分野で問題視されていた、Black box 問題を解消する一助となります。

結果

テストデータの検証

この評価の目的は、通常のカメラで撮影された舌画像のデータに対する推定性能を評価することで提案手法の頑健性を確認するです。

舌画像データセットは，50枚の舌画像から構成されており，新しい舌領域画像データセットは，生の画像から手動で分離された50枚の舌領域画像から構成されます。このテストデータセットの画像は，様々な照明条件の下でカメラにより撮影されたものであるため，全体の精度は85.00%を超えており，提案手法が異なる照明条件の下で撮影された画像に拡張、一般化できることを示唆していると述べています。

VGG16アーキテクチャとの比較

この評価は、CNNアーキテクチャの変化が推定精度のどのような影響を及ぼすかを調べることを目的に行っています。

評価対象はVGG16を比較に用いた結果を下記に示します。生の舌画像データセットと舌領域画像データセットにおいて、5-fold cross validationの平均精度は89.40%と90.96%でした。したがって，ResNetは，生の舌画像では1.10%，舌領域画像では0.52%，歯形のある舌の分類精度を向上させたことを確認しています。

Grad-CAM による評価

この解析では、提案モデルが入力画像のどの部分に注目して分類を行っているかを明確化するために行っています。以下の図から、Grad-CAMにより、歯痕領域をハイライトしており、分類モデルが注目すべき領域を適切に注目していることを示しています。

考察

この論文では舌の歯形の特徴は、中医学的診断において重要な指標である一方、診断医師の経験や主観的な判断により一般化が困難な問題がありました。そのため、舌画像を用いた深層学習技術を用いて一般化する提案がされています。

本研究では、特に歯形のついた舌を認識するためのフレームワークを提案しています。まず，1548枚の生の舌画像を様々な機器で撮影し，歯形のある672枚の舌画像と歯形のない876枚の舌画像に分割し、舌領域のラベル付けを行った舌領域画像データセットを作成しました。次に，ResNet34 CNNモデルを用いて特徴を抽出し，分類を行い、その結果、提案モデルの全体的な精度は90%以上を達成しました。興味深いことに、このモデルは、照明が異なる他の機器で撮影された画像でも高い性能があり、提案手法が従来よりも精度を大幅に向上させ、画像が異なるソースでも、モデルの有効性があることを示唆しています。

一方で、以下のような課題も考えられます。報告された評価では、感度よりも特異度の方が高く、陽性と陰性のサンプルが不均等であることが推察されます。また、舌領域画像データセットに対するモデル精度は、生画像よりも高く、舌画像に対してはセグメンテーションを行う必要があることが推察され、こうしたアルゴリズムにより精度が変動する可能性があります。また、今回用意したデータセットは専門家による入念な確認と診断のもとで構築が行われたため、データセットの構成に大きなコストが必要であることが考えられます。

こうした欠点はあるものの、今回の結果はCNNが舌画像解析に対して有効であることを示唆しており、今後一般化するにあたり重要な知見を含んでいます。