深層学習による舌画像診断：舌から全身の不調がわかる！？ Part3

医療 2021年04月27日

3つの要点
✔️人固有の体質は，東洋医学における病気と治療方針の決定要因であり、中医学の考え方に基づく9タイプに分類するタスクであるが、診断には主観性・経験が必要であり一般化が困難な課題があるため、舌画像を用いた深層学習に関心が集まっている
✔️ 本論文では、舌画像から体質を自動識別するために、舌画像の検出、キャリブレーション、また、環境条件・不均等な分布の影響に対処するため個々の舌画像の複雑さに応じて分類器を選択するCP法を提案した
✔️ 病院で撮影された3種類のサイズの舌画像を用いた評価結果は，提案手法がResNet・VGG-16といった従来モデルよりも高い性能を持ち、データセットを複雑性で分類し、分類器を使い分けることの有用性が示唆された

Complexity perception classification method for tongue constitution recognition
written by Jia jiong Ma, Gui hua Wen, Chang jun Wang, Li jun Jiang
(Submitted on May 2019)
Comments: Published by arXiv
Subjects: CNN (cs: CNN)

背景

様々な環境要因が混在したデータセットに応じた分類器を構築するにはどのような手法が適切なのでしょうか？

この論文では、東洋医学の診断方法の一種である、舌による体質の診断に焦点を当てています。舌による診断は、四診の一つである、望診（外見から判断する診断方法）として古来中国から用いられており、特定の病気を含め、体全体の不調を把握し、症状だけでなく、病気の根幹を治療するために有用です。そのため、西洋医学では治療が困難な難病・希少疾患といった疾患に対して特に効果が高いとされ、疾患の多様化に伴いニーズも増えてきています。その一方、こうした診断方法は医師の経験・主観的な判断の要因が大きく、経験の少ない医師や、知見のない人にとって実践するのが難しいことが課題として指摘されていました。こうした中で、近年発展著しい深層学習により、舌画像から特徴量を学習したモデルを用いることで、経験・知見の少ない人にとっても高い精度で診断を実現できることが可能になるのではないかとして注目されています。

この研究では、こうした舌診でも、体質に関する診断に注目し、学習するモデルを提案しています。後述するように、体質は中医学において診断の方針を決める基盤の一つであり、この診断を高精度に行うことで正確な診断を可能にします。提案手法では特に、画像撮影におけるばらつきの緩和、サンプルにおけるCase Control 間の不均衡性の解消に焦点を当てています。この記事ではこうした提案手法の概要について解説していきます。

東洋医学とは

まず初めに、東洋医学について簡単に解説します。

東洋医学は、古代中国で生まれた考え方・治療法で、約2000年の歴史を持つ伝統医学で、現在、多くの先進国で導入されている、西洋医学と異なる特徴を持ちます。例えば、西洋医学では投薬や手術など体の悪い部分に直接アプローチするのに対し、東洋医学では体の不調を内側から根本的に治す治療を主に行います。また、西洋医学は比較的短い時間で病気を治療できる一方、東洋医学は時間がかか未観測が、体に負担が少なく、また症状より病気の根本に重点をおいた治療を目的としており、難病と言われる病気の治療・改善にも用いられます。東洋医学ではこうした治療に、生薬や漢方、鍼や灸などを用いるのが特徴でもあり、よく聞かれる「ツボ」も、東洋医学の独自の考え方です。

東洋医学では、臓器は互いに関連し合うという関連から、特定臓器でなく、体全体を診断することを基本とし、「気血水」という考え方に基づいて治療を行います。ここで言う、「気」は生命活動を行うのに必要なエネルギー、「血」は血液、「水」はリンパ液や汗といった血液以外の体液を指します。この「気血水」が、体内を過不足なく滑らかに巡る状態が健康であると考えます。また前述のように、これらは互いに影響を及ぼし合うと考えられ、ひとつに異常があると、全体のバランスおよび体調が崩れるため、気血水のバランスが重要であると考えています。特に「気」は生命力の源とされ、「病は気から」という言葉通り、「気」の管理が最重要とされます。

五臓とは

五臓は、上述した気血水を巡回させる働きを持ち、「肝」「心」「脾」「肺」「腎」の5つから構成されます。これらは、「臓」という字はつきますが、西洋医学の臓器とは異なる概念です（一部重複もあります）。

各臓の働きの概要は、肝は「血液の貯蔵、自律神経などのコントロール」、心は「血液の循環、睡眠リズム調節」、脾は「代謝や筋肉への栄養供給」、肺は「気血水を全身に巡回、外敵から保護」、腎は、「成長、発育、生殖、老化、排泄」とです。これらを整え、気を巡回・維持させることで、健康な状態を長く保て、長寿になると考えられています。

また、これら臓と主従関係にある概念として、六腑があります。これらは、五臓の子供のような関係で、胆・小腸・胃・大腸・膀胱・三焦から構成され、それぞれ、肝・心・脾・肺・腎・心包（心を包む膜）に対応しています。

東洋医学における体質

中医学における体質は、生命活動における先天的および後天的な特性の一つであるとされ、特性疾患との関連性が高く、疾患の傾向を決定し、治療の決定に用いられる重要な要素の一つです。こうした体質は気虚、陰虚、陽虚、痰湿、湿熱、気鬱、瘀血、特殊体質、温和の9種類に分類されています。例えば、気虚は、前述した気が不足している状態であり、全身の倦怠感・めまいなどが出やすく、また病気になりやすい体質と判断されます。これらの体質を知るために、質問表が用いられますが，個人の主観的な意図に影響されやすく，また調査に膨大な時間が必要であるという課題があります。そのため、舌の画像を用いて体質を舌診から判断し、こうした方式を補完する方法に注目が集まっています。

舌診とは

舌診（舌を用いた診断）は東洋医学の診断法の一つで、舌の形や色などから病気の診断を行います。東洋医学では舌は、身体内部の健康状態（内臓、気、血、寒さ、熱など）や病気の重症度や進行度を反映しているとされ、こうした状態を観察し、適切な治療法を選択する一助になります。

一方、伝統的な舌の診断は、施術者の主観的な観察に基づく部分が大きく、個人の経験や環境の変化（照明など）によって偏りがあるという課題があります。特に前述した体質の診断においては、体質自体も主観性があることから、体質評価や舌画像の一般化に関してフレームワークを提案する数多くの手法が報告されています。こうした主観的部分による診断の障壁を緩和するため、深層学習の導入により、客観的かつ定量的な舌の診断方法を開発が進んでいます。

舌画像による体質診断の先行研究

しかし，舌画像を用いた体質認識に関する研究では，主に舌画像と体質タイプの間の統計的に有意な相関関係を解析したものが多く、機械学習を用いて自動的に体質判別を行う研究は少ないのが現状です。こうした研究では、各舌画像を9つの体質タイプに分類する舌画像分類の問題とみなすことができるため、深層学習の導入が検討できますが、現状として自動的に特徴量抽出を行う特性について調査した研究はあまり報告されていません。また、舌画像に対する深層畳み込みニューラルネットワークの導入が検討される一方、舌の検出，舌の校正（キャリブレーション），体質認識を組み合わせたフレームワークを提示されていません。著者らは、舌画像の取得、舌のコーティングの検出、舌のコーティングのキャリブレーション、舌の特徴抽出、深層学習手法を適用した体質分類からなる、体質認識を自動的に実現するシステムフレームワークを提示してきています。

本研究の目的

本論文では、著者らが提案してきた診断フレームワークで、舌画像による体質認識を実現するために、画像分類の困難さに基づき、分類器を使い分けるcomplexity perception（CP）分類法を提案しています。本手法では、照明や解像度などの様々な環境条件によって生じる画像の不均等な分布の影響軽減のために、舌画像における個人レベルの複雑性を考慮したモデルです。

提案手法の概要

舌画像の特徴量を正確に抽出するため、著者らは大規模な学習データベースを用いて、深層学習法を組み合わせ、体質を識別するシステムフレームワーク（図１）を提案しており、6つのステップで構成されています。第1ステップは舌画像の取得で、自然環境下でカメラを使って撮影することを想定しています。第2ステップは，舌の検出を含む前処理で，物体検知の分野で用いられる、Faster R-CNNを用いて検知を行い、VGGで検出された舌の領域をキャリブレーションし、正確な画像を獲得します。その後，舌の画像全体から舌のコーティング画像をセグメント化します。第3ステップでは，セグメント化された舌画像の特徴を，深層学習手法を用いて抽出し、最後にCP法に基づいて体質診断を行います。

Complexity perception（CP）分類法

Complexity perception（CP）法は、分類の難しさに応じて分類器を使い分け、推定精度を上げていく手法です。通常、学習モデルは，分類しやすい単純なサンプルに対しては高い精度を持ちますが、分類しにくい複雑なサンプル（i.e. 境界付近、ノイズの多いサンプル）を精度が低下する傾向があります。特に、撮影された画像の条件が異なる場合、光の具合などによって、サンプルの分類のしやすさは大きく異なることが予測されます。CP法は、サンプルの分類の困難さを定量的に評価・分割し、分類が容易なサンプルと困難なサンプルを別々に訓練することで、様々な条件下で撮影された舌画像を精度よく推定することを目的としています。

提案手法での具体的な複雑さを考慮したモデルとして、サンプルの単純さを示す尺度（下式参照）により、サンプルにラベルを付与し、K近傍法およびロジスティック回帰モデルにより単純および複雑なサンプルを識別する学習モデルを構築しています。学習においては、サンプルおよびラベルからパラメータを調整する形で行います。

こうして単純さの分類を行う学習モデルを構築しつつ、各サンプルを容易に識別可能もしくは識別困難に分類し、分類されたカテゴリごとに学習を行います（図２）。最初のステップは，サンプルの舌のコーティングを検出し，キャリブレーションを行います。第2ステップはResnet-50、Inception-V3、VGG-16などの深層学習手法と、LBPやcolor Momentなどにより特徴量抽出を行います。第3ステップは、各サンプルの複雑さを計算・複雑さに応じて、学習サンプルを学習容易・困難に分割します。第4ステップは，各サンプルのこれらの単純性によるラベルから新しい学習データを構築し、識別容易なデータと困難なデータで、それぞれ分類器を訓練し、性能の高いモデルを構築します。またテスト段階（図２右）では、学習段階と同じ方法でテストサンプルの特徴を抽出し、続いて新たなテストサンプルに対して，学習した単純性判別モデルを用いて，テストサンプルが分類しやすいかを判断します。テストサンプルが分類しやすいものであれば，単純モデルが用いられ、困難なら，複雑モデルを用います。

検証方法

提案手法の性能を評価するため，舌画像に関するデータセットを構築し，複数の関連する最先端のアプローチも比較しました。舌画像のデータセットには22,482枚の体質別の画像が含まれており、各体質によって不均衡性があることがわかります（図３）。

また提案手法に用いる特徴量抽出としては、画像の特徴量と色・テクスチャの2種類のモデルを用いていますVGG-16モデル、Inception-V3モデル、ResNet-50を用いています。これらのネットワークは、ImageNetで事前に学習されAdamを用いてバッチサイズ64で100回のエポックを行い，初期学習率は0.0001に設定しています。テクスチャ特徴の抽出にはLBPを，色特徴の抽出にはColor-Momentを適用しています。まず、舌画像を分割し、半径1つの円上に8つのサンプリングポイントを持つ各領域にLBPを導入後、PCAを用いて特徴量をつなぎ合わせ、50次元に縮小します。Color-Momentでは、画像の平均、分散、歪度に基づき、舌画像の色分布に対応した特徴量抽出を行います。最後に、テクスチャと色の特徴の組み合わせとして特徴量として集約します。

本論文では， 5-fold cross validation でトレーニングセットとテストセットを分割し、トレーニングセットの15%を検証セットとして使用しています。また、CPの有効性を評価のため、Softmax，SVM，DecisionTreeの3つの基本的な分類器を用いています。最適なハイパーパラメータθは，検証セットによって決定され、パラメータNとkは、実験経験に基づいて150と50としました。最後に，5回の実験の平均分類精度を用いて，手法の性能を評価しています。

結果

訓練データを変化させた結果

この評価は異なる訓練データセットによって性能がどのように変動するのかを調査するため、3つのデータセットでCPの性能を評価しています。

下の表はデータセットTongue-100、Tongue-80、Tongue-60での比較結果を示しており、Tongue-60は、全トレーニングサンプルの60%を実験に適用したことを意味しています。ξAは全ての学習サンプルで学習された基本分類器ξ，ξEは簡単な学習サンプルで学習された場合，ξDは難しい学習サンプルで学習された場合を表しており、分類器として Softmax，SVM，DecisionTreeの中から選んでいる．

Tongue-100での実験結果から、識別容易なサンプルでは全体より平均精度が2.14%高く、識別困難なサンプルでは平均で12.47%高い結果となっています。これらから，分類器を全学習サンプルで学習するのではなく，分割したサンプルで学習した方が，よる高い性能があることがわかります。さらに，提案手法CPは，3つの分類器を考慮した場合，すべてのテストサンプルにおいて比較手法より優れた性能であるが確認でき、表から、CPは基本的な分類器であるDecisionTreeで最も良い性能を発揮することがわかります。同様に、Tongue-80、Tongue-60の結果から分割したデータセットの方が高い精度を持ち、提案手法は，DecisionTreeを用いて，SoftmaxやSVMよりも優れた分類性能の向上を得ることができます．

カテゴリでの比較

この評価は、提案手法が体質のカテゴリでどのような性能を持つのかを評価する目的で行っています。ベースラインとしてResnet50 + Decision TreeとVGG16 + SVMの両方を使用し、Tongue-100でCPの性能を測定しています。

テストサンプルに対する分類の混同行列（下図(a)(b)）から、Resnet50 + Decision TreeとCPを適用した場合、気虚、陰虚、陽虚に対するCPの認識精度は、2.42%、3.27%、2.11%向上し、痰湿、湿熱、気鬱、柔和のCPの認識精度も向上しています。同様に、VGG16 + SVMとCPの混同行列（下図(c)(d)）から、他のカテゴリーの精度を下げることなく、ほとんどのカテゴリーの分類性能を向上させていることが確認されています。

不均衡性に対するデータ補強の評価

この評価では、評価対象である不均衡データに対する提案手法の性能を調査するために行われています。

データセットにおけるカテゴリが不均衡により、分類器はサンプルを大きなカテゴリに分類する傾向が強くなり、分類精度が低下することが一般的に知られています。そのため、データ補強によって本手法の性能が向上することを示すために、データ補強の実験を追加しました。

認識精度が最も高いVGG-16モデルを選択し、データ補強にはHorizontal Flip、Random Crop、Random Shift、Random rotationを選択した結果（下表）、データ補強により、全手法の性能が向上し、提案手法が最も優れていることが確認されました。

考察

舌の歯形の特徴は、中医学的診断において重要な指標である一方、診断医師の経験や主観的な判断により一般化が困難な問題がありました。そのため、舌画像を用いた深層学習技術を用いて一般化する提案されています。本研究では、特に、舌画像における環境変化などによるサンプルの分類の困難さに応じて、分類モデルを選択するCP法を提案しました。

評価結果として、分類容易なデータセットでは平均して2.73%精度が高く、また複雑なサンプルに対して6.52%高い制度を持つ結果になりました。これらの結果は，複雑さに応じてデータセットを2つのサブセットに分離することで，効果的に分類精度を向上できることを示唆しています。難易度の高いテストサンプルでの比較結果から，Tongue-100，Tongue-80，Tongue-60における複雑なデータセットと全体の精度は，それぞれ12.47%，5.26%，1.84%の差が確認されました。このことから、データセットの大きさによって識別容易なサンプルと困難なサンプルを区別する分類器の能力に影響を与えることがわかります。また、提案手法では，決定木分類器を基本分類器に設定した場合に最も高い性能となりました。

本研究では、向上させ、画像が異なるソースでも、モデルの有効性があることを示唆しています。今回の評価では、中国人患者の舌画像を用いましたが、提案手法は、こうした民族性に依存しないため、他のデータにも容易に拡張できることが期待されます。

　一方で、以下のような課題も考えられます。舌の体質を認識するためのマルチラベル学習が必要だと考えられます。人の体質は複雑で、上述した9つの体質を複数同時に含んでいるケースが想定されるため、こうした場合に備え、マルチラベルによる学習が有効であると考えられます。最後に、サンプルの複雑さを測定する新しい方法を設計することが挙げられます。

この記事に関するカテゴリー

今給黎薫弘