サンプル数の少ない画像から高精度のモデルを構築！転移学習を用いた、舌画像の分類モデルの提案

medical 2021年05月20日

3つの要点
✔️ 中医学において、舌画像と健康状態は密接に関係しているとされ、解析技術による自動診断における応用に注目が集まる一方、舌画像はサンプル数が少ない傾向が課題として指摘されています
✔️ 本論文は、舌画像におけるサンプル数の少なさを解消することを目的として、少ないサンプル数でも高い精度を実現することが可能な転移学習を用いて、舌画像の分類性能を調査しました
✔️ 転移学習モデル—ResNet・Inception_v3—と2245枚の舌画像のデータセット評価結果から、提案手法が既存手法よりも優れた分類精度を達成し、舌画像における転移学習習の有効性が明確にしました

Classifying Tongue Images using Deep Transfer Learning
written by Chao Song Jiatuo Xu
(Submitted on June 2020)
Comments: Published by IEEE
Subjects: Transfer learning

背景

舌画像におけるサンプル数の少なさを解消するために、転移学習は有効なのでしょうか？

この論文では、舌の画像解析に対する画像解析に関する転移学習の妥当性を明確にする目的で、画像解析に関する転移学習モデル—ResNet、Inception_v3—を元に、2245枚の舌画像のデータセットを用いて、3種類の特徴量分類に関する調査をおこなっています。中医学において、舌と人間の健康状態は密接に関連しているとされるため一方、診断医による主観性の占める部分が多く、客観性に乏しい課題が指摘されています。そのため、深層学習を用いて、舌画像から自動的に特徴量を抽出・学習し、主観性を補填する診断技術の開発に注目が集まっています。その一方、これらの画像では、サンプル数が少ない傾向が課題として指摘されています。本研究では、こうした課題に対し、少ないサンプル数でも高い精度を実現できる、転移学習を組み合わせ、舌画像の分類性能を調査しました。提案手法では、学習率の異なるモデルを選択的に組み合わせ、評価結果として、3種類の特徴分類において、従来手法よりも高い性能を示しています：平均正答率95.92%。こうした結果から、転移学習は、舌画像の分類問題においても高い精度を持ち、診断医の主観性を解消する解決策になりうることが予想されます。

東洋医学とは

まず初めに、東洋医学について、簡単に解説します。

東洋医学は、古代中国を発祥とする、約2000年の歴史を持つ伝統医学です。東洋医学は、現在、多くの先進国で導入されている、西洋医学と異なる特徴を持ちます：例えば、西洋医学では、投薬・手術など体の悪い部分に直接アプローチする一方、東洋医学では、体の不調を内側から根本的に治す治療をおこないます；また、西洋医学は、短時間で病気を治療する対症的な治療が主流ですが、東洋医学は、負担が少なく、病気の根本に重点をおいた、より長期的な根治治療をおこないます。そのため、西洋医学では対処困難な、難病といった、疾患に対する治療・改善に、東洋医学を用いるケースも報告されています。また、東洋医学では生薬や漢方、鍼や灸などを用いており、よく耳にする「ツボ」も、東洋医学の独自の考え方です。

東洋医学では、臓器は、独立するものでなく、互いに関連し合うという考え、特定の臓器でなく、体全体を診断します。この考えに則った概念が、「気血水」です。「気血水」は東洋医学における体の捉え方の概念であり、「気」は生命活動に必要なエネルギー、「血」は血液、「水」はリンパ液や汗などの血以外の体液、を指します。これらが、体内を過不足なく、滑らかに巡る状態が健康であると考えます。また、前述のように、これらは互いに影響を及ぼし合うため、どれか一つに異常があると、全体のバランスおよび体調が崩れ、不健康状態につながります。そのため、これらのバランスを維持することが、健康維持にもつながるとされます。特に、「気」は生命力の源とされ、「病は気から」という言葉通り、まずは、「気」巡りを最重要として、治療をおこなうことが多いです。こうした関係性をより身体的な側面から示した、「五臓」という概念があるため、次章にて説明します。

五臓とは

五臓は、気血水を巡回させる働きを持ち、「肝」「心」「脾」「肺」「腎」の5つから構成されます—これらは、「臓」という字はつきますが、西洋医学の、いわゆる臓器とは異なる概念です（一部重複もあります）。

各臓には特有の働きがあり、これらがスムーズに働くことで健康状態が維持されます：肝は、血液の貯蔵、自律神経などのコントロール；心は、血液の循環、睡眠リズム調節；脾は、代謝や筋肉への栄養供給；肺は、気血水を全身に巡回、外敵から保護；腎は、成長、発育、生殖、老化、排泄、とされます。これらを整え、気を巡回・維持させることで、健康状態を維持し、長寿になると考えられています。また、これら「臓」と主従関係にある概念として、六腑があります—五臓の子供のような関係で、「胆・小腸・胃・大腸・膀胱・三焦」から構成され、それぞれ、肝・心・脾・肺・腎・心包（心を包む膜）に対応しています。

また、五臓の関係性を示す、「相生・相克」という概念があり、実際の治療の指針にも用いられます。前述のように、五臓は、それぞれ独立して働かず、互いに関連し合っており、その関係性を示すのが、「相生・相克」です：相生は、互いの臓を高める関係；相克は、抑える関係です—例えば、「肝」と相生の関係にあるのは、「心」とされており、心血管疾患の患者さんに対しては、心自体に加え、肝を補強する治療もおこなわれます。このように、一つの臓器でなく、全体の流れを重視した捉え方が東洋医学の特徴です。

舌診とは

舌診は、舌の形や色などから病気の診断をおこなう、東洋医学の診断法の一つです。東洋医学において、舌の状態は、身体内部の健康状態—内臓、気、血、寒さ、熱など—や、病気の重症度・進行度を反映しているとされ、こうした状態を観察することで、適切な治療法を選択する一助になると考えられています。

一方、伝統的な舌診は、施術者の主観的な観察に基づく部分が大きく、個人の経験や環境の変化（照明など）によって偏りがある、という課題があります。特に、東洋医学で重視される、体質の診断では、体質自体も主観性があることも相俟って、一般化するのが困難であると考えられています。そのため、これらの評価や舌画像の一般化に関するフレームワークを提案する数多くの研究が報告されています。このような一般化に対して、舌画像に対する深層学習の導入に注目が集まっています。

舌画像における深層学習の導入に対する課題

こうした課題に加え、舌画像に関する大規模なデータセットは、現在公開されている中では存在せず、サンプル数が少ない問題も指摘されています。深層学習法では、通常、有効な画像特徴を抽出するために多数のサンプルを必要とします。一方、現状として、舌画像はサンプル数が少ないケースが多く，少量のサンプルデータから、妥当性の高い特徴を抽出する手法を明確化することは、こうした課題を解決する上で、重要な意義を持ちます。

本研究の目的

本論文では、少ないサンプル数でも高い性能を実現できる転移学習を複数組み合わせ、舌画像の特徴量抽出を導出し、これらの画像による自動診断・治療技術の開発を目的としています。本研究では，舌画像におけるセグメンテーションに必要な多大な時間と労力を削減するため、カスケード分類器と深層伝達学習を組み合わせた分類法を提案しています—具体的には、LBP（Local Binary Pattern）特徴量に基づくカスケードを用いて、舌体の位置を自動的に決定、およびセグメンテーションの自動化を実現しています。さらに、異なる学習率をもつ複数の転移学習モデルを組み合わせることで、高精度の分類・認識を実現することを目指します。

手法

提案手法の概要

提案モデル（図２）は、カスケード分類器でセグメンテーションされた舌画像をニューラルネットワークの入力に定め、異なる深層学習モデルを用いた舌画像の特徴抽出を通して、最終的な舌画像における特徴分類モデルを構築することで、3つの異なる特徴の予測モデルを構築します。これらのステップのうち、a) 舌のセグメンテーション、b) 転移学習モデル、を下記で述べていきます。

舌のセグメンテーション

この手法は、精度向上を目的として、舌画像における、舌以外の部分の削減—セグメンテーション—および舌領域を自動的に定めるものです。

通常、撮影された舌画像には、舌本体に加え、舌以外の関連しない他の情報—表情・背景など—を持つ場合が多いです。これらの情報は、舌の画像解析において、性能を低下させる要因となるため、まず、舌本体をセグメント化する必要があります。ここでは、LBP特徴を用いた抽出手法にから、カスケード分類法に基づいた舌領域の自動定位およびセグメンテーション方法を提案する。

ここで，(xc, yc)は中心画素の座標，pは近傍のp番目の画素，icは中心画素の階調値，ipは近傍画素の階調値，s(x)は符号関数です（下記参照）

転移学習モデル

ここでは提案手法で用いられている、転移学習を用いたモデル—3つの異なるニューラルネットワークを組み合わせた提案モデル—について解説していきます。

この研究において、選択した舌画像データセットは、元々のネットワークで学習に使用されている、ImageNetとは、サンプルサイズ・分布が大きく異なるため、舌画像から適切な特徴量を抽出できないこと—オーバーフィッティングや、勾配の消失によるネットワークモデルを効果的に収束できない問題など—が想定されます。

そのため、ネットワークの安定性と性能を向上するため、複数の改善を導入しています：出力層を、Global average poolingおよびDense に置換しソフトマックス関数で出力—ネットワークを正則化し、オーバーフィッティングを防止；SGD（stochastic gradient descent）を利用した最適化；モデルごとに異なる学習率を設定。これらの設定を用いて、3つのネットワークの分類精度を比較することで、ネットワークの深さが分類結果にどのように影響するかを分析し、転移学習の有効性を検証します。

検証方法

提案モデルの性能を検証するため、舌画像データは、セグメンテーションをおこない、異なる深さのニューラルネットワークで学習を通して、3つの異なる舌画像の特徴—歯形のついた舌、ひび割れた舌、舌の厚さ—を分類する問題を設定し、比較・検証をおこないます。

検証における実験データは，複数の病院から集められ、中医学の専門家によって分類されました—歯形のある：516枚，歯形のなし：566枚，ひび割れ：391枚，ひび割れなし：250枚，厚い：392枚，薄い：130枚。オリジナル画像のサイズは，5568 * 3172 ピクセルに固定しています。

結果

転移学習以外のモデルとの比較結果

この評価は、本研究で提案している、転移学習を用いたモデルの性能について、従来の画像解析モデルと比較し、明確化する目的でおこなっています。評価として、3種類の特徴：Ⅰ. 歯痕；Ⅱ. 舌のひび割れ；Ⅲ. 舌の厚さ、に関する特徴量について、性能を評価しています。比較モデルとして、3つの画像解析モデル—ResNet18、ResNet50、Inception_v3—との比較をおこなっています。

評価結果（表１）から、提案手法は、舌の画像特徴の分類精度を向上させ，深層ニューラルネットワークの学習コストを削減することができる．同時に、ネットワークモデルの学習が高速化されることが示されました：平均分類精度95.92%。この結果から、舌画像の3つの特徴に対しても、提案手法の性能が、従来手法より、優れていることがわかります。

考察

中医学における舌診の主観性解消のため、舌画像による自動診断に注目が集まる一方、これらの画像におけるサンプル数の少なさが、課題として指摘されています。こうした中、本研究では、少ないサンプル数でも高い精度を実現できる、転移学習を組み合わせ、舌画像の分類性能を調査しました。提案手法では、学習率の異なるモデルを選択的に組み合わせ、画像の特徴量をより正確に抽出することを目指しています。評価結果として、3種類の特徴分類において、提案手法は、従来手法よりも、いずれの場合も高い性能を持っていました：平均正答率95.92%。これらの結果から、転移学習を用いた手法は、舌画像の分類問題においても、高い精度を持ち、中医学の舌診における、診断医の主観性を解消する有効な解決策になりうることが期待されます。

また、提案モデルは、層数の増加による推定精度の低下に対して、頑健であることが評価結果（表１）から推察されます。一般的に、ネットワークの層数の増加とともに分類精度が上がるモデルがある一方、ある層数まで増えると、急に精度が落ちてしまいます—上記の表で言うResNetなどで確認されます。これは、データセットに対するオーバーフィッティングにより、一定以上の層数になると、分類性能が低下してしまっていることが考えられます。これらの課題に対し、異なる学習率を選択できる提案法を用いることで，オーバーフィッティングを効果的に回避し、分類精度を向上することができます。

　一方で、以下のような課題も考えられます。第一に、今回の評価において、舌画像のセグメンテーションの評価に関する詳細部分が述べられていない点です。一般に、舌画像は通常のカメラといったデバイスで撮影されるため、測定誤差—デバイスや撮影者の間における誤差—の影響があると考えられています。実際、こうした課題を考慮した舌画像の抽出—舌画像に対するセグメンテーション—に焦点を当てた研究が、複数報告されています。本研究では、セグメンテーションについて、LBPに関する前処理をした記載がある一方、これらの手法が、精度に与える影響について述べていないため、不明瞭であることがあげられます。この点については、複数の撮影デバイスを用いて、評価をおこなうといった解決策が考えられます。第二に、分類の評価指標として、正答率を用いている点です。舌画像の多くは、体質や特徴量に不均衡性があると、複数の研究で言及されているため、正答率による評価では、不均衡性による影響が強く、評価指標として妥当ではない可能性が高いと考えられます。そのため、Area under ROC curve (AUC)といった、陽性の影響を考慮した指標も並行して、示す必要があると考えられます。