嚥下障害のリハビリを支援するフレームワークの提案

medical 2022年01月04日

3つの要点
✔️ 嚥下障害のリハビリテーションには、ビデオ透視下嚥下試験（VFSS）において咽頭嚥下反射の正確な反応時間を測定することが必要である一方、ミリ秒単位の測定精度が必要であることから、医師の経験によって測定困難なケースがあります。
✔️ 嚥下反射の反応時間を経験に拘らず正確に測定するため、短時間の事象を自動的に検出できる新しいフレームワークを提案
✔️ 嚥下反射時のクラス検出率の平均97.5%（バリデーション）でした。こうした結果から、咽頭嚥下反射の反応時間を自動的に測定することが可能となり、経験に依存せずにVFSSをおこなうことができることを示唆しています。

Machine learning analysis to automatically measure response time of pharyngeal swallowing reflex in videofluoroscopic swallowing study
written by Jong Taek Lee, Eunhee Park, Jong-Moon Hwang, Tae-Du Jung & Donghwi Park
(Submitted on 7 Sep 2020)
Comments: Scientific Reports volume 10, Article number: 14735 (2020)
Subjects: Computer Vision and Pattern Recognition (cs.CV)

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

背景

深層学習の活用により、医師の経験をカバーし、プロセスを自動化するシステムの実現は可能なのでしょうか？

本研究では、嚥下障害におけるリハビリテーションの一種—Videofluoroscopic swallowing study (VFSS)—にて必要とされる、嚥下反射での反応時間の測定を自動化する手法の開発を目指しています。嚥下障害は、栄養低下や高齢者における肺炎を引き起こすなど、重篤な機能障害の要因となり、発症後にはリハビリテーションをおこない、適切な嚥下が実施されるよう促します。こうしたリハビリテーションでは、最初に嚥下機能の評価をおこなうVFSSと呼ばれる手法が実施されます。VFSSでの評価において、嚥下反射の反応時間を測定する必要がある一方、ミリ秒単位の測定精度が求められるため、医師の経験により、測定時間が異なるといった、経験による差が顕著になる課題が存在しています。本研究では、こうした課題に対し、咽頭画像に基づいた画像解析技術を活用し、嚥下反射における反応時間の測定を自動化することを目指しています。

嚥下障害とは

まず初めに、本研究の解析対象である、嚥下障害について簡単に解説します。

嚥下障害（摂食・嚥下障害）は、一言で言うと、上手く食べられない、飲み込めない状態のことを指します。症状は、食べるとむせる、形があるものをかんで飲み込めない、食事に時間がかかる、などがあり、その結果、低栄養、脱水、誤嚥、飲み込んだもので窒息、といった状態を引き起こします。

これらは、高齢者だけでなく、新生児から幅広い年代で発生します。例えば、子どもの摂食・嚥下障害では、先天性の疾患（脳性麻痺、ダウン症など）や、交通事故による脳挫傷などを要因として発症することがあります。また、食べるという行為は、生まれ持っているものでなく、経験を通じて獲得していく後天的なものであるため、食べ方を学ぶ過程・環境が不適切な場合、嚥下障害が発生するケースも報告されています。成人では、脳梗塞などの脳血管疾患、神経・筋疾患が摂食・嚥下障害の原因になることがあり、脳からの指令をうまく伝達できず、舌が動かない、噛めない、といった症状が発生するケースもあります。

嚥下障害で特に問題なのは、栄養低下、誤嚥による肺炎(嚥下性肺炎、誤嚥性肺炎)の二つです。前者では、食物摂取障害により、十分な栄養が摂取できなくなり、低栄養状態、身体機能の低下が引き起こされます。後者では、特に嚥下機能が低下しやすい高齢者によく見られ、高齢者の肺炎の大部分は、加齢による嚥下機能の低下による誤嚥が原因といわれています。日本をはじめとする先進国では、高齢化が加速しており、嚥下障害による肺炎の患者数も増加傾向にあるため、対応の必要性が急速に増しています。

Videofluoroscopic swallowing study (VFSS)とは

VFSSは、嚥下障害の臨床的特徴を評価し、リハビリテーションの方針を決定するためにおこなう試験です。嚥下は主として下記の三つのプロセスから成立します：舌の運動により食べ物を口腔から咽頭に送る時期—口腔期（咀嚼）—；嚥下反射により食べ物を咽頭から食道に送る時期—咽頭期（嚥下）—；食道の蠕動運動により胃まで運ぶ時期—食道期—。嚥下障害は、これらのプロセスのいずれか（もしくは全体）に障害が発生することを指します。VFSSでは、特に咽頭期(嚥下)および食道期を重点的に診断し、誤嚥は障害の結果という位置づけのもと、障害の原因からその対策を練ります。この試験は２軸—Reliability(再現性：何度行っても同じ結果になる)、Validity(妥当性：正解を得られる可能性)—をもとに、８段階のスコアで評価がおこなわれます。

VFSSを活用した評価をおこなうにあたり、咽頭期の嚥下反射における反応時間を正確に測定する必要があります。嚥下反射は、咀嚼によって食塊が形成された後の、飲み込みの反射を指し、0.5秒未満という非常に高速な時間で起こります。そのため、測定には豊富な臨床経験が必要となり、経験の浅い臨床医と熟練した臨床医で、咽頭嚥下反射の測定時間が異なることが多く、相互信頼性が低いことが課題として指摘されています。

研究目的

本研究では、こうした信頼性の低さを改善するため、咽頭画像に対する画像解析を活用した、測定時間の自動導出システムを提案しています。この研究の特徴は三つあります：信頼性の高い応答時間の測定；経験によらない評価手法の提案；リハビリテーション戦略を決定のための情報提供。第一に、実際のVFSS映像から咽頭嚥下反射の信頼性の高い応答時間推定の導出が可能になります—より現場に近いデータの活用により、臨床的な意義が大きいと推察されます。第二に、すべての臨床医がVFSS映像から嚥下反射の正常・遅延・欠如を判断する際に有用となることが予測されます。第三に、リハビリテーション戦略—嚥下反射がない、嚥下困難な患者に対し、より迅速に飲み込みを誘発する熱触覚刺激など—を決定するための臨床情報を提供できます。提案手法の評価では、嚥下反射時間を高い精度で検出し、また、正確な反応時間を自動的に測定可能となったことを報告しています。本手法により、医師の経験の成熟度によらず、正確な測定時間を導出可能となり、嚥下障害のリハビリテーションにおける、評価者間信頼性を改善する効果がある、と考えられます。

手法

データセット

データセットには、主観的嚥下困難を訴えた27名からVFSSデータを活用しています。参加者は22歳から84歳（平均年齢64.9±15.7歳）で、男性21名、女性6名65歳以上の健常者（N = 3、11.1％）で、残りの参加者は中枢神経系疾患（N = 16、59.2％）、または神経筋疾患（N = 8、29.6％）と診断されています。VFSSでは、毎秒30フレームに設定された透視鏡の前に正座し、希釈したX線不透過バリウム（35％w/v）と混合した8種類の物質—3、6、9mLのカルド型ヨーグルト（濃い液体）、3、6、9mLの水（薄い液体）、半熟米（半固体）、蒸し米（固体）—を摂取します。27名の参加者のうち、7名がVFSS中に8種類の物質を摂取し、8回の咽頭嚥下事象を完了しています。9 名の参加者は、1 つの物質を飲み込む際に複数回の咽頭嚥下が発生し、8 回以上の咽頭嚥下イベントが完了されました。11名は、VFSS実施中に誤嚥が激しく、すべての物質を飲み込めなかったため、咽頭嚥下回数が8回未満、という結果でした（下図）。

また、咽頭嚥下イベントのビデオクリップを15フレーム/秒（FPS）で取得、専門家 2 名により映像中の咽頭嚥下反射の始点と終点を評価し、正解ラベルを付与しています。

モデル

先行研究の結果、また、学習プロセスの加速のために、事前に学習されたInception-V1アーキテクチャ—4つの最大プーリング層、平均プーリング層、2つの畳み込み層、9つのインセプションモジュール：計算コストとオーバーフィッティングを改善—をベースとして活用しています（下図参照）。

結果

評価条件

VFSSの生映像から抽出した計207個の咽頭嚥下イベントクリップに、専門臨床医による咽頭嚥下反射の開始点と終了点のアノテーションをおこない、学習データとして活用しています。

学習とテスト

汎化能力を実証するために、5 fold-Cross validationをおこなっています。GPUとして、Titan Xを活用し、嚥下反射映像全体の約80%をトレーニングセットとして使用し、残りをテストセットとしています。テストデータには、トレーニングデータに含まれない患者を、27名の参加者の中から5〜6名の患者を選び、その嚥下反射動画を全てテストデータから分離しています—5群のテストデータが作成され、テストデータの嚥下反射イベント数は40～42であることが報告されています。

評価指標

評価指標には、以下の三つです：F-1スコア—精度とリコールの調和平均—；嚥下反射における始点と終点の時間誤差—真の正解とラベル間の嚥下反射の始点と終点のフレームインデックスの差—；IOU（Intersection over Union）—嚥下反射の予測時間と正解時間での結合のフレーム長のうち、交差のフレーム長の比率—。

評価結果

咽頭嚥下反射の時間計測の信頼性

嚥下障害患者 10 名の VFSS ビデオを用い，クラス内相関係数（ICC）と 95%信頼区間（CI）を算出し，評価者間および評価者内の信頼性を評価しています。評価者間信頼性では、臨床情報ともう一人の検者による測定結果を盲検化した2人の検者が、異なる時点での咽頭嚥下反射の時間の測定結果を評価しています。その結果，評価者内・評価者間信頼性で共に高い精度を達成したことを報告しています—評価者内信頼性：ICC = 0.982 (CI: 0.972-0.989) ；評価者間信頼性：ICC = 0.968 (CI: 0.939-0.983)— ．

モデルによる評価結果

訓練データセットと検証データセットにおける嚥下反射時クラスの検出における平均成功率は、それぞれ98.2%と97.5%、でした。また、嚥下反射の開始点および終了点における予測検出値と真の正解の差は，それぞれ0.210秒および0.056秒であったと報告されています。F1スコア（下図参照）では、IOUの閾値のよって下記のような評価結果となりました：IOU閾値が0.2の場合、検出F-1スコアは94.7%—トレーニング—と87.5%—バリデーション—；IOUの閾値を0.4とした場合、F-1スコアは74.7%—トレーニング—と、67.5%—バリデーション—。

考察

本研究では、VFSSにおける咽頭嚥下反射の反応時間を自動測定する方法を新たに提案しました。具体的には、ラベル付された咽頭画像に対して、画像解析技術を活用し、学習を通して、反応時間の自動的な測定を目指しています。評価結果は下記の通りでした：嚥下反射時のクラス検出の平均成功率は、98.2%—トレーニング—および97.5%—バリデーション—。本モデルにより、嚥下障害患者における嚥下反射の欠如・遅延の推定や、熟練・非熟練臨床医間の咽頭嚥下反射の反応時間評価における低い評価者間信頼性を改善することができ、臨床現場において、有用なツールとなることが推察されます。

また、本手法の咽頭嚥下反射の応答時間測定は下記のようになりました：嚥下反射の予測応答時間とラベルとの差が約1〜2.5フレーム（0.067〜0.167秒）。VFSS において、嚥下反射の反応時間の正常値は、健康な若年者では 0.21 ± 0.26 s、高齢者（65 歳以上）では 0.53 ± 0.64 s であり、今回の予測結果は、健常者の嚥下反射時間の標準偏差の範囲内であった、と推察されます。こうした結果から、本手法は、嚥下障害患者における咽頭嚥下反射の欠如や遅延の診断に有効であることが考えられます。

一方、本研究には、複数の課題が考えられます：サンプル数の小ささ；反応時間のみの評価。第一に、小さなサンプル数—サンプル数20程度—でのみ評価しており、信頼性が低い可能性が考えられます；一方、評価結果から、咽頭嚥下反射の非常に短い時間を高精度で測定可能であることが示されたため、予備的な研究として有用であると考えられます。これに対する解決策として、サンプルサイズを増加させることや、少ないサンプル数でも高精度を実現できるモデル—Fine-tuning、転移学習など—の導入、が考えられます。第二に、咽頭嚥下反射の反応時間のみを分析し、嚥下過程の口腔、咽頭、食道相の他の時空間パラメータを除外している点です。咽頭期以外の障害については評価されていないため、嚥下障害全体に対して有効であるか、は不透明です；そのため、臨床場面における同様のVFSSの解釈方法と提案手法を統合した評価をおこない、より広い範囲での有効性を示していく必要があると考えられます。