医療ロボットで感染率が劇的に低下！？臨床現場におけるロボット活用に対する協調制御手法の提案！

medical 2022年04月12日

3つの要点
✔️ 特定のパターンで実行可能な作業におけるロボットの導入に注目が集まっている
✔️ 本研究では、COVID-19に直接曝される人々において、医療サービスを提供する医療ロボット導入を目的としたロボット協調モデルを目指す
✔️ その結果、時間・空間の複雑さに対して、Q-learningが有効であることが示唆された

A reinforcement learning based algorithm for personalization of digital, just-in-time, adaptive interventionsPrevention of Covid-19 affected patient using multi robot cooperation and Q-learning approach: a solution
written by Suat Gönül, Tuncay Namlı, Ahmet Coşar, İsmail Hakkı Toroslu
(Submitted on May 2021)
Comments: Artif Intell Med

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

背景

感染リスクの高い現場で医療ロボットの導入は可能なのか？

本研究では、強化学習に基づき、感染症の最前線において医療ロボットの導入を促進させる、最適な協調方針の導出アルゴリズムの構築、を目指す。

依然として猛威を振るうCOVID-19では、感染者の咳・くしゃみの飛沫、汚染された表面を通じて感染し、1人の感染者から平均して3〜10人に感染が拡大する；一方、医療従事者は患者との接触が多く、感染リスクが飛躍的に高くなるため、医療従事者の感染を防ぐために、ロボットの導入が検討されている：具体的には、患者の世話をする仕事—食事や薬、水を与える—において、重点的な導入が開始されている。他方、こうしたロボット同士の連携について、記述した報告は限られている—これらロボット間において、適応的な協調がない場合、誤作動や現場の混乱を招く可能性が高まり、また、効果的な治療の実現が難しくなる。

本研究では、医療従事者が患者や感染にさらされる可能性を減らすことによる、ウイルスの拡散率制御を目指し、強化学習によるロボット間の協調アルゴリズムを提案する：具体的には、Q-learningを用いて、制御された環境下で決定論的な行動選択を構築し、各ステップの性能は、使用されるアルゴリズムとパラメータに基づく目的関数を用いて測定し、学習をおこなう。本研究でのロボットは、以下のように動作することを想定した；対象ベッドへの患者搬送：救急車到着時から空いたベッドに患者を移動；薬と食事の提供：患者に薬と食事を時間通りに提供；オンコールサービスプロバイダ：要求された患者に配水などのサービスを提供；患者の急変時に医師を呼び出す緊急コントローラ

こうした過程に基づき、本論文は、(1)医療従事者の被ばく可能性の低減、(2)医療ロボットの配置による医療従事者の削減、(3)作業分担に基づく医療ロボットのグループ分類、(4)ロボットの経路探索に対する強化学習アプローチの適用、(5)衝突回避経路の計算と共働ロボット間の協調、を主として扱う。

COVID-19とは？

ここでは、解析対象であるCOVID-19について簡単に解説する。

COVID-19は、2019年に中国武漢市で発見され、その後、全世界に感染拡大し、パンデミックを引き起こした—2022年現在、新株の変異種を始め、以前として猛威を奮っている。このウイルスでは、感染後4、5日後ほどで発現する—長ければ2週間経過したのち、症状が発生する。主な症状は、次のようなものである：発熱；咳；息苦しさ；体のだるさ；においや味がわからなくなる。高齢者や心臓病、糖尿病等の基礎疾患を持つ患者では、重篤な肺炎を引き起こす可能性が高く、そのほかの世代も、呼吸器症状、高熱、下痢、味覚障害などが報告されている。遺伝子配列解析から、このウイルスは、コウモリ、センザンコウのコロナウイルスと類似する報告があり、これらが遺伝子組み換えを起こした可能性が指摘されている。2021年９月までに、世界で感染が確認された人は2億2千万人、死亡者は455万人であると報告されている。咳や飛沫を介してヒトからヒトへ感染し、主に空気感染により拡大する。現在、有効性の高いワクチンの開発により、感染防止が進められている。

手法

問題の定式化

ここでは、本研究における解決すべき課題の定式化について述べる。

この評価では、COVID-19医療環境で働く複数のロボットを想定し、定式化されている—下図参照。

これらのロボットは、割り当てられた機能に基づいて2グループに分けられる：

(1)患者搬送ロボット：新たな患者を入口からCOVID-19ホール内のターゲットである空ベッドに搬送する目的で、2台のロボットが割り当てられる。これらは画像センサを搭載し、入口付近に待機し、患者の到着を確認したら、保持、配置、移動、復帰の機能を実行し、患者をストレッチャーに乗せたまま目標に到達させる。このロボットは、担架の長さで示される、距離制約を満たす必要がある—もし、距離制約がそれ以上であれば、患者をある位置から別の位置へ移動させる際に問題になる。ここでは、Q-learningにより、衝突回避をおこないつつ、目標に向かう各ステップでの次の位置を計算する。

(2)サービスプロバイダロボット：患者に薬、食料、水などのサービスを提供し、健康状態を監視する。これらは部屋の中にいることを想定する。時間・温度センサーを搭載し、患者の薬や食事の時間はロボットに設定されている—このタスクを記述する関数はそれぞれ PRO-MED (R, i, t), PRO-SER (R, i, t) と表される。各ロボットにて情報は配列に格納され、エントリーは患者のタイミングを表す。温度センサーは患者の体温を感知し、そのデータを関係する医療従事者に送信する—もし、緊急事態が発生した場合は、必要な措置を取ることができるよう、医療従事者にビデオ通話をすることができる。また、一部のロボットには画像センサーや温度センサーが搭載され、患者の要望を聞きながら、健康状態をモニタリングする。

ロボット同士の衝突を回避するために、適切な経路を導出するアルゴリズムも構築している—ロボットに割り当てられた位置から、目的の患者に到達するための最適な経路を計算する。これらの導出では、希望する最短経路𝐷Aと実際に得られた経路𝐷Cの差分、また、目的関数に基づき、計算がおこなわれる。経路は式 1 と式 2 のように計算される。

同様に、ロボットの目的関数も計算され、ロボットが行う旋回や回転で発生する遅延コストを最小にする—下式参照。

動作モデル

ここでは、ロボットがおこなう動作モデルについて述べる。

理論モデルの構築にあたり、COVID-19の患者ホールを、ベッドとロボットが格子状に配置された約400×500ピクセルの領域とする。ロボットは6自由度の車輪を備えている。また、次状態の計算は、作業手順をロボット群により2つのケースに分けた：

Case1：グループ 1 のロボットの作業手順に該当。両ロボットはCOVID-19患者を図中のTARGETと呼ばれる空のベッドに運ぶと仮定する。このロボットは、一回の移動でロボット間の距離がストレッチャーの長さと同じになるように次のステップを行う。

Case 2：グループ２のロボット対象。group1ロボットと同様に全方向に移動可能な1台のロボットである。ターゲットの距離と方向から、ロボットは次のステップを選択する。

これらロボットにおける、アルゴリズムは、ロボットの位置・グループの初期化から始まる。初期化されたグループによって、作業内容が異なる：グループ1は、グループ内の協力ロボットを見つけ、患者の到着を感知し、その後、患者のいる目標に向かって行動する—もし、障害物があった場合、Qテーブルを更新し、次のステップを探索する；グループ2は、ターゲットとなる患者を特定し、FIND関数を呼び出す—この関数は、サービスを提供するために、衝突を回避しながら次の位置を返す。同じように、ロボットは患者の要求を察知してサービスを提供する。また、このロボットは、患者の健康状態をモニターする役割も担う—もし、体温が閾値から逸脱していたら、緊急に医師を呼ぶ。

結果

このセクションでは、評価について解説する。

リスク解析

COVID-19におけるデータセットを活用し、ロボット導入によるリスク評価をおこなった。ウイルスのパンデミックは、R naught値—ある人から他の人への拡散率—を活用した。

また、これらデータセットから、COVID-19の最前線で業務に従事する人は、感染の危険性が高いことがわかる—下図参照；一方、こうした人々に対して、医療ロボットを導入することで、接触頻度を減少させ、医療従事者の感染率を従来の2%程度まで抑える、ことが可能となる。

比較分析

提案手法と既存手法の比較をおこなう。ここでは、利用された時間空間と有効性に関して分析した—空間の複雑さ；計算量

空間の複雑さ

提案アルゴリズムでは、Qテーブルを格納する空間を必要とする。評価において、設定したCOVID-19ホールをN—状態の数—×M—各状態に関連するアクションの数—の行列で表現しているため、N×Mの行列が必要となる；そのため、空間複雑度はO(MN)となり、次の状態識別のために、最大のQ値を決定する必要がある。一方、Q値とロック変数を格納する記憶領域を設定することで、空間複雑度をO(N)に削減することもできる。

時間計算量

Q-learningでは、行動ごとにQテーブルにアクセスし、M - 1回の比較を必要とする—そのため、N台のロボットにおけるアクセス回数はN×（M-1）となり、時間計算量はO (MN)となる；一方、実臨床現場への導入を想定すると、ロボットの行動セットは 8アクションに制限するため、定数項Mを無視することができ、複雑度はO (N)に抑制される。

考察

本研究では、医療従事者へのサポート促進を目的として、強化学習に基づき、ロボット導入・活用における各ロボット間の協調アルゴリズムの提案をおこなった。

COVID-19の感染拡大防止を目的として、医療従事者をはじめとする、最前線で従事する雇用者に対する予防策が必要とされている—これらの人々に対する感染リスクを軽減するため、ロボットの導入に注目が集まっている。本論文では、患者の搬送、食事や薬の提供、救急医療への対応などをおこなう医療ロボットと対象とし、その配置・導入方法の最適な方針を導出するモデルを構築した：具体的には、強化学習—Q-learning—により，医療ロボットが協調して作業をおこなう最適な方針の導出をおこなう。本モデルにより、医療従事者の死亡率を2%に抑える可能性が高いことを確認した。

本研究の強みとして、医療ロボットの協調性に注目した導出アルゴリズムの提案、が考えられる。依然として猛威を振るうCOVID-19の感染リスクが高い人々において、感染拡大をいかに防止するか、と言う課題解決が急務となっている。こうした現場での治療に当たり、特定のパターンを持つ作業—患者の運搬・サービス提供—が想定されるため、こうしたパターンを医療ロボットに代替させることで、感染リスクの低減、および、コスト削減につなげられる：これら作業では複数ロボットの導入が必要となるため、協調制御に注目した本研究の趣旨に新規性があると考えられる。また、活用しているアルゴリズムのシンプルさ、も利点である。強化学習における、臨床現場への導入課題として、学習プロセスの複雑さ・学習コストの高さ、が指摘されている。これらは、アルゴリズムが複雑になるほど、導入への困難が高まる—そのため、提案モデルでは、q-learning といった、シンプルなRLアルゴリズムを活用することでこれらコストを可能な限り抑制し、現場における導入をはじめとする実現性が高いことも利点として考えられる。

一方、課題として、臨床現場に対する導入コスト、および、現場従事者への知識の共有、が考えられる：具体的には、ロボット導入における初期投資—i.g. ハード・ソフトウェアの購入—が必要となり、地域によっては導入できない可能性がある、ことが思案される。こうした課題に対する解決策として、今回用いたアルゴリズムの対象をロボットではなく、現場で働く人として再構築し、感染リスクが最小化される最適な配置方針の導出モデルを導出することが考えられる。また、医療ロボットの有効的な活用のため、現場従事者における知識の補填が必要である、と想定される。こうした課題に対しては、ロボットの活用に関するマニュアル化・専門家との連携、が解決策として考えられる。