希少遺伝性疾患診断のためのマルチモーダルモデル「GestaltMML」
3つの要点
✔️ 新しいマルチモーダルモデル「GestaltMML」を提案
✔️ 正面顔写真、臨床特徴、人口統計情報を統合して、希少遺伝性疾患の鑑別診断を精確に行うためのデータを補完
✔️ マルチモーダル機械学習を利用することで、遺伝的診断の予測精度が大幅に向上
GestaltMML: Enhancing Rare Genetic Disease Diagnosis through Multimodal Machine Learning Combining Facial Images and Clinical Texts
written by Da Wu, Jingye Yang, Cong Liu, Tzung-Chien Hsieh, Elaine Marchi, Justin Blair, Peter Krawitz, Chunhua Weng, Wendy Chung, Gholson J. Lyon, Ian D. Krantz, Jennifer M. Kalish, Kai Wang
(Submitted on 23 Dec 2023 (v1), last revised 22 Apr 2024 (this version, v2))
Comments: Published on arxiv.
Subjects: Quantitative Methods (q-bio.QM); Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG); Multimedia (cs.MM); Genomics (q-bio.GN)
code:
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
概要
世界人口の約6%が何らかの希少遺伝性疾患の影響を受けていると言われています。アメリカでは20万人未満、ヨーロッパでは2,000人に1人未満の割合で発生していると言われており、また、OrphanetとOMIMのデータベースによると、現在少なくとも7,000種類の希少遺伝性疾患が存在するとされています。
希少性と幅広い表現型の多様性が原因で、遺伝的診断は困難を極め、「診断のオデッセイ」とも呼ばれる長期にわたる診断プロセスが必要になることがよくあります。遺伝的症候群が疑われる患者は、多数の臨床評価、画像診断、実験室検査に加え、核型(カリオタイプ)、染色体マイクロアレイ、遺伝子パネル、エクソームシークエンシング、ゲノムシークエンシングなどの遺伝的検査を受ける必要があります。多くの異なる症状に対して詳細な鑑別診断を行う必要があり、どの診断検査を使用すべきかの判断が難しく、臨床医はとって大きな課題となっています。
多くの遺伝性疾患は、顔貌に特徴があり、これが診断の手掛かりとなり、専門家への迅速な紹介や適切な遺伝検査の選択を助けることがあります。しかし、顔貌の特徴による症候群の認識は、臨床医の顔の認識に関する経験に大きく依存します。顔貌の特徴を示す希少遺伝性疾患は数百にも及び、顔による認識作業も簡単ではありません。
最近では、コンピュータビジョンの進歩を背景に、患者の2Dの正面顔画像をもとに希少遺伝性疾患を分析・予測する次世代フェノタイピング(NGP)が開発されました。その一例が、FDNA Inc.によって開発されたDeepGestaltで、これはCASIAデータセットを使用して深層畳み込みニューラルネットワーク(DCNN)で事前学習され、その後17,106人の患者の正面顔画像と216の疾患データでファインチューニングされています。しかし、DeepGestaltは限られた症候群にのみ対応しており、さらに多くの症候群をカバーするためには、新たな画像の収集とモデルの再学習が必要です。これに対応するためにGestaltMatcherが導入されました。これはDeepGestaltの特徴層を使用して新たな表現空間(Clinical Face Phenotype Space - CFPS)を形成し、未知の疾患を含めて患者間で最も近い一致を見つけ出すことができます。これにより、モデルのアーキテクチャを変更せずに新たに特定された症候群を統合することが可能になりました。
しかしながら、顔画像だけでは十分な情報を提供し、正確な診断を下すことが難しい場合が多々あります。例えば、ヌーナン症候群(NS)、プラダー・ウィリ症候群(PWS)、シルバー・ラッセル症候群(SRS)、アールスコグ・スコット症候群(ASS)といった症候群は、低身長という共通の特徴を持っていますが、これは正面からの顔の写真だけでは捉えられません。また、睡眠障害や平衡感覚障害、知的障害なども、顔やその他の身体の写真では効果的に捉えることができません。これらの特性を理解するには、追加のデータが必要です。
さらに、年齢、性別、人種や民族差が、さまざまな障害や症候群の表出や頻度にどのように影響するかを検討する研究も多数行われています。特定の少数派グループは、データの可用性や収集、分析プロセスに根ざした体系的なバイアスのために、誤診断や不正確さがあります。これらの事実にもとづき、顔の画像と臨床HPO用語を統合する新しいモデルが開発されています。
その一例が、「画像分析によるエクソームデータの優先順位付け」(PEDIA)で、これはDeepGestaltの高度な表現型ツールからの洞察を持つシーケンスバリアントの解釈を組み合わせています。このアプローチは、正面画像を用いて、より包括的な評価を行うことで、専門家の評価と人工知能の分析を融合しています。さらに最近では、PhenoScoreというAIベースのフレームワークが導入されています。このフレームワークは、2D画像からの顔の特徴抽出とHPOベースの表現型類似性計算の2つのモジュールで構成されており、抽出された顔の特徴とHPOの類似性に基づいて症候群を分類するためのサポートベクターマシン(SVM)を使用しています。しかし、既存のモデルは画像とテキストを別々に処理し、その結果を組み合わせるため、学習中に異なるモダリティ間の相互作用を完全に捉えきれていないため、情報の損失が生じる可能性があります。
これらの課題を解決するために、最近ではDxGPTという、希少遺伝性疾患の診断に特化したテキストのみのGPTベースのモデルが開発されています。このモデルはクローズドソースのGPT-4をもとに構築されており、マルチモーダル機械学習(MML)の方法論を用いて、顔の画像と臨床テキストを一貫した方法で処理することを目指しています。この方法論は、年齢、性別、民族性を含む人口統計情報と臨床ノートを含むテキスト情報と患者の顔の画像を効果的に統合し、データの完全性と豊かさを保持することを目指しています。
このように、GPTをはじめ、トランスフォーマーを基盤としたマルチモーダル機械学習モデルの進展により、希少遺伝性疾患の予測と診断が一新されつつあります。「Attention is all you need」という革命的な論文に端を発したトランスフォーマーは、自己注意メカニズムを用いてデータシーケンスを並行して処理することを可能にしました。これにより、モデルは効率的なトレーニングとスケーラビリティの向上を実現し、大規模なデータセットにも対応可能になります。
この技術は自然言語処理(NLP)とコンピュータビジョン(CV)の分野で広く応用され、機械翻訳、テキスト生成、感情分析から画像分類、物体検出、ビジュアル質問応答まで、多岐にわたるタスクにおいてその有効性を示しています。さらに、最近の研究では、ViLT、CLIP、VisualBERT、ALBEF、Google Geminiなど、トランスフォーマーを活用したいくつかの画期的なマルチモーダルモデルが開発されています。
この論文では、これらの最新の技術を活用し、希少遺伝性疾患の診断における精度と効率をさらに向上させ、患者の治療過程を改善することを目指した、新しいアプローチである「GestaltMML」を開発しています。
実験概要
下図(A)は、全体的なワークフローを示しています。GestaltMMLは、適切な前処理を施した顔画像、人口統計情報、GMDB(GestaltMatcherデータベース)およびOMIM(OMIM: Online Mendelian Inheritance in Manデータベース)の各疾患の臨床表現型の説明を使用しています。
下図(B)は、Sotos症候群を例に使用したGestaltMMLのデータ前処理パイプラインの流れを示しています。GMDBの顔画像は、「FaceCropper」によって切り取られ、112*112のサイズにトリミングされ、回転されます。また、学習用のテキストは、(1)人口統計情報 + HPOテキストデータ、(2)人口統計情報 + ChatGPTによって要約されたOMIMデータベースからの臨床特徴の2つのカテゴリーに分かれます。
下図(C)はGestaltMMLのアーキテクチャを示しています。ViLTの基盤に基づいて、テキストと画像の入力を処理できるトランスフォーマーエンコーダーを使用しています。このアーキテクチャはViTに似ていますが、ViTは画像入力のみを受け付ける点で異なっています。
GestaltMMLは、顔写真、人口統計情報、臨床的なテキストデータを組み合わせたマルチモーダル機械学習モデルです。使用されたデータベース(GMDB v1.0.9)には、528種類の希少遺伝性疾患に影響を受ける7,349人の患者からの9,764枚の正面顔写真が含まれています。このデータベースは、中東/西アジア、アメリカン・ネイティブ、東南アジア、北アフリカなど多様な背景を持つ患者たちから成り立っています。しかし、ヨーロッパ系の患者が59.48%と多数を占めており、希少疾患の性質上、完全にバランスが取れたデータを用意することは困難であることが課題となっています。また、男女の比率はほぼ均等であり、64.90%の患者が5歳未満です。
さらに、過去の研究での慣例に従い、GMDB内でよく見られる疾患(6人以上の患者、GMDB-frequent)とまれな疾患(6人以下の患者、GMDB-rare)に分けてモデルの性能を評価しています。そして、テキストと画像データの特徴の重要性を探り、現行の画像ベースモデルと比較しています。
最終的に、フィラデルフィア小児病院(CHOP)、ニューヨーク州発達障害基礎研究所(NYSIBRDD)、さらに公開された文献からのデータを含む複数の外部検証データセットで評価を行い、高い性能を示しました。これらの結果は、提案された方法の堅牢性を示すものと言えます。
GMDBでの希少遺伝性疾患の分類
GestaltMMLは、大量に発生する欠損テキストデータの問題を解決するため、学習データ:テストデータの分割比率を1:1から9:1まで変化させて実験を行い、3つの異なるランダムシードを用いて精度の平均と標準偏差を計算しています。最も効果的だった学習-テスト比率は3:1で、モデルは最高の精度を示しています。トップ1で72.54%、トップ10で83.59%、トップ50で88.96%、トップ100で91.64%の精度を達成しています。
ただし、GMDBには528の疾患が含まれているものの、希少疾患は数千にも及ぶため、研究される疾患の数は少ないという課題があります。GMDBのようなデータベースは、特徴的な形態学的特徴を持つ疾患のみが文書化されているため、特徴的な顔の特徴を持たない疾患に対しては、このモデルの効果が限られる可能性があります。それでも、人口統計情報と臨床表現型情報を組み合わせることで、これらの場合においても疾患の優先順位付けに役立つと期待されます。
GMDBデータセットでの既存の画像モデルとの機能重要性分析および比較
これまでの多くの研究が希少遺伝性疾患の予測において顔画像のみを利用していましたが、この論文では最新のアンサンブル画像モデルと改良されたGestaltMMLを比較分析することで、特徴の重要性を詳しく分析しています。この比較では、これまでの研究で用いられている学習-テスト分割の方法を採用し、GMDBを頻出疾患群(GMDB-frequent)とまれな疾患群(GMDB-rare)に分類して分析しています。
特にGestaltMMLは、トランスフォーマーアーキテクチャのみを使用しており、畳み込み処理を一切含まない点が特徴です。これに対し、他の画像のみのモデルではトランスフォーマーアーキテクチャは採用されていません。分析結果は下表のようになり、GestaltMMLが画像とテキストの組み合わせにより高い精度を達成していることが確認されました。
具体的には、学習用に7755枚の画像を使用し、GMDB-frequentでテストに792枚、GMDB-rareで360枚の画像を使用しました。この結果から、GestaltMMLはGMDB-frequentおよびGMDB-rareでの評価においても、顕著な予測精度を示しています。
一方で、「モダリティマスキング」という評価手法を用いて、画像の予測力だけでなくテキストの予測能力もテストしました。このプロセスでは、ViLT上でテキスト部分を「*」に置き換え、顔画像のみを用いた微調整を行いました。これにより、画像のみ、または画像とテキストの組み合わせからの予測精度を比較しました。分析の結果、画像のみを用いた場合のGestaltViTは、アンサンブル画像モデルと比較して性能が低下することが示されました。しかし、テキスト情報を加えることで、予測の精度が大幅に向上することが確認され、GestaltLTはGestaltMMLに僅かに劣るものの、他のモデルよりも優れた性能を示しました。
この実験は、希少遺伝性疾患の診断において、画像とテキストデータの組み合わせが如何に重要かを浮き彫りにし、GestaltMMLがマルチモーダルアプローチによってどのように機能するかを示しています。
少数グループの診断に対する公平性向上
GestaltMMLは、GMDB(バージョン1.0.9)を使用して学習され、そのデータベースは「中東/西アジア」、「アメリカ先住民」、「東南アジア」、「北アフリカ」、「不明」、「アフリカ系アメリカ人」、「アメリカ - ラテン/ヒスパニック」、「東アジア」、「その他のアジア」、「南アジア」、「サハラ以南」、「アフリカ」といった、多様な民族的背景を持つ患者のデータを含んでいます。
このモデルは、顔画像、人口統計情報、臨床テキストの統合を通じて、特に欧米以外の少数民族グループの患者に対する予測精度を大幅に向上させました。下図では、異なる推論モダリティを使用した際の平均精度を示しており、臨床テキストがパフォーマンス向上に最も大きな影響を与えていることが分かります。また、人口統計情報も少数派の患者にとって有益であることが示されています。
また、下図においては、GestaltMMLがどのようにして顔画像、人口統計データ、臨床テキストを統合し、学習が主にヨーロッパ系の個体に限定された場合と比較して、少数の民族グループにわたる精度を向上させたかを示しています。ただし、ごく稀に例外もあります。
この実験では、GestaltMMLがどのようにして診断の公平性を高めるかを示す貴重な洞察を提供しています。
臨床的な類似性を持つ疾患のクラスタリングにおいて優れたパフォーマンスを発揮
GestaltMMLモデルは、最終層の一つ前の層から取得したロジット値を基に、UMAPクラスタリング分析を実施し、臨床的に類似した疾患群の効果的な分類能力を示しました。この分析は特にベックウィズ-ウィーデマン症候群(BWS)とソトス症候群、NAA10関連症候群とNAA15関連症候群、KBG症候群とコーネリア・デ・ランジェ症候群(CdLS)の比較を対象としています。
まずBWS患者の2つの遺伝的サブタイプとソトス症候群患者を対象に分析を行い、モデルがこれらの過成長症候群を明確に区分できることが確認されました。
次に、NAA10とNAA15関連の神経発達症候群をGMDB(v1.0.9)データセットで評価し、臨床表現型が類似しているにも関わらず、モデルがこれら2つの症候群を効果的に区別できることが示されました。
最終的な分析では、KBG症候群とCdLSの患者群を使用し、モデルがこれらの症候群を分離できることを確認しましたが、CdLSの患者については顔画像推論を用いた結果、異なる背景色に基づく2つのクラスタが明らかになりました。この現象は画像の背景色に依存していることから、背景色の正規化を行うことで画像表現の精度を向上させる可能性が示唆されます。
これらの成果は、GestaltMMLが臨床的な類似性を持つ疾患群の識別において、どれほど高いパフォーマンスを発揮するかを示しており、さらなる改善を通じて診断精度の向上が期待されます。
まとめ
この論文で紹介された新しいマルチモーダルモデル「GestaltMML」は、正面顔写真、臨床特徴、人口統計情報を統合することで、希少遺伝性疾患の鑑別診断を効果的に絞り込むことができます。単に患者の顔画像に依存するだけでは、これらの疾患の正確な診断に必要な全ての情報をカバーすることができないため、このようなアプローチは非常に重要です。マルチモーダル機械学習は遺伝的診断の予測精度を大幅に向上させることが可能であり、UMAPクラスタリング分析を用いて臨床的に類似した希少疾患を区別する有用なツールとなっています。
このクラスタリングアプローチは、モデルの分類層を変更することなく、新たに認識されていない希少疾患を自動的に特定する能力を持ち、ゲノム/エクソム配列データとの組み合わせにより、データの解釈や定期的な再解釈を促進し、「診断オデッセイ」と呼ばれる課題への対応が期待されます。
従来のCNNベースの画像モデルと比較して、このアプローチでは顔画像とテキストの両方を入力として利用し、これにより希少遺伝性疾患の予測において顕著な進歩が達成されています。特に、患者の人口統計データをテキスト入力に統合することで、モデルが疾患ごとの独特のパターンを識別し、データ収集および分析の偏りを軽減し、公平な診断を実現します。OMIMデータベースを利用したデータ拡張技術も導入し、モデルの学習プロセスを強化しています。さらに、モダリティマスキング技術を使用してマルチモーダル学習中のテキストと視覚要素の重要性を検証し、将来の研究に対する洞察を提供します。
これらの成果は、将来的に希少疾患の診断に革命をもたらす可能性があるため、医療専門家や研究者にとって非常に重要であり、今後の進展が期待されます。
この記事に関するカテゴリー