ニューラルランカー（ランキングモデル）と大規模言語モデルによる臨床試験検索の強化

Information Retrieval 2024年03月15日

3つの要点
✔️ 医療関連の情報を検索しやすくするための新しい方法が考え出されました。
✔️ データモデルは、コンピューターが情報を理解しやすくするための手助けをしてくれます。
✔️ 医療の情報を効率的に探し出すことができるようになることによって、医療研究や試験の進行がスムーズになり、より効果的な治療法や医療の進歩がもたらされることが期待されています。

Team IELAB at TREC Clinical Trial Track 2023: Enhancing Clinical Trial Retrieval with Neural Rankers and Large Language Models
written by Shengyao Zhuang, Bevan Koopman, Guido Zuccon
(Submitted on 3 Jan 2024)
Comments: TREC Notebook
Subjects: Information Retrieval (cs.IR)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

CSIROのielabチームとクイーンズランド大学は、医療の試験や研究を助ける方法を改良しようとしています。具体的には、2023年のあるイベントで、医療関連の情報を検索しやすくするための新しい方法を考え出しました。

それは、コンピューターを使って医療に関する情報を整理することです。これには、大きなデータモデルというものを使います。このデータモデルは、コンピューターが情報を理解しやすくするための手助けをしてくれます。

例えば、患者の状態や試験の内容などを簡単に説明する文章をコンピューターに作らせます。これにより、コンピューターがより効果的に医療情報を探せるようになります。

さらに、その情報をさらに詳しく整理するための別の手法も使います。それは、医学の専門家が作成したランキングを使って、情報を整理することです。

これらの方法を組み合わせることで、医療の情報を効率的に探し出すことができるようになります。そして、これによって医療研究や試験の進行がスムーズになり、より効果的な治療法や医療の進歩がもたらされることが期待されています。

導入

研究チームは、TREC臨床試験トラックに参加し、医療情報を効果的に検索するための新しい方法を模索しました。このトラックでは、クエリとして患者の説明を入力し、それに基づいてClinicalTrials.govから臨床試験を取得するという課題が与えられました。

研究チームは、過去の情報検索タスクで成功を収めた手法を参考にしながら、多段階の事前トレーニング済み言語モデルを活用した取得および再ランカーのパイプラインを構築しました。具体的には、PubmedBERTベースの情報取得と再ランキング、さらにはGPT-4を使用した臨床試験の関連性評価などが取り入れられました。

しかし、この研究にはいくつかの課題がありました。1つ目は、トレーニングに使用できるデータが限られていることで、トレーニング用のデータ量が不十分であることが挙げられます。2つ目は、患者の説明が以前は自由な自然言語で記述されていたのに対し、今回は半構造化されたXMLデータになっていることです。このようなデータ形式の変更により、トレーニングデータと推論データの不一致が生じ、システムのパフォーマンスに影響を与える可能性があります。

提案手法

研究では、医療情報を探しやすくする方法を開発するために、新しい手法が提案されました。具体的には、医療のデータを整理し、モデルをトレーニングするために必要な追加の情報が不足していることに着目しました。そのため、人工知能の技術を使って、患者の状態や臨床試験に関する説明文を生成する方法が考案されました。

また、医療情報を検索する際に使われる「レトリーバー」と呼ばれるシステムも開発されました。これは、最初に得られる情報をより効果的に選別するためのものです。そして、このシステムで得られた情報をさらに整理するための「再ランキング」手法も提案されました。

さらに、研究チームは、医療情報の関連性を評価するために、人工知能のモデルであるGPT-4を利用しました。これによって、トレーニングされたモデルを使って、医療情報の関連性を正確に判断することが可能になりました。

ただし、この研究にはいくつかの課題もありました。例えば、モデルの倫理モードが適切に機能しない場合があったり、データの形式が適切でない場合がありました。これらの問題に対処するために、さまざまな方法が検討されました。

結果

この研究では、医療情報の検索システムを評価しました。そのために、TREC CT 2022での結果を確認し、TREC CT 2023でシステムをテストしました。この研究では、様々なランキング手法を試して、その効果を比較しました。結果として、5つの実行が提出されました。これらは、異なるランキング手法を使用しています。

2023年の結果は、一般的に前年の傾向に従っていますが、ハイブリッドモデルのNDCG@10（上位10位の文書の関連性を評価する指標）およびP@10（上位10位の文書の適合率を評価する指標）スコアが低いことがわかりました。ただし、再ランキングのステップを考慮すると、最高のRecall@1000（上位1000位の文書の再現率を評価する指標）が達成される可能性があります。

この図は、TREC CT 2022（上）, 2023（下）の結果を示しています。各モデルの全体的な性能が棒グラフで表示されており、最良の結果は太字で示されています。上に付けられた文字は、それぞれのモデルが他のモデルと比較して統計的に有意な差があることを示しています。

さらに、システムのさまざまな部分がクエリごとにどのように改善されたかを示す図も提供されています。パイプラインのさまざまな段階でのクエリごとの改善は次の通りです。

(a) 最初の段階での改善点は、Dense Retriever（DR）に対するハイブリッドレトリバーの強化です。

(b) 次の改善は、SPLADEv2に対するハイブリッドレトリバーの向上です。

(d) 最後に、GPT-4の性能向上がCross-Encoderよりも優れていることが確認されました。

これにより、検索システムの全体的なパフォーマンスを改善するための戦略が明らかになりました。

つまり、この研究は、医療情報の検索において最も効果的な方法を特定し、患者や医療従事者が必要な情報に迅速にアクセスできるようにするための貴重な知見を提供しています。

結論

本研究は、新しい臨床試験検索システムを開発しました。このシステムでは、PLM（大規模言語モデル）とLLM（大規模語彙モデル）を組み合わせて利用しました。本研究のアプローチでは、人間のラベル付けに依存せず、LLMを使用してデータを生成しました。これにより、強力な検索モデルとリランカーを開発するためのトレーニングデータを生成しました。さらに、LLMの多ショット能力を活用して、システムのランキングを改善しました。このシステムは、TREC臨床試験トラックでの本研究の成果を示しており、多段階の臨床試験検索パイプラインの競争力を示しています。

今後の展望として、このシステムをさらに改良して、臨床試験の検索精度を向上させることが重要です。また、新しいデータやアルゴリズムの導入により、システムのパフォーマンスを向上させることも重要です。さらに、医療情報の急速な変化に追従するために、システムの柔軟性と拡張性を向上させることも重要です。これにより、より効率的で信頼性の高い臨床試験検索システムが実現されます。

この記事に関するカテゴリー

Sasayama