利用神经排序器（排序模型）和大规模语言模型加强临床试验搜索

信息检索 15/03/2024

三个要点
✔️ 新方法的出现使搜索医疗保健相关信息变得更加容易。
✔️ 数据模型帮助计算机更容易理解信息。
✔️ 高效查找医疗信息的能力有望促进医学研究和试验，从而带来更有效的治疗和医学进步。

Team IELAB at TREC Clinical Trial Track 2023: Enhancing Clinical Trial Retrieval with Neural Rankers and Large Language Models
written by Shengyao Zhuang, Bevan Koopman, Guido Zuccon
(Submitted on 3 Jan 2024)
Comments: TREC Notebook
Subjects: Information Retrieval (cs.IR)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

概述

澳大利亚联邦科学与工业研究组织（CSIRO）的 ielab 团队和昆士兰大学（University of Queensland）正在寻求改进医疗试验和研究的辅助方式。具体来说，他们在 2023 年的一项活动中提出了一种新方法，让搜索医学相关信息变得更容易。

它利用计算机来组织医疗保健信息。为此，他们使用一种叫做大型数据模型的东西。这种数据模型可以帮助计算机更好地理解信息。

例如，让计算机生成病人病情或检查性质的简要描述。这样，计算机就能更有效地搜索医疗信息。

此外，我们还使用了另一种技术来更详细地整理信息。这就是使用医学专家创建的排名来组织信息。

这些方法结合在一起，将能够高效地搜索医学信息。希望这将促进医学研究和试验，从而带来更有效的治疗和医学进步。

导言

研究团队参加了 TREC 临床试验赛道，探索有效检索医疗信息的新方法。在这个赛道中，他们的任务是输入病人描述作为查询，然后从 ClinicalTrials.gov 检索临床试验。

研究小组借鉴以往信息检索任务中使用的成功方法，利用多级预训练语言模型建立了一个获取和重新排序管道。具体来说，研究人员采用了基于 PubmedBERT 的信息获取和重新排序方法，并使用 GPT-4 对临床试验进行相关性评估。

不过，这项研究也面临着一些挑战：首先，由于可用于训练的数据量有限，因此可供训练的数据量不足；其次，病人的描述以前是用自由的自然语言写成的，而这次是用半结构化的XML 数据。数据格式的改变会导致训练数据和推理数据之间的差异，从而影响系统性能。

建议方法

在这项研究中，提出了一种新的方法，以开发一种更简便的方式来查找医疗信息。具体来说，重点在于缺乏组织医疗数据和训练模型所需的额外信息。因此，研究人员设计了一种方法，利用人工智能技术生成有关患者病情和临床试验的描述性文本。

此外，还开发了一个名为 "Retriever "的系统，用于搜索医疗信息。该系统旨在更有效地对现有信息进行排序。随后又提出了一种 "重新排序 "的方法，以进一步整理从该系统中获得的信息。

此外，研究团队还使用了人工智能模型 GPT-4 来评估医疗信息的相关性。这使得训练有素的模型能够准确判断医疗信息的相关性。

不过，这项研究也遇到了一些挑战。例如，模型的伦理模式并不总是能正常工作，数据的格式也不总是合适。我们探索了不同的方法来解决这些问题。

结果

本研究评估了一个医疗信息检索系统。为此，研究回顾了 TREC CT 2022 的结果，并在 TREC CT 2023 中对系统进行了测试。研究测试了不同的排序方法，并比较了它们的有效性。结果，提交了五个运行结果。这些运行使用了不同的排序方法。

2023 年的结果与前一年的趋势基本一致，混合模型的 NDCG@10（评估排名前 10 位文档相关性的指标）和 P@10（评估排名前 10 位文档拟合率的指标）得分较低。不过，考虑到重新排序步骤，混合模型的 Recall@1000 （评估排名前 1000 位文档的可重复性的指标）得分最高。

该图显示了 TREC CT 2022 年（上图）和 2023 年（下图）的结果。每个模型的总体表现以柱状图显示，最佳结果以粗体显示。上面的字母表示每个模型与其他模型相比有显著的统计学差异。

此外，还提供了一张图表，显示系统的不同部分是如何在逐个查询的基础上进行改进的。在管道的不同阶段，逐项查询的改进情况如下

(a) 第一阶段的改进是加强混合型寻回犬对密集型寻回犬（DR）的对抗能力。

(b) 下一个改进是 SPLADEv2 的混合检索器。

(d) 最后，确定了 GPT-4 相对于交叉编码器的性能增益。

这就确定了提高搜索系统整体性能的策略。

总之，这项研究为确定最有效的医疗信息检索方法以及确保病人和医疗保健专业人员快速获取所需信息提供了宝贵的见解。

结论

该研究开发了一种新型临床试验搜索系统。该系统结合使用了 PLMs（大规模语言模型）和 LLMs（大规模词汇模型）。这项研究中使用的方法并不依赖于人工标注，而是使用 LLM 生成数据。这就为开发功能强大的检索模型和关联器提供了训练数据。此外，还利用 LLM 的多拍能力来提高系统的排名。该系统在 TREC 临床试验赛道上展示了这项研究的成果，并证明了多阶段临床试验搜索管道的竞争力。

展望未来，进一步改进该系统以提高临床试验搜索的准确性非常重要。通过引入新的数据和算法来提高系统的性能也很重要。此外，还必须提高系统的灵活性和可扩展性，以跟上医学信息的快速变化。这将使临床试验搜索系统更加高效可靠。

与本文相关的类别

Sasayama