赶上最新的AI论文

[Kaggler必看]PANDA挑战赛,世界上最大的前列腺癌诊断比赛!

医疗

三个要点
✔️ PANDA挑战赛是世界上最大的组织病理学竞赛,从欧洲和美国的六个中心收集了约13,000张组织病理学图像,有来自65个国家的约1,300名参与者。
✔️这项研究是以往医学人工智能论文中前所未有的努力,多个团队在同一个数据集上工作,并验证了提交的多个机器学习模型。
✔️提交的多种算法在方法上基本相似,较高级别的模型实现了与病理学家相同或更好的诊断准确性,同时在验证数据上表现良好,并证明了其普遍性。

Artificial intelligence for diagnosis and Gleason grading of prostate cancer: the PANDA challenge
written by 
Wouter BultenKimmo Kartasalo
(Submitted on 13 Jan 2022)
Comments: Nature Medicine

code:  

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

摘要

迄今为止,医学领域的人工智能(AI)研究倾向于关注特定的个体结果,多个研究团队为特定的数据集(如组织样本)建立自己的机器学习(ML)模型。情况并非如此。因此,本研究组织了一个国际医学影像竞赛,即前列腺癌 graDe Assesment(PANDA Challenge),以前列腺癌活检组织为数据集,对提交给竞赛的机器学习模型进行评估和分析。

在提交的算法中,选择了具有高诊断准确性的模型,发现每个模型采取的方法基本相似,尽管有细微的差别。此外,由于用于评估的数据集是从不同的医疗机构获得的样本,处于竞争前列的模型被证明是通用的。顶级模型都显示与专家的诊断一致率约为86%,预计未来会有更多的临床验证。

主要内容

Gleanson分级是对前列腺癌的组织病理学分类,对治疗计划是必要的。病理学家根据肿瘤组织的组织形态学特征对肿瘤进行分类,但这种评估是主观的,而且已知不同的病理学家之间会有差异。

因此,通过人工智能进行分类已显示出前景,但据报道,人工智能的发展容易受到各种偏见的影响,例如,人工智能的发展需要人类(病理学家)的注释,即使这些人类也不一定能很好地注释来自其他设施的标本。因此,人工智能可能只在其开发的医疗机构的数据上表现良好,在某些条件下可能不太准确。还有人指出,医学人工智能的开发基本上是封闭的,提供了一个良好的画面,并允许更多有经验的专家直接向开发者提供建议,这种环境很容易产生积极的偏见。

本研究通过竞赛形式开发算法,避免了上述问题。具体来说,由与算法开发者不同的人进行验证,并在收集不同设施的数据集后进行额外验证。这使我们能够确定该算法是否具有普适性。

比赛中使用的数据集来自于先前公布的前列腺活检数据集和来自欧洲(欧盟)医疗中心的数据。在此基础上,组织了PANDA挑战赛,研究小组复制了顶级模型。重现的模型在独立于开发者的环境中得到了验证,使用的是来自美国的一家医疗机构的数据集和不同于竞赛中使用的欧盟数据集。结果与病理学家的诊断进行了比较,以提供对每种算法的真实评估。

结果

数据集的特点。

从六个医疗中心共收集了12,625张全玻片图像(全玻片图像,WSI),用于算法开发、调整和外部验证(表1)。

以上是对所获得的数据集的分类:开发集和调整集是比赛参与者可以使用的两个数据集,调整集在比赛中用于算法评估。竞争排名由内部验证集决定(用于内部评价),然后由外部验证集进一步验证概括性能(用于外部评价)。设施的名称写在源行。请注意,开发人员和内部验证人员不参与外部验证数据的收集。

数据集参考标准

荷兰(Netherland)的训练数据集的注释是参照现有的病理报告确定的。瑞典的训练数据集是由一位泌尿科医生注释的。对于用于内部验证的荷兰数据,正确的标签是由三名职业跨度为18-28年的泌尿科医生(来自两个医疗中心)之间的一致意见决定的。剩余的瑞典数据集由四位拥有超过25年临床经验的泌尿科医生进行注释。

美国的外部验证数据集从美国或加拿大的六个中心收集,并由大多数具有18-34年临床经验的泌尿科医生进行注释。外部验证数据也要进行免疫组化染色,以便更准确地诊断。此外,欧盟的外部验证数据由一位泌尿科医生进行了注释。为了调查各大洲(欧盟和美国)之间的一致程度,欧盟专家对美国的数据进行了诊断,反之亦然,发现一致率很高(注:补充表9参考了一致率,但在撰写本文时无法获得)。).

竞争摘要。

比赛于2020年4月21日至7月23日在Kaggle上进行,共有来自65个国家的1,010个团队组成的1290名参赛者参加(图1)。

在比赛期间,参赛队伍能够要求使用调整数据集对其算法进行评估。

最终,所有团队共提交了34262个算法。请注意,对内部验证数据集的验证显示,第一个与泌尿科医生的诊断一致率超过90%的团队出现在比赛的10天内,到第33天,所有团队的诊断一致率中值都在85%以上。

正在评估的算法摘要。

比赛结束后,参赛者被邀请参加PANDA联盟(外部验证);33个团队进入随后的验证阶段,15个团队根据其模型的性能和算法的描述被选中。其中7支队伍也在比赛中排名前30位。

所有选定的算法都使用了深度学习。大多数顶级团队使用的方法是将WSI分成小块。这些斑块被送入CNN,提取特征并在最后分类层确定诊断。

一些顶级团队采用的一种方法是自动化标签清洗。这是一种技术,将本来被错误标记的样本的正确标签从训练数据中排除或重新标记,而不是采用。一些团队检测到推断结果与正确标签有很大差异的图像,并自动排除和重新标记这些图像,在提高其性能的同时反复调整模型。

所有团队的另一个共同特点是应用各种算法、网络结构和预处理。尽管作为比赛的一部分提交了各种各样的算法,但大多数团队由于其模型的组合而取得了相当的性能。个别算法可用于研究目的是有原因的。

内部验证数据集上的分类性能。

为了进行内部验证,所有选定的算法都在两个不同的计算平台上进行了复制。每种算法的平均值显示与专家的诊断高度一致(92-94%)。他们还取得了99.7%的敏感性和92.9%的特异性。

以上是算法(纵轴)与二次加权κ系数(横轴)的关系图(注意:加权κ系数是一个指数,其计算方法是如果多位专家做出相同的诊断,则得分较高,如果他们不同意,则得分较低)。可以看出,大多数选定的算法与专家的诊断一致。

以上a是内部验证数据集;b、c是外部验证数据集;d、e是普通病理学家和专家正确标签之间的比较。可以看出,敏感性和特异性都高于普通病理学家(红色)。

外部验证数据集上的分类性能。

所选算法在两个外部验证数据集上进行了独立评估。协议(加权卡帕系数)为0.868和0.862,与专家标准相当。

在外部验证中,有代表性的算法对美国和欧盟集的敏感度分别为98.6%和97.7%。与内部验证相比,由于假阳性率较高,特异性下降到75.2%和84.3%。

与普通病理学家的分类性能比较。

为了比较算法和普通病理学家,来自8个国家的13人(7人来自欧盟,6人来自其他国家)对照荷兰内部验证数据集诊断了70个病例,20名美国人对照美国外部验证数据集诊断了237个病例。

首先,在荷兰内部验证数据集的70个病例中,该算法显示与专家的诊断一致性高于与普通病理学家的诊断一致性。这是一个显著的差异,其敏感性和特异性的数值都高于所有普通病理学家。平均而言,普通病理学家遗漏了1.8%的癌症,而算法的遗漏率约为1%。

上图用彩色显示了各个诊断的情况。一行(水平方向)是一位普通病理学家做出的诊断,一列(垂直方向)是每个病例。算法在上排,普通病理学家在下排,但上排显示的诊断模式(颜色)更相似。这意味着普通病理学家的诊断显示出更大的差异性。

讨论

迄今为止,医学人工智能研究一直是孤立的(注:一个研究团队在一个数据集上工作),多国团队的不同方法没有得到比较。这项研究的目的是超越个别解决方案,开发更多的通用算法。

PANDA挑战赛是迄今为止最大的病理学图像竞赛。比赛显示,顶尖的算法不仅表现得和专家一样好,甚至更好,而且在使用外部验证数据集时也有可推广的性能。

人们发现,与普通病理学家相比,所选算法的灵敏度更高,特异性更低。这被认为是由于开发团队只在调整数据集上估计模型的性能(而不是由于专家病理学家的标记)。人们还发现,该算法的分类等级高于普通病理学家,在临床实践中应用时,需要对操作点进行调整。

在这项研究中,考虑了前列腺癌的分类,但在临床上其他癌症也必须是可以检测出来的。对严重炎症、上皮内癌和部分萎缩的检测将继续引起人们的极大兴趣。因此,需要对常规收集的标本进行更全面和广泛的评估。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们