赶上最新的AI论文

人工智能引起行为改变,改善预后!使用强化学习推导最佳干预政策的拟议模型!

医疗

三个要点
✔️ 不恰当的健康相关行为和习惯被认为与慢性疾病的发病和严重程度有很大关系,包括糖尿病和癌症。
✔️ 本研究提出了一种基于有效性学习并考虑到个人特征的干预政策的推导方法,目的是改变行为以改善预后。
✔️ 结果证实,所提出的模型显示出比标准强化学习算法更好的性能。

A reinforcement learning based algorithm for personalization of digital, just-in-time, adaptive interventions
written by Suat GönülTuncay NamlıAhmet Coşarİsmail Hakkı Toroslu
(Submitted on May 2021)
Comments: Artif Intell Med.

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

背景

强化学习能否促进改善预后的行为改变?

这项研究的目的是开发一个基于强化学习的模型,以得出适当的干预措施,促进促进糖尿病和其他慢性病的预防和治疗的行为。

近年来,人们注意到不健康的行为和在慢性病中的联系,需要考虑个人特定的生活方式/优先事项、心理和社会心理背景以及环境因素--特别是在慢性病中,长期的病理变化和发病后的改善可能很难实现。重要的是要引进适合其特点的治疗和预防方法。在这种情况下,使用数字设备的干预措施因其在支持人们自我管理活动方面的有效性而备受关注:最近移动传感器和健康传感器--穿戴式、植入式和胃肠式--的快速发展,导致了适应性提供即时、有针对性的干预措施的手段正变得越来越广泛。在此背景下,人们提出了JITAI--及时适应性干预的概念,并通过决策点和干预选项等若干组成部分对即时干预方法进行研究

这项研究旨在建立一种算法,学习个性化的干预策略,同时考虑到长期和瞬间的变化--建立这样的模型将通过减少与现实世界护理方案有关的干预负担来最大限度地提高依从性。最终目的是为了取得更好的临床结果。该研究还引入了一种强化学习--RL--算法来对JITAI进行个性化处理,假设是一种慢性疾病;RL不需要初始数据集来学习,因此非常适用于在考虑不确定性的情况下进行学习。另一方面,在完全没有初始数据集的环境中,学习往往是非常昂贵的--在时间和计算方面--因此,在本研究中,即使在状态空间没有被探索的情况下,个性化的政策也能被迅速学习并接受。设计一个能产生可接受结果的算法--提出一个模型,根据病人的瞬间和长期变化,动态地、系统地调整干预策略。

技术

本节概述了本研究中使用的拟议模型。建议的模型使用两个RL模型--机会-时刻-识别和干预-选择。

整个算法

该方法包括两个主要步骤--见下图。

第一步,训练阶段,训练状态分类器,用于减少未知状态下的随机行动--以前没有访问过的状态。拟议的模型还包括两个同时运行的RL模型--见下图:具体而言,机会-时刻-识别模型监测瞬间变化并采取相应的行动。-在这个阶段,由于没有状态分类器,所以只使用选择性的资格追踪方法;而干预-选择模型则监测个别病人的习惯性变化。作为学习阶段的结果,状态分类器可用于真正的实验,机会选择模型可以利用这一技术来进一步改善学习过程。

整体算法如下:。

1.从所使用的具体数据元素中获取输入--前四个输入是RL环境的主要组成部分--关于环境和代理的输入:环境元素记录当前状态和转换历史,行动计划记录当前状态和转换历史,行动计划记录代理的当前状态和转换历史。并包括该人计划的日常活动。这里,共同政策--CP--包括行动与状态一起被选择的次数的累积,而状态分类器--选择性分类器--包括行动在未知状态下被选择的次数。它是一种用于预测行为的学习模型。

2.机会-时刻-识别模型只有在选择干预类型时才会执行--最初,基于贪婪算法,当前状态--OMI_ST学习算法根据未知状态确定行动--OMI_AT--;而在为未知状态选择随机行动时,学习算法会进行状态分类;否则,它使用贪婪算法根据未知状态确定行动--OMI_AT--。具有最高q值的行动被选中。在行动选择之后,环境根据所选择的行动从当前状态过渡到下一个状态。

3.然后进行两次模拟:如果交付了干预措施,则模拟对交付的干预措施的反应--结果是放弃干预措施或参与干预措施;在第二次模拟中,执行目标行为。

4.在获得要执行的行动的奖励--OMI_RT--后,在情节分析对象中记录过渡。对于每个选定的干预措施,机会-时刻-识别模型运行与行动计划中计划活动相关的所有时间框架。

5.将习惯形成模型--模拟病人习惯的数学模型,细节省略--推进一步,回到干预选择模型。使用更新的习惯形成模型的参数获得干预选择模型的下一步,并产生奖励。这个循环对行动计划产生的所有时间框架都会重复。当一集结束时,它被更新为该集收集的数据。

机会-时刻-识别模型

本节概述了机会-时刻-识别模型,这是拟议模型中采用的一种RL模型,见下图。

上图显示了这个模型中环境和代理之间的互动:ai是环境处于状态si时采取的行动;ri是ai获得的奖励。该算法决定,对于干预时机、时刻和识别模型中的每个决策点,是否在每一步进行干预,直到行动被执行或该人参与干预。如果对已交付的干预措施的反应被移动设备延迟,那么,如果干预时机合适,就需要对该人在过去采取的行动给予奖励。在这项研究中,代理人的过去状态--只对有参与干预的行动给予积极奖励,而不是对行动给予奖励--加上干预前的行动Deliver_Nothing--即干预后也没有实践行动的情况。-假设Deliver_Action进行学习--由于干预而实践该行为的情况:例如,在上图中,a7是一个Deliver_Nothing行为,但它是一个干预的好机会。这使得访问s7时采取Delivery_Intervention行动的策略有效,并导致干预行动被采取。

结果。

本节介绍评价环境和结果。

评估环境

本节介绍一种基于仿真的验证方法。

在评估中,环境是从两个角度设置的:行动计划和人物--行为改变中的典型例子:在行动计划中,可以发送三种预设的干预措施,有两种类型的提醒和一种类型的激励干预。假设一个简单的行动计划,有确定的决策点(上午、下午和晚上);对于角色,假设有四个角色,考虑四个特征:。

1. 习惯性
习惯形成模型被用来真实地模拟与习惯相关的概念--在没有外部信号的情况下自动执行目标行为的强度。这个模型的一个特点是承诺强度:这是一个衡量使一个行为成为习惯所需时间的标准。这个参数的数值在0到1之间,数值越高,说明对目标行为的欣赏程度越高,欲望越强。

2. 日常行动
日常活动因人而异。因此,引入了一个活动时间表--代表从起床到睡觉的所有日常活动--目的是模拟一个适合干预和行动规划的状态。时间轴由预先定义的活动填充,并在每个学习情节--每个模拟日--半随机地分配给每个人。

3.模拟对所提供的干预措施的反应
作为对干预措施的回应,有两个假设:被试喜欢特定类型的干预措施;日常活动适合练习干预措施。因此,个人对某项干预措施的偏好表示为对该干预措施作出反应的概率--对干预类型的偏好是不连续的,概率之和不一定是1。

4.实际行为记录的模拟
行为记录是由习惯形成模型对行为的记忆和执行行为的日常活动的适宜性所做的预测决定的:如果预测是肯定的,则假定该行为在相应的活动时间内被执行。

RL模型的比较

在这里,RL算法对按情节汇总的奖励进行了比较。涵盖的三个RL如下 - Q-学习 - QL,扩展了选择性资格 - 对干预的行为选择的定向性用选择性资格和转移学习扩展的算法--QL-SET-, 用选择性资格和转移学习扩展的算法--QL-SET-TL。评价结果显示,QL-SET-TL收集了更多的奖励--QL-SET-TL是奖励最多的算法。考虑到实际执行的干预措施数量与发送的干预措施总数之比,表明QL-SET-TL更有效。在渐进性能方面,QL-SET-TL的表现优于其他两种。结果证实,所提出的模型QL-SET-TL具有最佳性能。

考虑

本研究旨在建立一个基于RL算法的模型,在干预的时间、频率和类型方面得出一个针对个人特征的最佳政策--该算法使用两个RL模型优化这些参数。对资格的寻求涉及操纵行为轨迹,考虑到过去行为的选择性奖励和国家参与干预的适宜性。该评估模拟了四个在日常活动、对特定干预类型的偏好和对目标健康相关行为的态度方面存在差异的人,与标准RL算法相比,显示出更高的性能。人们认为这一模式可以加速未来自我管理支持系统的发展,以协助糖尿病患者的日常生活。此外,建议的方法有可能导致医疗保健领域的护理方案得到改善。也有报道说,健康的生活习惯,如体育锻炼和饮食,可以减少患许多慢性病的风险,并改善现有的疾病--因此,所提出的模式可以提高行为改变方案的有效性,并通过个性化的干预提供策略提高护理质量。据认为,这可能有助于人们的健康。

这项研究的优势之一是学习机制,利用RL方法对一个人的瞬间和长期行为过程进行建模,并对类型、频率和时间进行个性化处理。在这个阶段,还没有报道过将多种RL模型结合起来促进行为改变的方法。另一个可能的优势是,这些模型不仅考虑了短期的观点,而且考虑了长期的观点,因为医疗数据的一个特点是长期时间序列数据分析。

挑战还包括改进,例如,干预类型的选择:该模型遵循无模型的方法,但干预选择模型可以设计成基于模型的系统--即在采取行动之前通过中间模拟学习价值函数。有可能实现更高的精度。这种结构可以通过将干预选择模型分成两个模型并分别调整类型和频率因素来实现。也考虑了本模型中考虑的参数不够的可能性--设想可以使用与环境、移动电话和病人有关的额外参数来建立一个更准确的模型。在这样的改进中,需要进一步优化算法--例如更好地概括状态--并被认为是未来的挑战。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们