一个支持血糖管理的最佳治疗决策的模型!构建强化学习模型,通过逆向强化学习估计奖励函数!
三个要点
✔️近年来,对于数量迅速增长的糖尿病患者来说,血糖管理的重要性已经得到了越来越多的关注。
✔️在这项研究中,为了克服这些挑战,我们提出了一个使用强化学习(RL)的治疗策略的特定病例决策支持模型。
✔️ 在与血糖管理有关的三种状态--正常中度严重--中度过渡的概率最高。尽管这一结果与旨在过渡到正常状态的专家的行为背道而驰,但反强化学习的优势,即可以得出难以估计的奖励函数,是非常重要和有希望的。
An Application of Inverse Reinforcement Learning to Medical Records of Diabetes Treatment
written by H. Asoh, M. Shiro, S. Akaho, Toshihiro Kamishima
(Submitted on 23 Sept 2013)
Comments: Accepted at ECMLPKDD2013 Workshop
Subjects: Reinforcement Learning (cs.RL); Machine Learning (stat.ML)
背景
有没有可能建立一个决策支持模型,根据数据中不存在的专家的行动来复制一个治疗策略?
这项研究利用马尔可夫决策过程(MDP)分析了管理血糖水平的过程,血糖是包括缺血性心脏病在内的严重心血管疾病的一个风险因素。近年来,由于生活方式和饮食习惯的改变,血糖水平升高的糖尿病患者数量迅速增加,人们的注意力集中在适当管理血糖的治疗策略上,而血糖是这些疾病的原因。虽然为每个病例优化这样的管理过程是可取的,但考虑到成本和其他因素,很难实现针对患者特点的治疗政策。因此,为了得出最优的治疗政策,人们把注意力集中在构建一个估计模型上,通过引入决策领域使用的强化学习(RL),得出每个案例的最优治疗政策。
本研究的目的是利用强化学习为血糖管理过程开发一个决策支持系统。建模是基于使用马尔科夫决策过程(MDP)的状态转换,并使用反强化学习来估计数据中不存在的奖励函数。
什么是血糖和血糖管理?
首先,我将简要说明这项研究的分析对象,即血糖水平和相关的糖尿病。
血糖水平指的是血液中葡萄糖(糖,glucose)的浓度,表明血液中的糖分有多少。这些物质被用作日常活动的能量,并在餐后激增,然后慢慢恢复到正常水平。另一方面,如果由于葡萄糖不耐受等因素导致血糖水平居高不下--一种血液中糖分过多的状态,就会发生血管损伤--一种血管壁被破坏、血栓形成或破裂的情况。此外,由于对内脏、大脑功能和血压的影响,造成严重损害的概率迅速增加,特别是在有许多毛细血管的器官--肾脏、大脑、肝脏,以及有大血管的器官--心脏。这些高血糖水平这种高血糖的情况被称为血糖异常(糖尿病)。
糖尿病有两种因素,它们的叫法不同:一种是由于胰腺功能减退而导致将糖分带入细胞的胰岛素分泌减少的症状(胰岛素分泌不足,I型糖尿病);一种是将糖分带入细胞的大门不能正常打开的症状(胰岛素抵抗,II型糖尿病)。胰岛素就像一把 "钥匙",将糖分带入细胞,在前一种情况下,钥匙的分泌减少,血管中的糖分浓度增加。在前一种情况下,关键的生产减少,血管中的糖浓度增加。 其原因被认为是胰腺中的胰岛素分泌减少,而遗传也被指出是一个原因。另一方面,在后一种情况下,过高的血糖导致打开细胞门的钥匙功能不正常。这通常是由暴饮暴食和肥胖等生活方式因素引起的,II型糖尿病一般被称为糖尿病。
控制血糖是一种治疗方法,以防止由这些血糖水平升高引起的血管损伤。这种治疗主要基于空腹血糖和HbA1c的测量:前者是指餐前的血糖水平,后者是指与糖结合的血红蛋白(一种血液成分)的百分比。虽然适当的血糖控制有助于预防上述的严重疾病,但应根据每个人的情况进行调整。本研究的目的是利用强化学习模型,构建一个针对每个个案的血糖水平最佳管理准则的实施模型。
检查血糖控制中的模型
如上所述,血糖水平升高不仅是糖尿病的危险因素,也是血管疾病--心血管和肾脏疾病的危险因素,而且与生活质量有关,因此有必要适当地管理血糖水平(血糖管理)。特别是,由于包括饮食在内的生活习惯是完全因人而异的,因此最好能针对每个人的情况优化血糖管理。此外,包括血糖管理在内的医学治疗也有医生和病人互动的一面--医生通过测试根据病人的情况选择合适的治疗方法,并改变病人的病情。因此,假设在评估单一治疗方法或因素的影响的模型中很难考虑到这些因素,而这正是传统医疗数据统计分析的目标。此外,由于血糖控制涉及长期生活方式的改善,因此需要对长期治疗记录进行分析,以评估生活质量的成本和效益,但很少有研究对长期治疗记录进行这种分析。
研究的目的
本研究的目的是利用马尔科夫决策过程(MDP)构建一个血糖管理过程的模型,这是一种基于模型的强化学习。如上所述,有必要根据个人情况管理血糖水平,以减少由血糖水平升高引起的心血管疾病和其他严重心血管疾病的风险。另一方面,对血糖管理的传统研究集中在统计方法上,这可能使其难以准确反映个案的因素。为了适当反映每个病例的特点,本研究引入了强化学习,旨在构建一个模型,提出适合每个病例的最佳血糖管理,这一点用统计学方法很难反映。具体来说,我们从医疗记录中估计MDP的参数和病人的状态进展,并评估状态和行动(治疗)的价值。基于这些评价,我们根据病人的情况估计出最佳的行动选择规则(策略)。此外,基于医生意见的简单奖励功能被假定为这种管理的评价,但存在着有效性不明确的问题。在这项研究中,我们旨在通过使用逆向强化学习(IRL)来解决这个问题,它从专家的行为数据中估计出一个奖励函数。
技术
数据集
在这项研究中,我们使用数据库中积累的住院病人的医疗记录,包括医院访问,来模拟血糖控制的过程。特别是,我们使用了大约3000名因经皮冠状动脉介入治疗(PCI)而住院的患者的就诊数据,这是一种治疗缺血性心脏病的方法,而糖尿病是其风险因素之一。该数据集从医院的测试和处方订购系统中提取,并进行了匿名处理,据说不包括个人信息、疼痛投诉、医生的结论或电子医疗记录的其他信息。为每个病人收集的数据可以被看作是遵循某种治疗策略的单一情节。具体来说,这些发作被划分为75天的间隔,并选择了超过24个发作(大约2年)的门诊治疗的案例,表明确定了801个发作。最短的情节长度(访问次数)是25次,最长的是124次。此外,为了生成血糖状态,血红蛋白A1c(HbA1c)根据两个阈值(6.0和8.0)被分为三个等级(正常、中度和重度)。此外,根据药物疗效对药物治疗进行分组,并确定同时开具的药物组的组合模式,从数据中找出38种组合模式。
建立血糖控制过程的模型
在这项研究中,我们基于马尔科夫决策过程(MDP)对长期治疗过程进行建模,以解决上述问题--得出每个个体病例的最佳血糖控制过程。MDP是一个动态系统的随机模型,其中的状态转换是随机发生的。MDP是一个对代理人的行动和环境的下一个状态/奖励之间的状态转换进行建模的概念,由以下六个部分决定:状态、行动、概率转换函数、奖励函数、初始状态概率和策略。强化学习的基础是学习措施,以控制基于MDP的状态转换模型的代理行为。在这项研究中,为了利用这些状态转换构建模型,我们首先从提取的情节中估计马尔科夫决策过程(MDP)的状态转换概率和医生的平均行为策略。作为奖励函数,我们假设当测试值为正常时获得奖励1,从贝尔曼方程中得出状态值和行动值,并使用0.9作为奖励的折扣率γ。
通过逆向强化学习估计奖励函数
在这项研究中,我们引入反强化学习来补充待分析数据中没有明确说明的奖励信息,并从医生的行为中估计出奖励函数。
通常,在强化学习中,从给定的数据中估计这样一个函数的过程是存在的,因为设定一个奖励函数是学习策略的核心。另一方面,当数据中没有奖励估计所需的信息时,就像这种情况一样,要采用的奖励函数取决于分析的目的,而选择标准却不明确。因此,在本研究中,我们使用反强化学习,从医生的行为中估计奖励函数来学习政策。具体来说,我们应用一种叫做PolicyWalk的贝叶斯反强化学习算法,从医生的行为中估计奖励函数。PolicyWalk假设奖励值只取决于血糖状态,奖励函数R是一个三维向量R=(Rnormal,Rmedium, Rsevere)。)由于这些奖励被定义为相对于彼此的状态,它们的定义是通过归一化,使Rnormal + Rmedium + Rsevere = 1。在这种算法中,奖励被设定为矢量,并采用政策迭代--一种通过评估和改进基于假设政策的政策来学习的算法。
结果
评价条件
利用从数据中提取的事件,我们首先估计了MDP状态转换概率和医生的政策π。离散的HbA1c值包括状态集S,而药物组合对应于行动集A。在估计概率时,我们使用拉普拉斯平滑法,以避免由于数据量小而产生的非训练性影响。如前所述,观察物(状态)被离散成三个层次:奖励函数R由一个三维矢量r=(Rnormal,Rmedium,Rsevere)定义,其中
通过反强化学习估计奖励函数的结果。
本评价的目的是展示在上述环境中,通过反强化学习从专家的血糖管理行为中估计出的奖励函数的结果。
MCMC抽样结果显示r=(0.01, 0.98, 0.01),概率几乎等于1(图1:Rmedium的典型抽样顺序)。结果表明,中等状态的奖励值是最高的。我们还比较了使用奖励向量:(0.98 0.1, 0.1)、(0.1, 0.98, 0.1)和(0.1, 0.1, 0.98)的观察结果的对数可能性值,结果是-159878、-143568和-162928,其中中等也具有最高的可能性因此,中度的可能性最高。
考虑
本研究的目的是利用强化学习为血糖管理过程开发一个决策支持系统。我们使用基于状态转换的马尔科夫决策过程(MDP)和反强化学习来估计数据中不存在的奖励函数。评估的结果是,通过用估计的奖励函数进行抽样,确认中的状态转换概率是最高的。
这一评估结果表明,中等状态的过渡概率为0.98,高于其他状态。考虑到治疗的目的是为了提高向正常状态的过渡概率,这一结果是反直觉的。造成这一结果的可能原因包括:MDP模型对模型的解释没有充分反映医生决策过程的复杂性;在所使用的数据中,处于中等状态的病人数量比其他的大。文中还指出,在奖励向量r=(0.01, 0.98, 0.01)下,最佳行为与专家的行为不是很相似,这表明估计奖励函数纯粹取决于病人的当前状态的假设过于简单。因此,尽管逆向强化学习在医学领域有一些实施上的挑战,但它可以估计无法从数据中计算出来的奖励函数,并有望在未来得到发展。
与本文相关的类别