赶上最新的AI论文

科学知识和机器学习的整合

机器学习

三个要点
✔️ 弥补和协同科学和机器学习模型的不足的综合模型的回顾
✔️一些模型已被证明可以减少计算负荷,并提高对物理模拟器的准确性。
✔️这些天快速发展,留下增长空间

Integrating Scientific Knowledge with Machine Learning for Engineering and Environmental Systems
written by Jared WillardXiaowei JiaShaoming XuMichael SteinbachVipin Kumar
(Submitted on 10 Mar 2020 (v1), last revised 23 Jul 2021 (this version, v5))
Comments: Accepted by ACM Computing Surveys.

Subjects: Computational Physics (physics.comp-ph); Machine Learning (cs.LG); Machine Learning (stat.ML)

code:  

本文所使用的图片要么来自该文件,要么是参照该文件制作的。

简介

机器学习在科学建模领域的应用不如其他领域成功,比如成像、自然语言和语音。这是因为需要大量的数据,难以产生物理上一致的结果,以及无法在样本情况之外进行概括。因此,研究已经开始探索并协同整合科学知识和ML模型之间的连续性。与传统的将机器学习领域知识应用于特征值工程和预处理的方式不同,我们将科学知识直接整合到ML框架中。涉及这一领域的研讨会和专题讨论会已经开始。(见参考文献[1-6])。)在这篇评论文章中,我们首先介绍了按目的分类,然后描述了不同的整合方法。

从应用角度看物理学/机器学习整合的目标

图1是一个通用科学问题的抽象表示的一部分。以变量xt和常数s作为输入,机械模型F给出输出yt

下面对表1中的每个目标进行解释。

更换和改进物理模型SOTA

尽管基于物理定律的科学模型被广泛使用,但对实际过程并不完全了解,模型只是一种近似值。此外,模型包含许多参数,这些参数的准确值无法观察到,所以经常用估计值来代替。另一方面,ML模型可以用来超越许多规律的基于物理学的模型。这是因为NN可以提取无法明确表达的复杂问题结构和模式。

降低比例

降尺度方法用于需要以更精细的分辨率对物理变量进行建模的情况,但由于高计算负担而难以做到。有两类:统计降尺度和动态降尺度。有两类:统计降尺度和动态降尺度。 前者是一个经验模型,从粗分辨率的变量预测细分辨率的变量。由于需要解决复杂的非线性问题,传统上很困难,但它们在NN中显示出前景。后者用于动态模拟需要高分辨率、特定领域模拟的区域内的相关物理过程。这在计算上仍然是昂贵的,但预计将通过ML来减少。在这两种情况下,都可以应用最新的MLshuhou,但面临的挑战是如何确保学到的ML部分与既定的物理规律相一致,并确保整体仿真性能得到提高。

参数化

复杂的物理模型经常被参数化,以适应无法捕捉的物理现象。复杂的动态过程被由静态参数代表的简化物理近似所取代。一个常见的方法是使用网格搜索来寻找最佳值。另一种方法是替换一个动态或静态的ML过程。这已经在几个领域成功使用。与传统模拟相比,其主要优点是减少了计算时间。

目前,我们使用标准的黑箱参数化ML,但对整合物理和ML模型有兴趣。这是因为预期的稳健性、泛化性能和训练数据的减少。

签约模式

简化模型(ROMs)是复杂模型的一种计算成本低廉的表示方法。ML正开始帮助构建具有更高的准确性和更低的计算成本的ROM。ML开始帮助我们构建更准确、计算成本更低的ROM:一个是基于ML的代理模型。其他的是现有ROM的ML替代模型,或者从全维模型映射到减维模型的降维模型的ML模型。该模型的应用有可能显著提高ROM的性能。

最近关注的一个领域是Koopman(或复合)算子的基本模式的近似,作为一种降维方法:Koopman算子是一个无穷大的线性算子,通过非线性动力学对系统状态的时间卷积进行编码[41]。这使我们能够将线性分析方法应用于非线性系统,并推断出那些过于复杂而无法用传统分析方法表示的动态系统的属性。用深度学习逼近库珀算子嵌入。将基于物理学的知识添加到库普曼算子的训练中,有可能扩大泛化和解释能力。

局部微分方程

对于许多物理系统,即使治理方程是已知的,常用的有限元和有限差分方法求解偏微分方程是非常昂贵的,而ML模型,特别是NN求解器,大大降低了计算负荷,同时,解是可微的,具有封闭的该解决方案是可微调的,并且有一个封闭的分析形式,可以转移到任何后续的计算中。它已被成功用于量子多体问题和多电子薛定谔方程。最近,Li等人定义了一个神经傅里叶算子,允许NN学习整个偏微分方程系列,将任何功能参数依赖性映射到傅里叶空间的解决方案。

反向模式

逆向模型使用系统的(可能有噪声的)输出来估计真实的物理参数和输入。逆向问题在基于物理的建模界通常很重要,因为它们有可能揭示无法直接观察到的宝贵信息。一个例子是使用X射线图像,从CT扫描中生成反映人体结构的三维图像。

在许多情况下,解决逆向问题的计算成本很高,因为预测物理参数的后验分布和提取特征需要数百万次正向模型评估。基于ML的降额模型正在成为一种现实的选择,因为它们以大量的数据对高维现象进行建模,并且比物理模拟器快得多。

除了计算机断层扫描、地震数据处理等之外,人们对材料的逆向设计也越来越感兴趣。这涉及将所需的物理特性作为输入,并使用模型来确定拥有这些特性的原子和微观结构[147]

整合先前的物理知识是解决逆向问题的常见方法,与ML模型的整合有可能提高数据效率和解决严重集反问题的能力。

管理方程搜索

在许多学科(神经科学、细胞生理学、经济学、生态学、流行病学)中,动态系统并没有正式的分析描述。即使在数据丰富的情况下,管理方程仍然难以捉摸。将应用数学和物理学的原理与ML模型相结合以发现治理方程,已经成为一个活跃的研究领域。

在早期的工作中[36, 232],符号回归被应用于计算和分析导数之间的差异,以确定潜在的动力系统;最近,对函数字典和偏微分系数的稀疏回归被用来构建管理方程。最近,关于函数和偏微分系数字典的稀疏回归被用来构建治理方程;Lagergren等人用ANNs构建了一个函数字典。这种稀疏的定义方法是基于奥卡姆剃刀的原则。我们的目标是只用几个方程项来表示任何非线性系统。

数据生成

数据生成对于特定条件下的科学数据的虚拟模拟是很有用的。传统上,一直使用物理模拟,但它们的计算成本很高。cGAN可以产生基于物理模型的那种数据,而计算负荷却降低了。Farimani等人表明,cGAN可用于仅从观测中学习传热和流体流动,而无需使用治理方程。此外,还有一些工程工作正在进行,以便在GANs中使用关于物理规律和不变属性的先前物理知识。这包括在损失函数中加入守恒定律和对能量谱的约束。

不确定性的量化

不确定性量化(UQ)在计算机科学的许多领域(气候建模、流体、系统工程等)都很重要。UQ需要对整个分布进行准确的描述。UQ需要准确地描述整个分布的特征,以便在可接受的范围内进行预测,对输入特征值进行敏感性分析,等等。

使用物理模型的传统方法是蒙特卡洛(Monte Carlo),它需要大量的前向评估来收敛。与使用高斯过程相比,ML模型在计算上要求较低[94,178,256]。然而,由于ML模型并不自然地包括UQ,人们提出了一些方法,如由随机放弃、权重和偏差的分布组成的NN的贝叶斯变体,以及产生量化不确定性的分布的NN的集合。

将物理模型纳入UQ的ML,有可能更好地描述不确定性。这包括限制那些在物理上不一致的预测。

综合物理学/机器学习方法

有四类整合方法

物理诱发的损失函数

标准的ML模型很难直接从数据中捕捉到由于在不同时间和空间尺度上变化的物理参数之间的关系而带来的高度复杂性。这也是它们不能概括训练数据中不存在的情景的原因之一。研究人员将物理模型纳入损失函数,以确保ML模型捕捉到的动态模式能够与既定的物理模型相一致地进行概括。

最常见的方法之一是将物理模型的约束纳入ML模型的损失函数中,如下式所示

加入第三个项,即基于物理的损失,其中γ是一个超参数,决定了与其他损失的比率。

以符合物理学的方式操纵ML预测有以下优势

  1. 它为确保与物理定律的一致性和减少ML模型的搜索空间提供了可能。
  2. 通过物理约束的正则化,即使在没有标签的数据下也能促进学习。这是因为基于物理学的损失函数不需要任何观察数据。
  3. 遵循所需物理特性的ML模型比参考ML模型更适合在样本场景之外进行概括。

然而,应该注意的是,基于物理学的损失函数从根本上说约束性较小,不能保证物理学的一致性或概括性。

在图2所示的湖泊温度预测模型中,能量守恒定律被包含在损失函数中。

其他应用包括偏微分方程求解、治理方程搜索、逆向建模、参数化、降尺度、不确定性量化和生成性建模。

物理感应初始化

在给定参数初始值的方式上反映物理模型,可以加速学习过程并减少所需的数据数量。转移学习是其中的一种方式。Jia等人将这一方法应用于上述一个湖泊的温度预测模型。其他应用包括机器人技术中的物体位置识别、自动驾驶汽车的预训练和化学过程建模。

自我监督学习也可用于物理诱导的初始化。在自我监督学习中,辨别性的表征是利用预先定义的借口任务产生的伪标签来学习。前提任务是为了提取与目标预测任务相关的复杂模式。例如,借口任务可以被定义为预测起到根本性重要作用的中间物理参数。这种方法允许基于物理学的模型用来模拟这些中间物理变量,然后通过向隐藏层添加监督来预训练ML模型。

物理指导架构设计

上述两种方法在训练ML模型的过程中对搜索空间施加了限制,但ML架构本身仍然是一个黑盒子。他们没有将物理一致性或物理特性编码到ML架构中。最近的研究方向是建立ML架构,利用问题解决的特定属性。此外,将基于物理学的指导纳入建筑设计还有一个好处,那就是使黑盒子更容易解释。

中间的物理变量

将物理原理嵌入NN设计的一种方法是将物理意义归于NN的某些神经元。也可以明确地声明物理相关的变量:Daw等人将物理中间变量纳入LSTM结构;Muralidlar等人使用类似的方法将物理约束变量插入CNN的中间变量。

另一个优点是,它允许提取有物理意义的隐藏表征,可以由专家科学家进行解释。

另一种方法是将一些权重固定在有物理意义的数值或参数上,在训练期间不能改变。这在逆向建模中被用来从地震数据中寻找地下参数。

不变量和对称性编码

在物理学中,一个系统的对称性、它的不变量和它的动力学是深深交织在一起的。从一开始,深度学习模型就对某些不变因素进行编码:RNN编码时间不变因素,而CNN编码空间移动、旋转和缩放不变因素。

Ling等人在基于张量的NN中加入了旋转不变量;Anderson等人用旋转协变的NN架构学习了复杂的多体物理系统的行为和特性;Wang等人利用CNN的特殊功能将并发对称性、旋转对称性、缩放不变量和一般的恒速运动编码到NN中。他们用卷积法将它们编码到NN中。

对称性通过告知解空间的结构也可以减少ML算法的搜索空间。这种方法对治理方程搜索的任务很有用。Udrescu等人用一个物理模型构建了一个递归的多变量版本的符号回归,以缩小搜索空间。隐蔽的简单性标志是由NN发现的。

在分子动力学中,每个原子都有一个NN来计算该原子对总能量的贡献。Schutt等人允许CNN的连续滤波卷积层不是在直角坐标系上建模,如图像,而是作为具有任意位置的对象,如分子中的原子。每个原子层处理原子之间的距离,并允许量子化学约束的模型,如旋转不变的能量预测和能量保持的耦合力预测。

在涉及差分方程的动态系统中也广泛发现了包含对称性的架构修改。数学理论使我们能够根据偏微分方程的基本特性来设计CNN。各向异性过滤被用来定义抛物线CNN,而哈密尔顿系统被用来定义双曲线CNN。抛物线CNN平滑了输出并减少了能量,而双曲线CNN则保存了系统的能量。用NN解决偏微分方程的方法集中在欧几里得空间的学习上,但最近有人提出了一种包括傅里叶神经算子的架构,将其推广到函数空间。

汉密尔顿主要用于模拟具有守恒量的系统的时间演化,但直到最近,它还没有与NN结合起来。Greydanus等人为一个简单的质量-弹簧系统构建了一个具有能量守恒约束的NN结构。系统的哈密尔顿被预测并重新整合,而不是预测物理系统状态。最近,哈密顿参数化的NN已被扩展到一个NN架构,在哈密顿网络中执行基于微分方程的积分阶段,并有导数近似。

编码其他领域特定的物理研究结果

关于其他领域的物理信息也被编码在架构中,这并不对应于已知的不变量,但为优化过程提供了一个有意义的结构。这并不对应于已知的不变量,但为优化过程提供了一个有意义的结构:CNN中的领域信息卷积,GAN中具有额外领域信息的判别器,由问题的物理属性告知的结构,等等。Sadoughi等人。快速傅里叶变换层和物理诱导卷积层是通过物理信息预学习添加的;在一些非NN的例子中,Baseman等人引入了马尔科夫随机场,将计算机内存的时空特性编码为相应的概率依赖。

多任务学习中的辅助性任务

多任务学习同时执行几个学习任务,寻找相似性和差异性。作为任务的一部分,可以使用一个物理模型:De Oliveira等人使用一个GAN判别器来生成粒子能量的喷射图像,其中有一个满足粒子反应的某些特性增加了一项额外的任务。

物理诱导的高斯过程回归

高斯过程回归(GPR)是一种非参数、贝叶斯的回归方法;Glielmo等人提出了一种编码矩阵值核函数的向量GPR。它将原子间力的旋转和反射对称性编码为一个高斯过程,该过程具有特定的不变量保全协方差核。

混合物理学-机器学习模型

残留物模型

直接表示物理基础模型的不完整性的常用方法是残差建模:ML模型(线性回归)建立在物理基础模型上,预测误差,即残差(图3)。关键的概念是学习物理模型相对于观测值的误差,并利用它来修改物理模型的预测。残差建模的一个限制是,它不能强制执行基于物理的约束,因为它模拟的是误差而不是物理量。

它经常与ROM(减序模型)结合使用。DR-RNNs用堆叠的RNNs捕捉偏微分方程的动态结构,每一层RNNs都解决了残余方程。

物理模型输出 → ML输入

Karpatne等人将物理模型的输出作为ML模型的一个特征值输入(图4)。

部分物理模型的ML替换

用ML模型取代物理模型的某些元素,或预测物理模型中不准确的中间量。对于流体力学中雷诺平均纳维-斯托克斯(RANS)求解器的不一致性,湍流模型中的变量是由NN模型预测的[200]。一些力学模型和电力系统状态预测的物理模型已经被ML模型所取代。

物理模型,ML预测耦合

物理模型和ML模型结合在一起,使预测成为一个整体。权重取决于预测环境。例如,可以在长期预测的物理模型和短期预测的数据驱动模型之间改变权重。

逆向建模的ML通知/扩展物理模型

在逆向建模中,混合模型被越来越多地使用。首先使用基于物理学的模型进行直接反演,然后通过深度学习来提高反演问题的预测精度。这被用于计算机断层扫描、核磁共振成像和其他应用。

每种方法的要求和优势

表2总结了应用方面的技术要求和每种方法可以实现的好处。

杂交的可能性

表3显示了本综述中提出的应用观点的矩阵,以及它们在方法论中的分类。这表明,仍有许多交叉点没有研究实例,交叉点很少。当然,有一些组合在技术上是困难的,但即使考虑到这一点,也意味着仍有很大的研究空间。

该审查还提供了对整个情况的概述,我认为这提供了一个良好的基础,从中可以产生新的组合想法。我希望许多研究人员能够利用它。

一些研究未能符合这一类别。例如,对未来事件的预测,包含了数据同化的思想,持续更新模型状态。它已被用于时间序列模型和COVID-19流行病学模型中。另一个方向是物理和ML模型的耦合,以帮助决策。

 

摘要

文章作者过去参与的一个问题是,在物理模拟中存在太多的未知反应系数,由于需要大量的训练数据,创建ML模型并不实际。我们曾认为,模拟和ML的结合将是一个可能的方向。

这一回顾表明,在环境和医疗系统以及许多工程挑战中,同样的情况正在全面发生,一些尝试正在迅速推广,目标广泛。正如该论文的作者所写,这样的概述应该为进一步的新想法提供刺激。作为一个接近实际应用的领域,我们期待着它未来的发展。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!
友安 昌幸 (Masayuki Tomoyasu) avatar
JDLA G检定2020#2,E资格2021#1 数据科学家协会 DS检定 日本创新融合学会 DX检定专家 联合公司Amico咨询 CEO

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们