赶上最新的AI论文

香料科学》,《利用图神经网络建立混合香料预测模型的建议》

香料科学》,《利用图神经网络建立混合香料预测模型的建议》

化学

三个要点
✔️ 利用图神经网络
提出并发布了混合香味预测模型
✔️ 利用 GoodScents 数据集收集和分析了 16 万多个分子对的数据
✔️ 验证了该模型的高精度预测性能,并为香味设计提出了新的可能性。

Olfactory Label Prediction on Aroma-Chemical Pairs
written by Laura Sisson, Aryan Amit Barsainyan, Mrityunjay Sharma, Ritesh Kumar
(Submitted on 26 Dec 2023 (v1), last revised 5 Jun 2024 (this version, v2))
Comments: Published on arxiv.

Subjects: Machine Learning (cs.LG); Chemical Physics (physics.chem-ph); Quantitative Methods (q-bio.QM)

code: 

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

摘要

我们的日常生活中充斥着食品、饮料、卫生用品和其他使用香料的产品。然而,设计这些香味分子和创造所需的香味非常费力和费时。在香味研究领域,研究人员正在寻找香味分子的可解释特征,并利用这些特征来预测香味。然而,化学世界非常广阔,大约有 1,060 种分子。这意味着有那么多候选分子需要预测

在预测香味分子的过程中,研究人员曾根据特定的分子结构,如芳香度或其他特定的官能团,对香味分子进行过表征。这些方法在DREAM 嗅觉挑战等基准测试中取得了一些成功。不过,图形神经网络GNN)现在也得到了应用,其预测性能有了显著提高。

最近,概率方法和深度学习而不是人工特征提取已成为主流。用于分子图形或文本表示的新型机器学习方法不断涌现,极大地推动了新药和材料开发领域的发展,包括分子性质预测和新型分子设计。2022 年,Lee 等人利用图神经网络高精度地预测了味道标签,并从每个分子的矢量嵌入表示中构建了 "气味地图"这些用于预测气味标签的技术和数据集的进步使研究人员能够更深入地了解气味与分子结构之间的关系。

然而,该领域的研究仅限于预测单个分子。实际上,在许多食品和卫生产品,分子通常是混合的。而香味分子混合物中的非线性和复杂关系尚未被了解。本文提出了一种应用图神经网络生成香味分子混合物向量嵌入的新技术。

迄今为止,化学领域使用的图神经网络大多是针对特定任务的预测模型,这意味着必须根据不同的任务探索不同的架构。在本文中,图神经网络适用于单个分子的预测任务发展到适用于分子混合物的预测任务

希望本文能加深人们对香味与分子结构之间关系的理解,并为香味设计开辟新的可能性。

数据集和模型

为了建立香味分子混合物数据集,我们从GoodScents在线化学库中收集了香味的分子结构(SMILES 格式)和标签;GoodScents 网站上对大约 3,500 种分子进行了编目,并为每种香味分子都会推荐一种具有特定香味的互补调味剂(混合器)。这样,用户就可以找到创造独特香味的分子组合。通过这种方式,已经收集了 160,000 多对分子的数据。

使用 Python 的 BeautifulSoup,我们创建了一个爬虫来分析 GoodScents 香料名称、气味标签和建议的混合器,排除了未提及 SMILES 的数据或无法分析的数据。值得注意的是,我们只删除了此类不准确数据总数的 0.05%。

数据库中的所有分子对构成了一个元图,其中每个节点都是一个分子图,节点之间的边表示混合物的标签。为了将训练数据和测试数据分开,元图被分成两个部分。每个部分都必须包含涵盖所有标签的数据,而且要尽量减少边的数量,以最大限度地增加可用数据量。

生成的数据集包含 109 个气味标签。其中一些包含未标记的标签对(标记为 "未找到相关标签"),这些未标记的标签对已被删除。此外,"anisic "被更通用的 "anise "取代,"medicinal"(带逗号)被更正为 "medicinal","corn chip "被 "corn "取代。经过这些修改,最终共有 104 种香味。此外,我们还从 Leffingwell 和 GoodScents 获得了单个香味分子的数据,并将这些数据进行整合,用于研究拟议模型学习转换的能力。

元图被随机分割成一组分子,然后又被分割成训练数据和测试数据。重复这种分割,直到为每个标签生成至少一个训练数据和一个测试数据。虽然训练数据和测试数据中气味标签的分布与整个图的分布之间的库尔巴克-莱伯勒发散度被用来对图分割进行评分,但它表示,相比这些相似性,它更优先优化可用数据的数量。最终,获得了 44,000 对训练数据和 40,000 对测试数据,删除了 83,000 个数据;在 109 个气味标签中,据说只有 74 个在足够多的分子中出现过,从而达到了截断的目的。

然后对分离的训练和测试组件进行各种实验,以确定气味预测的最佳模型。实验程序如下图所示。这为有效地收集和分析数据以及验证模型的性能奠定了坚实的基础。

图(a、b)显示了构成香味的分子特性与其混合特性之间的非线性关系。相同的分子出现在单一数据集和混合数据集中,但分子的组合产生了新的香味,而其他香味则在混合中被削弱。

图(c)显示了混合元段最密集区域的样本。图中显示了元图中 0.5% 的节点,包括 7 个训练分子(蓝色)和 7 个测试分子(红色)。元图的平均度数为 6,每个分子中都有许多数据/边,因此非常密集,难以分离。

图 (d)展示了图形分割的概况。分区算法的目的是在不造成标签分布偏移的情况下,最大限度地增加可用配对的数量。

(e 和 f)为实验概览。(e)显示了本文使用的整体优化和学习管道,(f)显示了用于优化超参数的 50:25:25 学习/测试/验证五元组。

图(g)显示了图神经网络对单个气味分子的预测。对整个分子图应用了一个信息传递层,然后是一个读出层和一个多层感知器(MLP)来预测最终标签。图 (h)显示了MPNN-GNN 对混合配对的预测分子图被视为单个图,如图(g)所示,应用了读出层和多层感知器。最后,图(i)显示了混合配对的 GIN-GNN 预测。分子图分别经过消息传递层和读出层,然后组合成多层感知器

此外,还对不同的图神经网络进行了训练,以便从成对的香味分子中预测混合香味的标签。这里使用的模型源自两种主要架构。

首先,基于新的图形同构网络(GIN)开发了一个模型。该模型为每个分子配对中的每个分子独立生成一个嵌入,并在预测混合配对的最后阶段将这些嵌入结合起来。接下来,我们开发了一个基于信息传递神经网络(MPNN)的模型。在该模型中,分子对的结构在输入信息传递层之前被组合成一个图。

这些模型大大提高了香料分子混合物的预测准确性。未来,进一步的改进有望带来更精确的预测模型。

试验

为了评估每个模型的预测能力,对气味标签使用了 AUROC。为了比较结果,我们计算了所有测试数据的微观平均值。我们首先对混合标签预测进行评估,MPNN-GNN 的平均 AUROC 得分为 0.77,GIN-GNN 模型的平均 AUROC 得分为 0.76。作为基线模型,我们为每对分子生成了半径为 4 的 2048 位摩根指纹(MFP),将其连接并输入逻辑回归以预测混合物的气味标签。

与 la 基线相比,GIN-GNN 对某些标签的预测非常准确,但对其他标签的预测则明显较差。相比之下,MPNN-GNN 在所有标签上的表现都很稳定。

我们还评估了该模型在单分子预测任务中的性能。为了使 GIN-GNN 模型适应这一任务,我们为每个分子生成了图级嵌入,并训练了逻辑回归分类器来预测相同的 74 种香味标签。由于图级嵌入和原始的配对级嵌入具有不同的维度,因此架构中的 MLP 部分不能挪作他用;MPNN-GNN 不需要做任何改动,只是在信息传递阶段增加了一个分子的输入。整个经过训练的架构可以重复使用。

在单分子任务中,MPNN-GNN 的平均 AUROC 得分为 0.89,而 GIN-GNN 和摩根指纹识别模型的得分分别为 0.85 和 0.82。与混合配对预测任务相比,所有模型在单分子预测任务中都有明显提高,这表明单分子预测任务比混合配对预测任务难得多。研究还表明,MPNN-GNN 和 GIN-GNN 在这项任务中的性能差距较大的一个可能原因是,GIN-GNN 的预测层不能重复使用。

摘要

本文提出了一种可利用图神经网络准确预测香味分子混合物非线性和复杂特性的模型。它表明,这种图神经网络不仅可用于预测分子混合物还可用于预测传统的单个分子。该模型也可在 GitHub 上获取,以激励和进一步促进该领域的研究。

论文作者指出,他们的最终研究目标是创建一个模型,能够预测以不同浓度混合的香味分子混合物的连续标签。他们相信,这将有助于在食品、药品和卫生产品等处理气味的各个领域利用气味。

然而,要实现这项研究,还缺乏有关气味分子的公开数据集。即使是单一分子也仍然供不应求。香水公司可能拥有丰富的分子混合物配方,但这些信息自然属于商业机密,不可能公开。因此,本文作者也致力于解决公共数据集缺乏的问题。

随着机器学习的发展,人们正在尝试将各种感知信息数字化。其中,气味的数字化被认为是滞后和困难的。从广泛的应用来看,气味在人们生活中的重要性不言而喻。闻一闻喜欢的气味可以帮助人们集中注意力,放松身心。我们希望,丰富公开的气味数据集以及利用这些数据集开展的研究将有助于解决这一问题。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们