艾巴生活网

您现在的位置是:主页>生活 >内容

生活

学习分子的语言来预测它们的特性

2023-07-08 12:16:47生活传统的飞鸟
发现新材料和药物通常涉及手动试错过程,可能需要数十年时间并花费数百万美元。为了简化这一过程,科学家经常使用机器学习来预测分子特性并

发现新材料和药物通常涉及手动试错过程,可能需要数十年时间并花费数百万美元。为了简化这一过程,科学家经常使用机器学习来预测分子特性并缩小他们需要在实验室合成和测试的分子范围。

学习分子的语言来预测它们的特性

麻省理工学院和麻省理工学院沃森人工智能实验室的研究人员开发了一种 新的统一框架,可以同时预测分子特性 并比这些流行的深度学习方法更有效地生成新分子。

为了教导机器学习模型预测分子的生物或机械特性,研究人员必须向其展示数百万个标记的分子结构——这个过程称为训练。由于发现分子的成本以及手动标记数百万个结构的挑战,大型训练数据集通常很难获得,这限制了机器学习方法的有效性。

相比之下,麻省理工学院研究人员创建的系统只需使用少量数据即可有效预测分子特性。他们的系统对决定构件如何组合以产生有效分子的规则有基本的理解。这些规则捕获分子结构之间的相似性,这有助于系统生成新分子并以数据有效的方式预测其特性。

该方法在小型和大型数据集上都优于其他机器学习方法,并且在给定少于 100 个样本的数据集时能够准确预测分子特性并生成可行的分子。

“我们这个项目的目标是使用一些数据驱动的方法来加速新分子的发现,这样你就可以训练一个模型来进行预测,而无需所有这些成本高昂的实验,”主要作者郭明浩说,计算机科学与电气工程(EECS)研究生。

郭的合著者包括 MIT-IBM Watson AI 实验室研究人员 Veronika Thost、Payel Das 和 Jie Chen;最近麻省理工学院的毕业生 Samuel Song '23 和 Adithya Balachandran '23;资深作者 Wojciech Matusik 是电气工程和计算机科学教授,也是 MIT-IBM Watson AI 实验室的成员,领导 MIT 计算机科学和人工智能实验室 (CSAIL) 的计算设计和制造小组。该研究将在国际机器学习会议上公布。

学习分子的语言

为了通过机器学习模型获得最佳结果,科学家需要训练包含数百万个分子的数据集,这些分子与他们希望发现的分子具有相似的特性。实际上,这些特定领域的数据集通常非常小。因此,研究人员使用在一般分子的大型数据集上预先训练的模型,并将其应用于更小的目标数据集。然而,由于这些模型没有获得太多特定领域的知识,因此它们往往表现不佳。

麻省理工学院的团队采取了不同的方法。他们创建了一个机器学习系统,可以仅使用小型的特定领域数据集自动学习分子的“语言”(即所谓的分子语法)。它使用这种语法来构建可行的分子并预测它们的特性。

在语言理论中,人们根据一组语法规则生成单词、句子或段落。你可以用同样的方式思考分子语法。它是一组生产规则,规定如何通过组合原子和子结构来生成分子或聚合物。

就像语言语法可以使用相同的规则生成大量句子一样,一种分子语法可以表示大量分子。具有相似结构的分子使用相同的语法产生规则,并且系统学习理解这些相似性。

由于结构相似的分子通常具有相似的特性,因此系统利用其分子相似性的基础知识来更有效地预测新分子的特性。

“一旦我们有了这个语法作为所有不同分子的表示,我们就可以用它来促进属性预测的过程,”郭说。

该系统使用强化学习来学习分子语法的产生规则——这是一个试错过程,模型因更接近实现目标的行为而获得奖励。

但由于可能有数十亿种方法来组合原子和子结构,因此除了最小的数据集之外,学习语法产生规则的过程在计算上过于昂贵。

研究人员将分子语法分解为两部分。第一部分称为元语法,是一种通用的、广泛适用的语法,他们手动设计并在一开始就提供给系统。然后它只需要从域数据集中学习更小的、分子特定的语法。这种分层方法加快了学习过程。

大结果,小数据集

在实验中,研究人员的新系统同时生成了可行的分子和聚合物,并且比几种流行的机器学习方法更准确地预测了它们的特性,即使特定领域的数据集只有几百个样本。其他一些方法还需要昂贵的预训练步骤,而新系统避免了这一步骤。

该技术在预测聚合物的物理性质方面特别有效,例如玻璃化转变温度,即材料从固体转变为液体所需的温度。手动获取这些信息通常成本极高,因为实验需要极高的温度和压力。

为了进一步推进他们的方法,研究人员将一组训练减少了一半以上,只剩下 94 个样本。他们的模型仍然取得了与使用整个数据集训练的方法相当的结果。

“这种基于语法的表示非常强大。而且由于语法本身是一种非常通用的表示,因此可以将其部署到不同类型的图形形式数据。我们正在尝试寻找化学或材料科学之外的其他应用,”郭说。

未来,他们还希望扩展当前的分子语法,以包括分子和聚合物的 3D 几何形状,这是理解聚合物链之间相互作用的关键。他们还在开发一个界面,向用户展示学习到的语法生成规则,并征求反馈以纠正可能错误的规则,从而提高系统的准确性。