编译/凯霞
对化学反应的探索和化学科学本身一样古老。在过去的一个世纪中,计算和实验方法共同发展。随着化学反应模型的建立中引入越来越多的数据,机械组件可以被减少,最终达到「大数据」的应用。
最近,来自阿斯利康公司和乌普萨拉大学的研究人员对有机反应由机制到机器学习进行了综述,以题为「Organicreactivityfrommechanismtomachinelearning」的论文发表在NatureReviewsChemistry上。
KjellJorner说:「在这里,我们从机械的角度概述了机器学习在化学反应领域的最新应用。从量子力学方法如何解决反应性问题的概述开始,我们讨论了利用机器学习的方法,以更快的方法来增强或取代基于量子的建模方法。」
图示:化学反应性的模拟方法。(来源:nature)
量子化学的机械建模(Mechanisticmodellingbyquantumchemistry)
量子力学(QM)计算可用于机制假设的研究,以获得分子组合的势能/自由能。利用波函数理论(WFT)计算成本可能太高;使用密度泛函理论(DFT)相对更实惠;而过渡态(TS)理论并不适用于所有的反应类型。
常用一定反应条件下(如时间和温度)的反应产率来衡量化学反应活性。然而,与所研究的反应无关的现象,如原料的降解,不可能通过机理研究来解决先天性问题。随着自动化和高通量技术的发展,机器学习(ML)或许可以解决这个问题?
目前,对替代QM计算更快的方法已经做了大量研究。半经验QM方法使用WFT(或DFT),忽略QM中一些计算成本较高的部分,将其替换为针对完整QM数据或实验调整的参数。从这个角度来看,半经验QM方法可以被看作是简单的ML模型。半经验QM方法比WFT或DFT快几个数量级,但通常精度较低,因此在预测实验中用途有限,但可以为ML方法提供基础数据。
从量子力学导出的模型(Modelsderivedfromquantummechanics)
分子力学方法作为QM计算的一种更快的替代方法,出现于上个世纪中叶。20世纪90年代,哈格勒(Hagler)和他的同事们应用了现在被称为迁移学习的方法来获得更高精度的力场。因此,分子力学方法经常被用作基于量子力学方法的预筛选工具,以寻找合适的柔性系统的低能量构象。
为了用更快的方法取代DFT方法,出现了分子能的精确神经网络工程(ANAKIN-ME,简称ANI)。在DFT计算上训练了一个深度神经网络来产生有机分子的通用电位。首先,建立一个大型的DFT数据库,包含超过50,个小有机分子的数百万个非平衡构象。与DFT结果相比,神经网络电位在较大的分子上具有较好的泛化性能,均方根误差低至0.6kcal/mol。随后,该模型通过主动学习得到扩展,越来越多的数据可以用于训练,得到的模型有可能取代DFT计算,这意味着ANI可以在很短的时间内达到类似的精度。
为反应性预测量身定制其他基于量子力学的模型,利用图卷积神经网络直接预测活化能,而不是总能量——这是ANI的目标。
ML-增强型QM反应路径模型(ML-augmentedQMreactionpathmodels)
通常,ML-QM反应路径模型针对从2D结构获得的量子化学计算的描述符和其他物理化学分子或原子特性训练ML模型。ML-QM模型通常使用较少的定制特征。该模型用于预测反应速率、活化势垒和回归的相对能量,或分类的诱变性和选择性,