由于深度学习能够促进多任务学习和加强生成性建模,因此在计算化学中变得很重要。然而,与其他机器学习方法相比,深度神经网络的实际性能优势尚不清楚。网络结构的复杂性和训练这种模型的成本对其应用造成了障碍。此外,计算化学领域相对缺乏大型数据集,这让人们对深度学习在这一领域的潜在变革性影响产生疑问。许多人工智能任务依赖于手头问题的正确特征集,而直接从原始数据中提取高层次的抽象特征可能很困难。深度学习将世界表示为一个嵌套的概念层次,每个概念都与更简单的概念相关联而定义。这种方法有助于克服特征提取方面的困难,并允许根据较不抽象的特征来计算更抽象的特征。
AI简史迈向智能系统的旅程始于20世纪40年代,McCulloch-Pitts神经元作为大脑功能的早期模型的出现。早期的模型相当简单,但能够解决以前认为计算机无法处理的各种问题。第二波神经网络研究持续到20世纪90年代中期,但神经网络的普及率直到21世纪的第一个十年才停止上升。第三次神经网络研究浪潮始于年的一个突破,当时杰弗里-辛顿(GeoffreyHinton)表明,一种被称为深度信念网络的神经网络可以使用一种被称为贪婪的分层预训练的策略进行有效训练。这一波神经网络研究普及了"深度学习"一词的使用,深度神经网络的表现超过了许多基于其他机器学习技术以及人工设计功能的竞争性人工智能系统。今天,自20世纪90年代以来,深度学习模型已成功用于商业应用,但开发和使用这种模型仍被视为一种艺术而非科学。
深度学习在计算化学中的应用下面我们将会介绍深度学习在计算化学各个领域的应用
2.1QSAR
传统的机器学习技术在计算化学中的应用由来已久,但深度学习最近才被应用于QSAR和QSPR。虽然已经观察到深度神经网络(DNNs)在统计上有明显的改进,但其实际效用可能与其他方法类似。然而,DNNs提供了一些优势,如同时对多种活动进行建模和构建分子特征的能力。图形卷积神经网络(GCNN)是化学中提取和学习分子特征的一个合理的方法选择。虽然现在确定DNNs是否明显优于标准方法还为时过早,但其生成有用特征和反QSAR的潜力不应忽视。反QSAR(定量结构-属性关系),是根据所需的目标属性或活性来预测分子结构或属性的过程。反QSAR不是根据一个分子的结构来预测其活性,而是预测一个将具有所需活性或特性的分子的结构。
2.2生成模型
生成模型是一种机器学习模型,它被训练来生成与它所训练的数据相似的新数据。它的工作原理是学习训练数据中的基本模式和结构,并利用这些知识来创造具有类似特征的新例子。生成模型可用于各种应用,包括图像和语音合成、自然语言处理和异常检测。QSAR的生成模型用于根据化合物的化学结构来预测其生物活性。这些模型使用生成算法来创建与一组给定化合物具有相似化学性质的新分子,然后可以用来预测新分子的生物活性。过去曾使用过遗传算法和贝叶斯优化,但近年来出现了生成深度学习模型的应用,如变异自动编码器、强化学习和生成对抗网络。这些模型允许从数据中直接学习化学空间的概率分布,并从空间的理想区域快速取样。虽然生成有效的化学结构很重要,但生成正确的结构仍然是一个挑战。
2.3大规模虚拟筛选的主动学习
包括纯虚拟化合物在内的化学库规模在不断扩大,这导致了对更有效的虚拟筛选方法的需求也越来越大。主动学习就是这样一种方法,它在库的一个子集上反复训练一个代用模型,以避免在所有分子上运行昂贵的计算。基于深度神经网络的代用模型在一些研究中显示出性能的提高,但准确预测不确定性和扩展到大型数据集的能力是重要的考虑。多种输出,如对接得分和相互作用指纹,可以对虚拟命中进行更细致的评估。训练的成本,包括超参数优化,也是需要考虑的重要因素。深度学习可以作为主动学习框架内的一个工具,帮助提高药物发现的虚拟筛选的效率和效果。
2.4深度学习处理稀疏数据
生物医学研究中的一个常见问题就是稀疏数据的处理,因为该研究中数据缺失率可能非常高。归因法被用作预处理步骤,以生成大多数机器学习算法所需的密集输入数据。基于深度学习的多任务性质,它可能非常适合于归因法,但是,与其他方法相比,深度学习准确性并没有实质性的提高。
参考资料:
James,Tim,andDimitarHristozov."DeepLearningandComputationalChemistry."ArtificialIntelligenceinDrugDesign():-.
版权信息
本文系AIDDPro接受的外部投稿,文中所述观点仅代表作者本人观点,不代表AIDDPro平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系AIDDPro(请添加