脑震荡

注册

 

发新话题 回复该主题

数据与原理双驱动百度飞桨螺旋桨发布第一性 [复制链接]

1#
北京哪里医院治疗白癜风最好 https://wapjbk.39.net/yiyuanzaixian/bjzkbdfyy/jxxbdf/

导读:单纯数据驱动的模型构建方式已不足以支撑生物计算领域的技术创新,百度飞桨螺旋桨团队发布第一性原理启发的化合物表征大模型HelixGEM-2,首次提出基于长程多体交互的分子建模新技术,同时刷新大规模量子化学属性预测任务及虚拟筛选任务,显示出其在药物研发领域的巨大应用潜力。

今年2月,百度飞桨螺旋桨团队在《Nature》旗下子刊《MachineIntelligence》上发表了题为《GeometryEnhancedMolecularRepresentationLearningforPropertyPrediction》的文章,首次将化合物的空间结构信息引入到大规模的预训练模型中,在下游十多项的药物属性预测任务中取得SOTA,即HelixGEM模型。HelixGEM从数据驱动的角度出发,使用千万级别的化合物数据进行预训练,并设计基于几何构象的自监督学习任务,使得模型具备推理化合物三维空间结构的能力。

但在标注数据相对稀少的场景上,数据+领域知识驱动的模型构建方式已经不足以更好的表征分子特性,而需要引入更多的原理机制,以提升模型的泛化能力。基于此想法,螺旋桨团队近期发布了第一性原理启发的化合物表征大模型HelixGEM-2,并公开文章《NextGenerationMolecularPropertyPredictionNetworkbyModelingFull-rangeMany-bodyInteractions》,在业界首次提出基于长程多体交互的分子建模新框架,并同时刷新大规模量子化学属性预测任务及虚拟筛选任务,取得新的技术突破。

第一性原理启发的长程多体交互的化合物表征模型HelixGEM-2

在微观层面上,化合物的性质取决于它的分子内部相互作用以及与环境中其他分子的相互作用,这些相互作用的尺度是如此之小,以至于无法通过经典力学规律来描述,而必须考虑非经典的量子力学效应。从量子力学的角度来看,化合物及其环境是一个多粒子体系,预测其性质的难点在于如何准确描述粒子间复杂的多体(Many-body)和长程(Long-range)相互作用。为了描述这些相互作用,螺旋桨团队受到量子力学仿真方法的启发(如:密度泛函理论densityfunctionaltheory,简称DFT),创新性地设计网络结构,从而高效地建模化合物中的多体以及长程相互作用,以全面提升化合物建模在属性预测与药物筛选中的效果。

文章arxiv链接:

分享 转发
TOP
发新话题 回复该主题