清华新闻网11月28日电 分子动力学(MD)模拟是探究生物分子机制的重要工具,其成功依赖于力场的准确性、效率和泛化能力。近年来,人工智能驱动的MD模拟快速发展,从静态结构预测向动态行为建模转型,为揭示信号通路、药物靶点结合等提供原子级洞见,推动生物机制阐明和药物发现。
11月21日,清华大学生命科学学院王童课题组应邀在《结构生物学的当前观点》(Current Opinion in Structural Biology)上发表题为“基于机器学习力场的AI驱动的生物分子模拟最新进展”(Recent advances in artificial intelligence–driven biomolecular dynamics simulations based on machine learning force fields)的综述文章。文章概述了机器学习力场(MLFF)的设计关键因素,总结了三大类MLFF的进展,分析了其局限性,并展望了其在全细胞多尺度模拟中的应用。
近年来,人工智能的兴起,如AlphaFold在蛋白质结构预测领域的突破,凸显了人工智能在计算结构生物学中的潜力。基于MLFF分子动力学模拟使用神经网络计算原子的受力并迭代更新位置和速度,能够追踪分子行为的时序演化,从而探查生物分子的复杂机制。
MLFF的成功取决于准确性、效率和泛化能力的平衡。准确性要求预测能量和力忠实再现量子势能面,以准确计算如蛋白折叠自由能等宏观性质。效率确保对于蛋白质折叠或变构调控的长时间尺度模拟。目前MLFF对典型生物体系在显式水环境中的模拟速度可达每天数纳秒。泛化能力则要求模型能够在有限数据的训练下,泛化到不同构象和分子上。基于片段化策略和MLFF的MD系统极大提高了泛化性,避免为每个系统从头训练的高成本。

机器学习力场设计中的关键因素:准确性、效率和泛化能力
通过神经网络参数化经典分子力场是MLFF的一大类别,如Espaloma、ByteFF等。这些方法利用从头计算数据集优化经典力场的键合和非键合项参数,捕捉多体相互作用如极化和电荷转移,同时保留经典力场的计算效率。ByteFF在蛋白质和核酸模拟中表现出色,超越传统力场在能量和力计算方面的精度。
端到端训练的MLFF摒弃固定解析形式,直接建立原子坐标到势能面的映射,旨在突破经典力场限制以逼近从头算精度。相较于早期的不变性模型,引入等变图神经网络(EGNN)已成为主流,通过在网络中保留旋转和平移的几何对称性,显著提升了模型的数据利用率与准确性。以ViSNet为例,该模型采用高效的标量-矢量交互网络架构,并基于物理启发引入四体相互作用,在避免高昂计算成本的同时有效增强了对复杂几何特征及远程相互作用的捕捉,为生物大分子体系提供了兼具高精度与高效率的模拟方案。
为克服端到端模型在泛化上的局限性,AI2BMD和GEMS等通用力场引入了片段化策略。AI2BMD基于二肽单元构建通用库,GEMS则融合bottom-up的小分子与top-down的特异性片段,实现了对大分子体系的高效扩展。实验表明,这些方法不仅能精确计算蛋白质热力学性质和折叠自由能,还能准确复现太赫兹光谱等动态特征,在万原子级溶剂化体系中实现了近从头算精度。
尽管进展显著,MLFF仍面临准确性、效率与泛化性的多重挑战与内在权衡。局域截断限制了对长程静电相互作用的捕捉,计算效率仍显著慢于经典力场,制约了对慢速生物过程的探索。此外,各要素间难以兼得:提升模型精度往往以牺牲效率为代价,而追求广泛的化学空间覆盖则可能导致特定体系的预测精度下降。
展望未来,MLFF将与虚拟细胞模型和粗粒化表示整合,实现全细胞多尺度模拟,桥接计算预测与实验验证,加速生物机制阐明和治疗发现。
清华大学生命科学学院助理教授王童为论文通讯作者,王童课题组来自香港中文大学的实习生崔涛镛和来自北京大学的实习生周雨涛为论文共同第一作者。研究得到国家重点研发计划、清华-北大生命科学联合中心、北京生物结构前沿研究中心等的支持。
论文链接:
https://doi.org/10.1016/j.sbi.2025.103191
供稿:生命学院
编辑:李华山
审核:郭玲