生物医学交叉研究院黄牛团队开发机器学习势能模型助力高精度刻画蛋白片段非共价相互作用-清华大学

清华新闻网6月22日电 宏观生命活动根植于微观原子间的相互作用，其中非共价相互作用（NCI）主导着蛋白质折叠、分子识别和药物-靶点结合等核心过程。在生物计算领域，对非共价相互作用的表征往往面临或追求物理准确性或侧重运算速度的两难。经典分子力学以高效见长，但其物理近似引入了固有误差；量子力学（QM）虽能从物理本质精准求解非共价作用，却受限于高昂的计算成本与迟缓的运算速度，难以支撑蛋白质等生物体系的规模化模拟。近年来，机器学习原子间势能（MLIP）被视为有望实现精度与效率“双赢”的途径。

针对精度和效率难以兼得的痛点，清华大学生物医学交叉研究院黄牛研究员团队最新研究借鉴经典力场的迭代发展思路，采用“自底向上、分而治之”的建模策略，从基础小分子二体片段的相互作用出发，逐步构建多层次、全覆盖的二体片段非共价相互作用QM数据集，并据此研发出专为蛋白片段非共价相互作用打造的机器学习势能模型PANIP（PAirwise Non-covalent Interaction Potential）。通过引入多精度主动学习（MFAL）策略，在海量蛋白片段数据中高效筛选代表性样本，以极低的数据量实现接近量子化学级别的计算精度。

研究团队依托蛋白质数据库（PDB）开展数据集构建工作，首先筛选出29204个高分辨率蛋白结构，将蛋白质拆解为氨基酸侧链、主链结构、水分子等17类化学片段；以重原子间距2-4Å为筛选标准，识别存在非共价相互作用的片段对，最终得到涵盖153种组合类型、总量高达3630万组的蛋白片段二聚体原始数据集。

如果对全部样本开展高精度量子化学标注，算力与时间成本将难以承受。为此，团队搭建了一套分层式多精度主动学习流程（图1）。先使用低成本的r²SCAN-3c量化方法完成全量样本的初步能量计算，再通过机器学习代理模型迭代识别预测误差大、信息价值高的 “关键样本”，逐步扩充训练集。最终从3630万组原始片段对中，筛选出约315万组代表性样本，构建得到PDB-FRAGID数据集。这套精简数据集仅占原始数据总量的8.7%，却完整保留了17类片段、153种片段组合的化学特征与构象多样性，覆盖氢键、静电作用、阳离子-π作用、硫基相互作用等各类蛋白典型非共价作用模式。研究团队继而采用高精度ωB97X-D3BJ/def2-TZVPP量化方法，对PDB-FRAGID数据集进行能量标注，为PANIP模型训练筑牢高质量数据基础。

20260618-Digital Discovery-黄牛-1.训练集构建和模型训练流程.png

图1.训练集构建和模型训练流程

PANIP基于NequIP等变图神经网络框架搭建而成，能够精准捕捉原子空间取向带来的相互作用差异。在多套独立基准测试集上，该模型展现出优异的计算精度、构象适应性与跨体系泛化能力。第一，针对蛋白来源的平衡态片段二聚体，PANIP平均绝对误差（MAE）低至0.09kcal/mol，和高精度量子化学计算结果高度吻合。第二，在剑桥晶体数据库（CSD）来源的小分子片段、随机采样的非平衡构象等外部测试集中，PANIP依旧保持高精度输出，证明模型不局限于蛋白环境，可适配多样化分子体系。第三，与目前通用的AIMNet2机器学习势能相比，PANIP在带电体系、强相互作用二聚体、硫基相互作用等难点场景下误差大幅降低；在GMTKN55、通用分子非共价作用基准集等权威测试中，各项指标全面领先。

在计算效率层面，PANIP更是实现量级提升。相较于ωB97X-D3BJ/def2-TZVPP高精度量化计算，模型运算速度提升两个数量级以上；即便对比AIMNet2，端到端计算效率也提升约1.3倍，真正实现了量子级精度、力场级速度。

依托PANIP的高效计算能力，研究团队还完成了3630万组蛋白片段对的大规模能量解析，系统剖析了阳离子-π作用、甲硫氨酸 - 芳香环硫基作用等典型非共价作用的空间分布与能量规律，挖掘出多种此前未被充分报道的作用模式，深化了对蛋白微观相互作用机制的认知（图2）。

20260618-Digital Discovery-黄牛-2.二聚体的空间分布及代表性低能结构.png

图2.ETAM PMPO（a）、ETAM MIND（b）与MBZ MSM（c）二聚体的空间分布及代表性低能结构

研究进一步拓展PANIP的应用场景，结合片段化能量分解方案，将其开发为基于片段的打分函数，应用于蛋白-配体分子对接与结合构象排序。选取T4溶菌酶突变体、丙酮酸激酶M2（PKM2）等经典模式研究体系，总计22套蛋白-配体复合物体系开展测试。结果显示，在半数测试体系中，PANIP可将晶体原生结合构象排在对接结果首位；相较于DOCK内置AMBER传统力场打分，PANIP能显著提升天然构象的排名准确率，降低最优预测构象的原子均方根偏差（RMSD）。

该工作在方法学上，验证了多精度主动学习是解决大规模生物分子数据冗余、平衡标注成本与模型性能的高效路径，为同类机器学习势能模型的开发提供了标准化范式。在应用层面，PANIP提升了蛋白专属高精度机器学习势能的建模能力，为蛋白质工程、分子互作机制解析、先导化合物筛选等研究提供了低成本、高精度的计算工具。未来，这套工具有望和经典力场、通用机器学习模型形成互补，为生物分子模拟、计算药物研发领域向 “高精度、高效率、规模化”方向持续发展打通“最后一公里”。

研究成果以“开发一种用于描述蛋白质中非共价相互作用的机器学习原子间势函数”（Developing a machine-learning interatomic potential for non-covalent interactions in proteins）为题，于6月8日发表于《数字发现》（Digital Discovery）。

清华大学生物医学交叉研究院黄牛实验室2020级博士生曾乐嘉为论文第一作者，清华大学生物医学交叉研究院研究员黄牛为论文通讯作者。

研究得到北京市科学技术委员会、中关村科技园区管理委员会、清华大学的资助，全部研究工作在清华大学生物医学交叉研究院完成。

论文链接：

https://doi.org/10.1039/D6DD00056H

供稿：生物医学交叉研究院

编辑：李华山

审核：郭玲

2026年06月22日 14:15:07