清华新闻网6月26日电 在代谢工程中,通过突变优化酶序列以提升目标产物产量是一项核心挑战。传统方法多聚焦于提升酶的热稳定性,或者依赖高通量筛选获取高活性突变体。然而,稳定性提升并不必然带来催化效率的提高,而组合突变带来的“叠加效应”往往难以预测,尤其是在突变空间巨大、实验数据稀缺的情况下。如何高效识别具有协同效应的突变组合,成为酶工程领域亟待解决的问题。
针对酶突变组合预测中实验成本高、催化效率测试繁琐等现实瓶颈,清华大学药学院田博学研究员团队和天津大学乔建军教授团队基于因果推断理论,重新审视了影响产物产量的各变量之间的关系。通过分析多个已发表工程数据集和本实验数据,团队发现并实验证实:“单位产量”(即产量除以表达量)与体外催化效率(kcat/Km)之间存在强正相关性。这意味着,研究人员无需再测定耗时耗力的kcat/Km,只需检测产量和表达量,即可可靠评估酶的体内活性。这一策略尤其适用于底物昂贵、体外实验成本高或酶纯化困难的体系,可显著节约经费与实验周期,让更多实验室以更低成本开展高效酶工程研究。

图1.因果推断理论模型示意图。将细胞看作工厂,酶丰度看作工人数量,酶活看作工人效率,则酶活=产量/酶丰度,酶丰度可以用表达量近似。由于表达量是一个容易测量的指标,产量/酶丰度可以近似替代难以测量的kcat/Km
在此理论指导下,研究团队建立了一套整合计算预测与高效实验迭代的工作流程。首先通过计算反应中间体的结合自由能(MM/GBSA)预测活性单点突变,并结合多序列比对进行筛选,随后进行单位产量的实验验证。在此基础上,团队提出了一种名为“物理启发的蛋白质语言模型特征选择方法(PIFS-PLM)”的少样本学习模型,仅需60-100个经实验验证的突变组合作为输入,即可高效预测活性增强的高产突变组合。

图2.识别活性提升突变组合的工作流程。(a)计算预测与实验验证的整合。(b)PIFS-PLM方法示意图,通过对保守残基(绿色高亮显示)与活性位点残基(蓝色高亮显示)的定义与对应PLM的特征提取,确认最佳特征维度后,针对非活性位点的酶活提升位点突变(橙色高亮显示)进行组合突变的集成预测
PIFS-PLM不依赖特定酶的三维结构信息,仅需多序列比对、活性位点定义和少量实验数据,即可在数CPU小时内完成训练,具备良好的通用性和可推广性。在以双环吉玛烯(BCG)合酶为模型体系的案例研究中,该策略从12个单点突变构成的组合空间中成功筛选出使BCG产量提升73倍的突变体;该方法还可拓展至选择性优化,最高提升15%。
研究团队通过晶体学、热稳定性分析、动力学测定、分子动力学模拟等手段,进一步揭示了远端突变通过稳定底物构象从而增强催化效率的结构基础。值得一提的是,萜类合成酶催化从线性前体出发的多步碳正离子环化反应,具有产物多样、构象高度动态等特点。该类酶在纯化过程中容易形成包涵体,且晶体结构与溶液状态往往存在差异(如LdTPS5在溶液中为单体,晶体中为二聚体)。更重要的是,部分突变体的产物谱在体内外截然不同——这提示单纯依赖体外数据无法准确指导体内工程优化,需要新的评估指标和设计策略。

图3.活性增强突变的结构基础。(a)LdTPS5ʷᵗ与突变体的在结合FsPP状态下的MMS光谱差异。(b)LdTPS5ʷᵗ与FsPP结合的晶体结构。(c)基于MD模拟,比较LdTPS5ʷᵗ与突变体在FPP、活性位点残基及整体蛋白层面的RMSF值。(d)LdTPS5ᵛ⁴³⁴序列变体的实验结果与MD数据
这一研究基于因果推断和公开数据集分析,提出并验证了“体内单位产量(产量/表达量)”可作为水相体系中kcat/Km的可靠替代指标,并建立了一套融合计算预测与高效实验迭代的工作流程,用于指导酶活性优化。
研究成果以“基于因果推断和小样本学习的组合突变优化酶活方法”(Enhancing Enzyme Activity with Mutation Combinations Guided by Few-shot Learning and Causal Inference)为题,于6月22日发表于《德国应用化学》(Angew. Chem. Int. Ed.)。
清华大学药学院研究员田博学,天津大学教授乔建军、闫晓光博士为论文共同通讯作者。清华大学药学院郭林博士,天津大学闫晓光博士、卢亚莉博士为论文共同第一作者。
研究得到国家重点研发计划、国家自然科学基金、北京生物结构前沿研究中心、清华-北大生命科学联合中心等的支持。
论文链接:
https://onlinelibrary.wiley.com/doi/10.1002/anie.7768514?sessionid=
供稿:药学院
编辑:李华山
审核:郭玲