清华新闻网3月26日电 近日,清华大学自动化系江瑞教授团队2025年9月发表于《自然·方法》(Nature Methods)的表观基因组研究成果“单细胞表观基因组基础模型——EpiAgent”(EpiAgent—foundationmodel for single-cell epigenomics),经过《基因组蛋白质组与生物信息学报》(Genomics, Proteomics & Bioinformatics, GPB)评审,入选2025年度“中国生物信息学十大进展”。
表观基因组是连接DNA序列与人体表型、解析致病机制的关键桥梁。江瑞团队建立了国际上首个单细胞表观基因组基础模型EpiAgent,原创性地将单个细胞的百万调控元件压缩为“细胞语句”,构建14亿参数的大模型统一解析复杂的基因调控规律。该模型通过独创的预训练任务,在涵盖500万细胞、350亿调控元件的自建超大规模人类染色质开放性图谱(Human-scATAC-Corpus)上完成训练。EpiAgent不仅使大规模表观基因组数据整合分析成为可能,更在肿瘤细胞中实现了内外源扰动响应与调控元件虚拟敲除的精准推演,从而全面开启了表观基因组虚拟细胞研究与应用的新范式。

EpiAgent预训练数据、词元化过程、模型架构及预训练任务
论文链接:
https://www.nature.com/articles/s41592-025-02822-z
供稿:自动化系
编辑:刘芳芳
审核:郭玲