清华新闻网5月15日电 液体活检是近年来发展起来的新型无创诊断技术,可以实时动态地监测人体的健康和疾病状态。细胞游离RNA(cell-free RNA,cfRNA)由于具有高度的敏感性、动态性和组织溯源能力,为肿瘤、自身免疫疾病、孕期疾病、神经退行性疾病等复杂性疾病的无创检测带来了新的希望。cfRNA广泛存在于血液等多种人类体液中,通常被包裹在细胞外囊泡(EV)中或与蛋白结合形成核糖核酸蛋白复合体(RNP)。然而cfRNA本身高度碎片化、异质性高且信噪比低(病灶来源的cfRNA占比低),为其灵敏识别和临床应用带来了诸多挑战。另一方面,被核小体或转录因子保护的碎片化cfRNA的片段组学近年来已有很多研究的积累,被证明在肿瘤诊断和预后等多个场景均有一定应用潜力,而具有广阔临床应用前景的cfRNA中的片段化特征则由于生物信息学分析方法的缺乏很少被研究。
5月8日,清华大学生命学院鲁志团队、北京协和医院李梦涛团队、北京口腔医院秦力铮团队的毛明惠在《基因组生物学》(Genome Biology)杂志上发表题为“细胞游离RNA峰值分析揭示具有临床潜力的高频保护的短片段区域”(Peak analysis of cell-free RNA finds recurrently protected narrow regions with clinical potential)的论文,开发了针对cfRNA数据的片段化分析方法cfPeak,填补了cfRNA片段化分析的空白,为cfRNA片段组学的发展铺平了道路。

图1. 文章主题概览示意图
鲁志团队多年来一直专注于cfRNA相关的技术开发和临床应用研究,在这项最新发表的工作中,研究人员通过统计建模与机器学习方法开发了一个新型的生物信息学方法cfPeak,该方法在真实和模拟数据集中均表现出比其他峰值鉴定方法更敏锐的片段化峰区识别能力。该研究为cfRNA片段组学的系统分析提供了可行方案,揭示了cfRNA保护性片段在生物学及临床应用中的重要意义。同时,该研究还强调了低丰度、潜在组织来源cfRNA信号在液体活检中的临床应用价值。
为了确认在体液细胞外数据中也可以检测到稳定的cfRNA信号,研究人员对比了细胞内CLIP-seq(CL-CLIP-seq)、细胞内小RNA-seq(CL-smRNA-seq)和细胞外小RNA-seq(CF-smRNA-seq)的读段覆盖图谱。使用经典的CLIPper工具进行传统的峰值/峰区的识别/检出。在已知cfRNA种类的转录本中展示了四个示例区域(峰区所在转录本)。总体上,对于未捕获或未免疫共沉淀的测序数据,如CL-和CF-smRNA-seq,不同转录本类型中均存在可稳定识别的峰区信号。

图2.在细胞内外的RNA测序数据中识别到长RNA前体上频繁出现的碎片化信号峰区
考虑到本研究之前提到的不同工具的差异,在使用传统的峰区识别工具探索片段化cfRNA时,可能会面临建模不恰当或参数不适合的风险。为此,研究人员引入了信号峰区识别方法cfPeak来填补这一空白。cfPeak借鉴了其他方法的多项优点,整体可分解为六个主要模块(图3A),并搭建了片段化cfRNA峰区分析的整个流程(图3B)。
为了在理想条件下更好地评估不同方法的性能和检测极限,研究人员还对血浆cfRNA的多组织来源特点进行了简化和建模,将其视为由主要来源(如血细胞来源)和次要来源(如结肠组织/细胞来源)组成,并人工生成了测试数据集(图3C)。研究人员进一步在该人工数据集中测试了cfPeak,发现其能够更敏感地检测到RNA混合物中次要来源的低丰度峰区(在50%、5%和0.5%次要来源比例下的召回率分别为90%、90%和70%),这些峰区在传统方法中常被忽略或遗漏(图3D)。

图3.cfPeak的模块和cfPeak-pipe的流程结构以及在人工数据中的评测效果
在被应用到肿瘤液体活检时,cfPeak在体液数据中有效识别了与结直肠癌相关的cfRNA信号峰(图4AB),并提供了有关实体瘤位点(图4CD)和口腔癌转移(图4EF)的信息。临床应用中的结果揭示了癌组织起源的低丰度cfRNA的重要性,表明cfPeak具有在血浆样本中识别出具有癌症检测、癌种区分及转移状态指示能力的片段化cfRNA峰区信号的潜力。

图4.cfPeak在几种临床场景中的应用
总的来说,该研究通过建立cfPeak峰区识别方法和cfPeak-pipe分析框架,填补了cfRNA片段化分析的空白,为体液cfRNA片段组学的科学发现及其在各类疾病检测中的广泛应用搭建了桥梁。
鲁志副教授、李梦涛主任医师、毛明惠主任医师为论文通讯作者;清华大学生命学院已毕业博士生鲍鹏飞、北京大学前沿交叉学院2021级博士生王泰惟和清华大学生命学院已毕业博士生刘晓帆为论文共同第一作者。
研究得到来自国家重点研发计划、国家自然科学基金、“生物信息学”教育部重点实验室、“绿色生物制造”全国重点实验室、清华大学精准医疗研究院、清华大学国强研究院、合肥综合性国家科学中心大健康研究院等的支持。
论文链接:
https://doi.org/10.1186/s13059-025-03590-x
cfPeak代码链接:
https://github.com/lulab/cfPeak
供稿:生命学院
编辑:李华山
审核:郭玲