清华新闻网12月31日电 近日,清华大学生命科学学院欧光朔课题组开发了一种名为SynSeg的通用方法,通过生成合成数据来训练机器学习模型,实现了对亚细胞结构的鲁棒分割,彻底消除了对手工标注数据的需求。SynSeg利用几何基元和域随机化策略,在囊泡、细胞骨架等多种结构的分割任务中表现优异,并可成功应用于神经退行性疾病和脂代谢疾病的定量分析。

图1.细胞骨架为例分割模型。(a)合成细胞骨架数据集生成与U-Net模型架构。(b)基于Airyscan成像对split-GFP标记的TUBA1A进行细胞骨架分割
SynSeg方法的核心理念在于,生成鲁棒的训练数据并不需要完美的物理模拟。通过引入域随机化(Domain Randomization),SynSeg构建了包含各种噪声、模糊、强度变化和干扰项的合成数据集。这些合成数据往往比真实图像更具挑战性,从而迫使模型学习鲁棒的形态特征,而非死记硬背图像。这种方法不仅降低了建模门槛,还极大地提高了模型的泛化能力。
团队首先在囊泡分割任务中验证了SynSeg的有效性。在培养细胞(HeLa cells)和模式动物秀丽隐杆线虫(C. elegans)的溶酶体相关细胞器成像中,SynSeg能够精准识别微弱和小尺寸的囊泡,在复杂背景下依然保持了形态细节,性能显著优于一系列基线方法。随后,团队将该方法扩展至更为复杂的细胞骨架分割。针对微管和肌动蛋白丝的分割挑战,SynSeg展现了卓越的性能。在Airyscan超高分辨率成像数据中,SynSeg在IoU、Dice系数和精度等关键指标上均优于传统方法(如Otsu、ILEE)以及专门的丝状结构分析工具FilamentSensor2.0 。
在更具挑战性的活体动态成像场景中,SynSeg展现了强大的鲁棒性。利用转基因秀丽隐杆线虫模型,研究人员对表皮微管进行了低分辨率、高噪声的转盘共聚焦活体成像。SynSeg不仅成功分割了密集的微管网络,还能在没有时序训练的情况下,精准捕捉微管的聚合和重排动态 。此外,为了测试泛化能力,研究团队将SynSeg应用于完全不同成像系统获得的植物细胞(烟草BY-2细胞)微管数据集。结果显示,在无需任何重新训练或微调的情况下,SynSeg的表现竟优于该数据集原研究中专门训练的深度学习模型,展现了该方法对活体成像中的动态捕捉与跨数据集泛化能力。
SynSeg不仅是一个分割工具,更是定量细胞生物学的有力工具,可通过量化病理特征赋能疾病研究。研究团队利用SynSeg定量分析了与神经退行性疾病相关的Tau蛋白。结果发现,致病突变Tau-F(R406W)会导致微管异常成束,表现为局部荧光强度的显著增加。此外,研究人员还将SynSeg与YOLO目标检测模型结合,建立了一套全自动的高内涵筛选流程,用于分析先天性脂肪营养不良症2型(BSCL2)模型细胞中的脂滴(Lipid Droplets)。分析结果揭示,BSCL2的特定错义突变会导致脂滴尺寸显著增加,从而将基因突变与具体的细胞表型缺陷直接关联。

图2.扩展SynSeg框架用于疾病相关细胞定量分析。(a)BSCL2 野生型(WT)细胞,与基因敲除(KO)细胞荧光图像,表明该模型能够准确测量两种细胞类型中的脂滴(LD)尺寸。(b)BSCL2 WT、KO及四种错义突变体脂滴尺寸的定量比较与统计分析。热图呈现了所有生物学重复之间两两比较的结果,颜色越深表示被比较的两组之间的统计显著性越大
综上所述,该研究提出了SynSeg这一基于合成数据的分割新范式。它通过模拟图像的几何本质与光学特性,克服了深度学习对标注数据的依赖,解决了传统方法抗噪性差的难题。SynSeg不仅在多种生物成像场景中表现鲁棒,还展现了强大的泛化能力和定量分析潜力,为细胞生物学和病理学研究提供了一套高效、可扩展的自动化分析工具。
研究成果以“SynSeg:一种用于广泛亚细胞结构分割的合成数据驱动方法”(SynSeg: A synthetic data-driven approach for robust subcellular structure segmentation)为题,与12月18日发表于《细胞生物学杂志》(Journal of Cell Biology)。
清华大学生命科学学院教授欧光朔为论文通讯作者,清华大学生命科学学院2023级博士生郭正阳为论文第一作者。研究得到清华-北大生命科学联合中心、北京生物结构前沿研究中心、清华-IDG/麦戈文脑科学研究院、国家自然科学基金委等单位以及钱塘冠名教授项目的支持与资助。
论文链接:
https://doi.org/10.1083/jcb.202506096
供稿:生命学院
编辑:李华山
审核:郭玲