陈迪俊团队开发基于单细胞和空间转录组的肿瘤微环境空间域识别方法

细胞是生命的基本单位,其在组织内的空间分布和组成决定了系统的结构和功能。例如,在神经组织中,神经元和胶质细胞以特定的方式排列,确保信息的高效传递;在肝脏中,不同类型细胞(如肝细胞和Kupffer细胞)在解剖学上形成特定的结构,发挥代谢和免疫的双重功能。在肿瘤微环境中,肿瘤细胞、免疫细胞和基质细胞的相互作用和空间重塑可以影响肿瘤的生长、侵袭和转移。然而,肿瘤微环境是一个极其复杂的异质性系统,不同的细胞群体在肿瘤的不同阶段和微环境条件下表现出多样化的空间分布与组成,这种异质性极大地限制了对其功能的全面解析。因此,识别具备特定细胞分布和组成的空间区域,即所谓的“空间域”(spatial domain),对于揭示肿瘤微环境的功能至关重要。这些空间域可能成为关键的细胞信号传递与相互作用的“热点”,通过研究这些热点,研究人员能够发现影响肿瘤生长与转移的关键生物标志物和潜在治疗靶点。

近年来,空间分辨转录组学技术的兴起,极大地推动了我们对复杂组织(如肿瘤微环境)中细胞组成与功能的理解。这些技术使研究者能够在单细胞水平上探究细胞的基因表达谱,揭示其在特定空间位置上的异质性和功能多样性。然而,如何从空间转录组数据中识别与病理相关的空间域仍面临巨大挑战。一方面,传统的聚类方法依赖空间邻近性和基因表达数据识别不同区域的特定表达模式,从而揭示其病理功能,但往往忽视了不同细胞类型之间的功能关联和相互作用。另一方面,反卷积方法虽然能够推测出特定区域的细胞类型比例,却未充分考虑这些细胞的空间连续性及其复杂的相互作用网络。

近日,南京大学陈迪俊团队在肿瘤微环境空间域识别方面取得新进展,他们开发了一种名为 SpaTopic 的统计学习框架,通过主题建模(topic modeling)将空间转录组数据的聚类和反卷积分析有机结合,能够将肿瘤微环境划分为具有一致细胞组成的空间域,从而实现对其精细的功能注释。SpaTopic能够精准识别多种与肿瘤功能相关的空间域,包括三级淋巴结构和肿瘤边界等。更为重要的是,SpaTopic 推断出的空间域标记基因稳定性强,具有良好的迁移能力,能够用于预测新数据集中的空间域。此外,SpaTopic 还支持跨数据集的空间域定量比较和功能分析,为肿瘤微环境的功能解析提供了强大的工具和全新视角,其推断出的空间域标记物具有广泛的应用潜力。

简单来说,SpaTopic利用空间转录组学数据和单细胞转录组数据作为输入,进行空间域的预测、注释和比较。其分析流程大致如下:首先,利用反卷积方法推断每个空间点(spot)的细胞类型组成,并通过无监督聚类方法将这些空间点初步聚类。接着,使用 Kolmogorov-Smirnov(KS)检验来确定每个分群的细胞类型特异性得分。然后,应用主题模型对细胞类型特异性矩阵进行分解,得到两个概率分布矩阵:一个是“主题-细胞类型矩阵”,表示每个主题中不同细胞类型的分布;另一个是“分群-主题矩阵”,表示每个分群在不同主题中的概率分布。在此基础上,对“分群-主题矩阵”进行二值化处理,将每个分群分配到特定的主题(称为 CellTopics)。通过这些步骤,能够将空间点的分群映射到相应的主题,其中属于特定主题的分群被定义为空间域(spatial domains)。因此,SpaTopic不仅能够准确表征空间域中的细胞类型,还能实现不同空间转录组数据集之间的定量比较和空间基因表达模式的挖掘。


图1. SpaTopic技术流程图

三级淋巴结构是非淋巴组织中因慢性炎症形成的独特免疫微环境,包含B细胞、T细胞、树突状细胞(DCs)等多种免疫细胞。TLSs的细胞组成因组织和炎症条件的不同而存在变异,给计算预测带来挑战。通过对原发性肝癌的空间转录组数据进行分析,SpaTopic识别出与TLSs相关的空间域,这些空间域与B细胞、T细胞和树突状细胞等免疫细胞紧密共定位,形成了典型的TLSs结构。此外,SpaTopic不仅为TLSs的识别提供了一种无偏的方法,其衍生的标记基因集TLS-25在不同癌症类型中显示出一致的表达模式,能够有效预测TLS的存在,并与患者的生存率相关联。

图2. SpaTopic对TLSs的准确识别

进一步,SpaTopic 对结直肠癌(CRC)原发肿瘤和肝转移肿瘤的空间细胞组织进行了比较分析,成功识别了原发肿瘤和转移肿瘤的不同空间域,并通过聚类分析将它们归为七个主要的MetaTopics。原发肿瘤和转移肿瘤的MetaTopics 展现出一致的细胞组成,揭示了特定细胞类型的功能组合。例如:来自 MetaTopic2(M2)的Mac_SPP1细胞亚群在原发肿瘤中高度富集,而 Mac_CXCL9 细胞亚群则在转移肿瘤的 M4 和 M6 中增加。研究发现原发肿瘤和转移肿瘤之间存在共享和独特的 MetaTopics,同时特定 MetaTopics(如 M6 和 M7)专属于转移肿瘤。这些发现与单细胞数据分析结果一致,进一步证明原发肿瘤与转移肿瘤之间的细胞组成和功能差异。

图3. SpaTopic在结直肠癌肝转移性肿瘤空间域的定量比较

然后,通过深入分析不同 MetaTopics 间的基因表达模式,得到 907 个基因在各MetaTopics中表现出显著差异,并将它们划分为七个不同的基因模块(K1 到 K7)。例如:基因模块 K3 在转移特异性 MetaTopic M7 中显著高表达,包含脂肪酸代谢和急性炎症反应等生物过程,标志着肿瘤转移的特征。模块 K4 和 K5 在原发肿瘤相关 MetaTopics中活跃,涉及能量生产和代谢调控等功能。模块 K7 在原发和转移相关的MetaTopics间共享,富含免疫相关通路。通过整合六个空间转录组数据集,MetaTopics在相似的基因表达模式的特定点聚类中明确映射,进一步验证了SpaTopic在空间域定量比较和功能注释中的有效性。

图4. MetaTopics 的表达分析

综上所述,该研究展示了SpaTopic在解析和注释肿瘤微环境中细胞空间域方面的强大能力。通过识别具有一致基因表达模式和细胞类型构成的空间域,SpaTopic不仅能够揭示肿瘤微环境中的潜在功能单元,还支持跨样本和跨数据集的定量比较,具有较好的适用性。

相关成果以“SpaTopic: A statistical learning framework for exploring tumor spatial architecture from spatially resolved transcriptomic data”为题于2024年9月27日在Science Advances杂志上发表。南京大学生命科学学院、医药生物技术全国重点实验室陈迪俊副教授为该论文的通讯作者,生命科学学院博士研究生张月蕾、2020级本科生俞边炯明文轩(两位均为新入学硕士研究生)为论文共同第一作者。南京大学生命科学学院王进教授和硕士研究生周小龙也参与本研究。该研究得到了南京大学高层次人才引进项目和国家自然科学基金面上项目的资助。

论文链接https://www.science.org/doi/10.1126/sciadv.adp4942