网页设计网站免登陆,做报名链接的网站,苏州企业网站建站系统,银川网站建设对同一组细胞的多个分子层进行分析逐渐流行。越来越需要能够联合分析这些数据的多视图学习方法。Mowgli是一种支持配对多组学数据的整合方法。值得注意的是#xff0c;Mowgli将非负矩阵分解和最优传输相结合#xff0c;同时提高了非负矩阵分解的聚类性能和可解释性。作者将Mo…对同一组细胞的多个分子层进行分析逐渐流行。越来越需要能够联合分析这些数据的多视图学习方法。Mowgli是一种支持配对多组学数据的整合方法。值得注意的是Mowgli将非负矩阵分解和最优传输相结合同时提高了非负矩阵分解的聚类性能和可解释性。作者将Mowgli应用于10X MultiomeCITE-seq和TEA-seq分析的多个配对单细胞多组学数据。深入的基准测试表明Mowgli的性能在细胞聚类方面与最先进的技术相竞争并且在考虑生物可解释性时优于最先进的技术。
来自Paired single-cell multi-omics data integration with MowgliNature communications2023 目录 背景概述方法概述可解释方法结果Mowgli通过在TEA-seq中提供细胞类型特异性因子提高了生物学可解释性Mowgli在TEA-seq数据中确定了相关的免疫细胞亚群 背景概述
单细胞测序技术提供了细胞异质性的定量测量正在彻底改变我们对免疫系统、发育和复杂疾病的理解。单细胞测序技术的一个新前沿是多组学单细胞测序允许同时分析来自同一个细胞的多个分子reads(例如转录组、染色质可及性、表面蛋白)。这些前沿测序技术的例子是CITE-seq利用寡核苷酸偶联抗体同时测量RNA和表面蛋白的丰度以及10x Genomics Multiome平台通过基于液滴的单核分离来测量RNA和染色质的可及性。
多组学单细胞测序平台为我们提供了细胞的互补分子读数称为配对多组学数据。对这些数据的联合分析提供了一个令人兴奋的机会来了解细胞的不同分子方面是如何协同决定细胞的功能、形态和状态的。因此最近开发了几种多视图学习方法通过考虑其共享和互补信息来联合分析配对的多组学数据。这些方法不同于非配对整合方法它们利用了细胞之间的已知对应关系。最先进的单细胞多组学整合的多视图学习方法是基于矩阵分解k近邻或变分自编码器。整合矩阵分解(Integrative Matrix Factorization, integrated MF)和变分自编码器进行降维通过利用公共的细胞/观测将高维多组学细胞图谱联合嵌入到共享的低维空间。Integrative MF由于其线性性质定义了一个具有自然生物学解释的潜在空间但它过于简单无法捕捉复杂的生物过程。另一方面非线性方法如变分自编码器在聚类细胞中显示出巨大的潜力但尽管最近在这一主题上有研究但它们本质上缺乏生物可解释性。因此改进Integrative MF方法对于在可解释性和性能之间取得平衡至关重要。
作者在此提出了Multi-Omics Wasserstein inteGrative anaLysIs (Mowgli)一种新的Integrative NMFNon-negative MF方法用于多组学整合。
一方面Mowgli采用了iNMF这种方法在计算生物学中很流行因为它可以直观地用parts表示增强了可解释性。另一方面Mowgli通过利用OT最有传输增强了iNMF的聚类性能之前已经证明OT可以更好地捕捉单细胞组学图谱之间的相似性。作者对Mowgli进行了广泛的基准测试以整合使用CITE-seq、10X Genomics Multiome和TEA-seq平台分析的多个配对多组学数据。值得注意的是虽然作者专注于整合当前可用的组学数据但Mowgli可以处理具有任何类型和数量的组学的配对多组学数据集而无需对数据进行任何统计假设。
深入比较表明Mowgli的嵌入和聚类质量在真实多组学数据中优于最先进的技术并且在更复杂的真实多组学数据中具有竞争力。值得注意的是后者受到大多数真实数据集上缺乏绝对基础真值注释的影响。最后通过对TEAseq数据进行深入的生物学分析证明Mowgli在生物学可解释性方面提高了最新水平。
方法概述
Mowgli是基于集成矩阵分解(integrative Matrix Factorization, integrated MF)。开始于 d d d组学矩阵 A ( p ) ∈ R m p × n A^{(p)}\in\mathbb{R}^{m_{p}\times n} A(p)∈Rmp×n其中 p ∈ [ 1 , . . . , d ] p\in[1,...,d] p∈[1,...,d]具有相同的列细胞不同的特征genespeaksMowgli将它们分解为组学特定的字典 H ( p ) ∈ R m p × k H^{(p)}\in\mathbb{R}^{m_{p}\times k} H(p)∈Rmp×k和共享的embedding W ∈ R k × n W\in\mathbb{R}^{k\times n} W∈Rk×n。 k k k是latent空间的维数。
根据最先进的多组学整合MF方法细胞嵌入 W W W可用于可视化和细胞聚类(图1B)。相反字典 H ( p ) H^{(p)} H(p)通过基因集富集分析、基序富集分析或通过识别最高权重的marker来实现生物学解释(图1C)。
Mowgli的主要创新是将非负矩阵分解(integrative Non-Negative Matrix Factorization, iNMF)与最优运输(Optimal Transport, OT)相结合从而解决了优化问题OT可以优化NMF的重构损失。
Mowgli是Python开发的支持Scanpy与Muon进行预处理和下游分析此外Mowgli提供了一个用户友好的top基因和富集基因集的可视化从而有助于生物解释性。
作者将Mowgli与最先进的技术进行广泛的基准测试Seurat v4, Cobolt, Multigrate和MOFA。虽然存在几种方法但在这里重点介绍了配对数据集成的主要方法。此外还考虑了综合NMF基线以比较Mowgli与标准的NMF。
图1Mowgli概述。
关于因子 在非负矩阵分解NMF中因子是指分解后的矩阵中的列向量它们代表了数据的特征或者隐藏的主题。每个因子可以看作是原始数据中的一种模式或结构它们的组合可以近似地重构原始数据。
已知 H ( p ) H^{(p)} H(p)形状为 m p × k m_{p}\times k mp×k列代表的就是因子指定一种特定的模式其中的值即为该模式的表达权重得分。
可解释方法
基因集合富集分析 gProfiler API是通过Scanpy来使用的。作者将每个因子的150个top基因用作gProfiler的无序输入。
Motif富集分析 Signac使用JASPAR2022 Motif数据库进行Motif富集分析。为了使峰值具有可比性作者将矩阵 H ( a t a c ) H^{(atac)} H(atac)的行归一化为1。每个因子的前100个峰值被用作Signac的FindMotifs的输入。各因子的峰值组合构成了背景。
结果
Mowgli通过在TEA-seq中提供细胞类型特异性因子提高了生物学可解释性
作者根据MOFA和integrative NMF的生物学可解释性对Mowgli进行了基准测试(见图4A)。MOFA是领先的单细胞多组学整合工具并提供了用户友好的生物学解释。与此同时iNMF可被视为Mowgli的基线。
图4A和B
对于这个基准作者考虑了人类PBMCs的TEA-seq数据集对应于scRNA-seq、scATACseq和表面蛋白的配对分析。该数据集允许我们在两个以上的组学数据集上测试方法从而考虑到更多互补的分子调控层。
首先分别使用MOFA、integrative NMF和Mowgli对构成TEA-seq数据的三个组学进行整合。由于数据集未提供细胞注释作者将Mowgli、integrative NMF和MOFA获得的嵌入分别聚类并基于基因和蛋白质marker进行注释(见图4B)。作者用这种方法鉴定了粗粒度免疫细胞类型CD4 T细胞、CD8 T细胞、B细胞、自然杀伤(NK)细胞、MAIT T细胞、单核细胞Monocytes和红细胞Erythroid cells。值得注意的是使用Mowgli、iNMF和MOFA获得的细胞类型注释的一致性为94%并且与通过Azimuth获得的独立的基于RNA的注释相匹配(见补充图3)。因此这三种方法都能够通过对其嵌入的聚类恢复预期的细胞类型。
补充图3注释一致性。
为了测试Mowgli、iNMF和MOFA的生物学可解释性作者评估了它们的factors与鉴定的免疫细胞类型之间关联的特异性。在此提出的基本假设是一种可解释的方法应该提供并非在所有细胞中广泛活跃但选择性地与细胞类型相关的因子。事实上描述一种由多种因子组合而成的细胞类型是一项艰巨的任务。发现细胞类型特异性因子可以使相关细胞类型的生物学特性研究变得简单明了。
为了评估这种特异性对于每种细胞类型作者绘制了Mowgli、integrative NMF和MOFA因子根据它们在细胞类型内和细胞类型外的平均权重分布图4C。特定于细胞类型的factors应该在细胞类型内具有较高的平均权重而在细胞类型外具有较低的平均权重因此落在图的左上角。由于MOFA的因子并不一定是阳性的它们的阳性和阴性部分可能与不同的生物信息有关作者将每个因子分成两部分就像MOFA的解释工具一样。此外用特异性评分量化了每个因子的表现也在图4C中用粗体进行了报道并在方法部分细节中进行了定义。
图4C绘制了细胞类型内外的平均权重分别为Mowgli(紫色)、MOFA(红色为阴性部分蓝色为阳性部分)和iNMF(橙色)。
如图4C所示虽然MOFA和iNMF倾向于将多个因子与同一细胞类型关联起来但Mowgli经常定义因子与细胞类型之间明确的一对一关联。此外这些因子在Mowgli中的特异性评分高于MOFA和iNMF。其中MOFA和iNMF似乎都聚集了来自许多因子的信息而Mowgli更具选择性。值得注意的是如补充图4所示与相同细胞类型的MOFA相关的多个因子并不一定对应于相同细胞类型的亚群。
补充图4MOFA的因子表达
Mowgli在TEA-seq数据中确定了相关的免疫细胞亚群
最后作者将重点放在Mowgli在人类PBMC TEA-seq数据上确定的因子的生物学相关性上如前一节所述。在上一节中只考虑了粗糙的免疫细胞类型(例如B细胞、CD4 t细胞、CD8 t细胞)Mowgli可以识别出能够将这些细胞类型划分为相关亚群的多种因子例如Mowgli确定了将B细胞群分成两个亚群记忆B细胞和幼稚B细胞的因子图5A和B。
以同样的方式Mowgli检测与CD8 T细胞亚群(幼稚中枢记忆和效应记忆)单核细胞亚群(经典和非经典)树突状细胞亚群(浆细胞样细胞和传统)和自然杀伤细胞(NK)亚群(CD56dim和CD56bright)相关的因子。这些因子与特定免疫亚群的关联是基于效应记忆CD8 T细胞、幼稚B细胞、记忆B细胞和CD56dim NK细胞中排名靠前的基因和蛋白质。图5B并排显示了UMAP图显示了因子与其相关免疫亚群的蛋白质marker活性之间的相似性。
图5A和B重点关注四个特定免疫亚群(效应记忆CD8 T细胞记忆B细胞CD56dim NK细胞naive B细胞)。
由于在上一节中观察到MOFA具有较低的生物学可解释性。因此例如用MOFA解释与CD56bright NK细胞相关的pathway将需要复杂地结合从不同因子获得的pathway富集。相反在Mowgli同样的分析可以很容易地通过观察其第13个因子的富集pathway来实现。
最后作者研究了Mowgli可以提供的关于已确定的免疫亚群的生物学信息。在这一部分中重点研究了与四种免疫细胞亚群相关的因子效应记忆CD8 t细胞(因子49)、幼稚B细胞(因子33)、记忆B细胞(因子44)和CD56dim NK细胞(因子2)。对于这四个因子作者考虑了在 H ( r n a ) , H ( a d t ) , H ( a t a c ) H^{(rna)},H^{(adt)},H^{(atac)} H(rna),H(adt),H(atac)中的相关负载并分析了top genestop protein富集基因集富集基序。图5C为结果。
图5C图5A中显示的4个因子的top基因、top蛋白质、基因集和转录因子(tf)。星号表示与该因子和靶向top基因的tf相关的免疫亚群相关的基因集和marker。
对于效应记忆CD8 T细胞(CD8 TEM细胞)对应于因子49Mowgli可以提取两个top基因(CRTAM和KLRK1)已知对CD8T细胞介导的细胞毒性至关重要两个top蛋白(CD45RO, TCR-a/b)分别是已知的记忆T细胞标记物和T细胞受体。更有趣的是还确定了该亚群的几个转录因子TF其中包括EOMES和TBX21(又名T-bet)已知它们对CD8 TEM发育很重要。此外5个候选TF调控因子(TBR1、TBX21、TBX4、TBX5和MGA)靶向同一因子的3个top基因(CCL5、CRTAM和IL21R)这表明调控程序可能对CD8 TEM细胞很重要。
还有其余细胞类型的分析这里不再叙述。