资讯动态

北大学者Nature Biotechnology发文:单细胞多组学数据整合与调控推断新方法

2022-05-19 10:20:19
|
访问量:115332

  2022年5月2日,北京大学/昌平实验室高歌课题组于 Nature Biotechnology 发表研究论文,提出了基于图耦联策略的深度学习方法GLUE,首次实现了对百万级单细胞多组学数据的无监督精准整合与调控推断。

  基因的转录在生物学中心法则中处于承上启下的重要环节,与相对“静态”的基因组相比,转录组在不同组织/器官/发育阶段均有显著变化,是细胞完成相应生理/病理功能的重要生物学基础。细胞是构成生命的基础单元,迅速发展的单细胞测序技术为在单细胞层面研究细胞功能及其背后的基因调控机制提供了重要的技术手段,单细胞测序可用于检测多种不同的组学种类,包括转录组、染色质开放组、DNA甲基化组、组蛋白修饰组等等,对不同组学技术产生的数据进行整合分析有助于更全面地刻画细胞内的基因调控状态、揭示调控机制。然而,与传统的bulk数据相比,单细胞数据具有规模大(百万级细胞)、噪声高(dropout, batch effect)、异构性强等特点,如何通过开发新的计算方法实现对这些宝贵数据的有效利用已成为当今生物信息学领域关注的重点与热点。

  针对上述挑战,2022年5月2日,北京大学/昌平实验室高歌研究员课题组于 Nature Biotechnology 发表题为“Multi-omics single-cell data integration and regulatory inference with graph-linked embedding”的研究论文,提出了基于图耦联策略的深度学习方法GLUE,首次实现了对百万级单细胞多组学数据的无监督精准整合与调控推断。  单细胞多组学数据整合的一大挑战在于不同组学的特征空间存在差异,例如转录组的特征是基因,而染色质开放组的特征是染色质开放区段,不同特征空间的细胞缺乏可比性。为了解决这一问题,GLUE提出了全新的图耦联(graph-linking)策略,将组学特征间的先验调控关系表示成引导图(guidance graph)的形式,其中节点为组学特征,边为组学特征间的先验调控关系。模型采用变分图自编码器(Variational Graph AutoEncoder, VGAE)学习组学特征的低维表示作为组学数据的解码器权重,从而将不同组学的低维隐空间表示关联起来并确保其“语义一致性”;在此基础上,GLUE进一步引入对抗学习以消除不同组学降维表示之间的系统性差异(图1)。

图1 GLUE模型的结构示意图

图1 GLUE模型的结构示意图

  与其它方法相比,GLUE的主要优势包括:

  多组学整合的精度高:多个单细胞转录组与染色质开放组数据的整合评测显示,GLUE无论是在细胞类型层面和单细胞层面,相比已有单细胞多组学整合算法具有更高的整合精度(图2a–c);

  对于先验调控知识具有鲁棒性:GLUE引导图中使用的先验调控关系无需特别精确,以单细胞转录组与染色质开放组数据整合为例,只要将染色质开放区段与临近基因相连就可以构建有效的引导图,噪声实验表明即便对上述引导图添加大量随机扰动,GLUE仍能得到正确的整合结果(图2d);

图2 GLUE的多组学整合性能评测结果

图2 GLUE的多组学整合性能评测结果

  具有较高的计算可扩展性(scalability):GLUE的计算复杂度与细胞数之间呈亚线性(sublinear)关联,是同类方法中唯一可以精准分析上百万单细胞的方法(图3);

图3 GLUE首次实现了图谱级超大规模单细胞多组学数据的准确整合

  图3 GLUE首次实现了图谱级超大规模单细胞多组学数据的准确整合。与同类工具相比,GLUE在细胞分辨率与叠合精度方面均具有显著的优势

  可支持任意数量、调控方向的组学数据:通过引入组学特异的变分自编码器(Variational AutoEncoder, VAE)组件堆叠,GLUE支持对多组学非配对(unpaired)数据的无监督整合。作者成功用其整合了小鼠大脑上皮的单细胞转录组、染色质开放组和DNA甲基化组,并显示了三组学整合可以有效地改善细胞的类型注释。与此同时,GLUE在设计上引入了模块化思想,可容易地进一步扩充以支持如单细胞Ribo-seq、空间转录组等更多组学类型数据整合;

  可同时进行调控推断:除了细胞层面的跨组学匹配,由于GLUE在先验调控图中直接对调控关系进行了建模,还可综合先验调控信息与多组学数据统计相关性,实现可靠的转录调控推断,作者以外周血数据集为例,应用GLUE整合了pcHi-C物理相互作用、eQTL突变表型关联、以及单细胞转录组与染色质开放组资料,并证明GLUE可有效整合多种调控证据以得到精准的调控关联(图4)。值得指出的是,GLUE引导图所需的先验调控关系无需特别精确(以单细胞转录组与染色质开放组数据整合为例,只要将染色质开放区段与临近基因相连就可以构建有效的引导图),系统的评测显示GLUE多组学整合与调控推断均具有较强的鲁棒性。

图4 GLUE可综合先验调控知识与单细胞多组学观测进行可靠的调控推断

  图4 GLUE可综合先验调控知识与单细胞多组学观测进行可靠的调控推断

  GLUE全部实现代码已经开源发布(https://github.com/gao-lab/GLUE),可通过PyPI和Anaconda平台直接安装使用。

  博士生曹智杰为该论文第一作者,高歌为该论文通讯作者。该研究得到了国家重点研发计划、蛋白质与植物基因研究国家重点实验室、北京未来基因诊断高精尖创新中心和昌平实验室的资助。计算分析工作于北京大学高性能计算校级公共平台和北京大学太平洋高性能计算平台完成。


文章推荐
细胞霉菌污染处理方法有哪些,细胞霉菌污染的危害和预防措施
2023-08-19
细胞霉菌污染是指细胞培养过程中,细胞培养物被霉菌污染导致细胞生长···
动物实验:动物造模实验前期需要准备哪些?
2021-08-25
一、动物造模 实验前的准备工作要充分,在做实验前应该实验室的卫生问···
TUNEL法检测细胞凋亡实验原理和经验总结
2022-09-09
本期,将为大家讲解TUNEL法检测细胞凋亡实验原理和经验总结 。一、TU···
西安全市总动员为封闭管理小区提供物资保障
2021-12-29
据西安市委宣传部消息,28日晚,西安全市总动员,组织准备蔬菜等生活···
重大突破,IF12.1分!中科院亚热带所李凤娜团队在小鼠粪便中发现了预防结肠炎的有效物质!
2024-12-06
众所周知,我国肠炎发病率较高,通常是由感染、药物反应、食物不耐受···
组学都有哪些?这14种快速了解下!
2024-12-04
在生物医学领域中,有多个分支的组学,下面让我们一起来快速了解下以···
中科院1区IF10.6分!“外泌体+水凝胶”的国自然王炸组合,揭秘骨再生机制!不愧是顶刊思路,赶紧学习一波!
2024-12-02
众所周知,骨是人体重要的器官,承载着支撑运动,保护脏器等功能。在···
“铁积累+纤维化+细胞衰老”的王炸组合,不愧是Nature子刊的研究思路!轻松拿下中科院1区IF18.9分!
2024-11-29
“铁代谢”和“衰老”可以说是两个永不过时的研究热点,当然也是近几···
  • 业务咨询

    业务咨询专线:133 7682 0615

    Email:lxyjy@wie-biotech.com

在线留言(即刻联系为您提供专业的解决方案) ×
留言咨询

感谢您的关注,如有需要请留言,我们会尽快和您联系!