资讯中心

资讯中心

资讯中心

科研动态 | 孙坤课题组发表肿瘤活检纯度评估的新方法

2020.07.17

近日,深圳湾实验室孙坤课题组与合作者在《计算与机构生物技术》杂志(Computational and Structural Biotechnology Journal)(影响因子:6.018)发表了题目为“Rapid preliminary purity evaluation of tumor biopsies using deep learning approach”的研究论文。孙坤课题组发现,其课题组先前开发的GeneCT软件可以用来对肿瘤活检组织的纯度进行评估,为肿瘤基础研究提供了一种快速、简便的质控方法,并可以在临床上为转移瘤等复杂情况提供准确的肿瘤组织来源预测。

图片1.png

肿瘤活检与GeneCT软件

肿瘤活检是癌症诊断和科学研究中应用最广泛的研究方法之一,其中活检纯度(即癌变细胞的比例)在这两种应用场景中都至关重要。生理上,肿瘤组织与相邻非癌变组织、浸润血细胞之间经常发生交叉污染,从而使得一些肿瘤活检样本的纯度不高,导致不正确的临床诊断和分子实验结果。传统的肿瘤活检纯度评估方法基于病理学方法,非常依赖操作人员的相关经验、较为耗时且结论具有一定的主观性。此外,转移瘤病例也较为常见;对于取自转移灶的活检样本,其组织来源的准确判断和纯度评估一直是一个相当大的挑战。因此,准确预测肿瘤活检的组织来源和纯度的方法具有重要的临床应用价值。

目前,结合分子生物学和生物信息学的方法在肿瘤活检相关的研究中展示出了很大的潜力。本文研究者在此前的研究中,结合细胞转录组的数据开发了一个基于深度学习的分类器——GeneCT ( Generalizable Cancerous-status and Tissue-of-origin classifier),用于判断活检组织是否癌变以及组织来源。GeneCT在大量的肿瘤活检样本得到验证,具有非常高的准确率(98%以上)。更重要的是,GeneCT利用常见的癌基因和抑癌基因的表达图谱来判断活检组织是否癌变,同时利用转录因子的表达图谱来预测活检的组织来源,而不像常用的方法那样依赖于癌症/组织类型特异的生物标记物。这种特性赋予了GeneCT强大的通用性,使得GeneCT可以应用在多种类型的肿瘤活检样本上。

GeneCT与肿瘤活检纯度

GeneCT的分类模型以及验证都是基于TCGA数据集中多种癌症类型的转录组数据,而实际应用中,不同医院和研究组对肿瘤样本的收集和处理方法并不统一,而且可能和TCGA使用的方法不同,因此,GeneCT能否正确处理各种实验室、临床中的样本数据对于其应用价值至关重要。首先,研究者从文献中收集了多个来自不同研究组、不同癌症类型的肿瘤转录组数据集,用来测试GeneCT的准确性。研究人员发现,GeneCT在大多数的数据集上都表现出很高的准确性,表明其确实具有很强的通用性(甚至可用于该模型之前没有处理过的、“未知”类型的肿瘤);对于GeneCT表现较差的数据集和样本,研究人员进行了进一步的分析,以寻求GeneCT给出错误结果的原因。研究人员使用了多种分析方法,发现对于GeneCT给出错误结果的样本,有证据表明它们的纯度不够理想。研究人员在大肠癌并伴有肝转移的患者样本中也得到类似的结论。为进一步验证这些发现,研究人员使用了来自高纯度的肿瘤样本和非癌变样本的数据进行计算机模拟实验,发现GeneCT给出的结果确实可以反映出肿瘤活检的纯度。这些研究揭示出对于肿瘤活检样本,如果GeneCT分析给出了“非癌变”分类或者其预测的组织来源与取样组织不符合,则暗示样本的纯度可能不够高;因此,GeneCT可以用于活检样本纯度的评估。

由于GeneCT仅仅依赖于细胞转录组的数据并且可用于多种癌症类型的样本,而很多肿瘤相关的研究中都会进行转录组实验,因此GeneCT可以为这些研究提供一种快速、无额外成本的样本质控,以过滤掉低纯度的样本,提高实验结果的准确性。同时,细胞转录组实验已经十分成熟,复杂度较低,成本也不高,因此在转移瘤的样本中,可以使用GeneCT来准确预测肿瘤的组织来源,为临床的难点提供一种有效的解决方案。

当前,获取细胞转录组的技术已经十分成熟,而且耗时低、成本低,被广泛应用于癌症样本的诊断和科学研究中。由于GeneCT仅仅依赖于细胞转录组的数据并且可以处理多种癌症类型的样本,因此为肿瘤活检和癌症研究提供快速、零(低)成本的样本质控,以过滤低纯度的样本,提高诊断和研究结果的准确性,同时可以为临床诊断中的难点(转移瘤样本)提供一种有效的解决方案。

图片2.png

孙坤课题组简介

孙坤博士2014年在香港中文大学获得博士学位,并于2019年全职加入深圳湾实验室,任特聘研究员。孙坤博士长期从事生物信息学和基于外周血游离DNA的液态活检(无创产前测试和癌症诊断)方向的研究,拥有近10年的生物医学大数据分析经验,发表SCI文章40余篇,其中(共同)第一作者或通讯作者20余篇(包括Cancer Discovery、PNAS、Genome Research、EMBO Journal、Nature Communications、Bioinformatics等),总被引用2000余次。孙坤博士的工作注重原创性和转化价值,曾参与申请多项国际专利,其中一些已经转让给GRAIL、Illumina等多家液态活检领域内的知名公司。

孙坤博士课题组主要研究方向包括但不仅限于:(1) 生物信息学软件开发;(2) 大型数据集信息挖掘;(3) 高准确度、低成本的癌症生物标记物筛选;(4) 单细胞技术在分子诊断方向的应用探索。

健康大数据时代,生物信息学在生物医学的很多领域都扮演着重要的角色,孙坤博士课题组诚挚邀请对这些方向有兴趣的科研人才的加入!

文链接:https://www.sciencedirect.com/science/article/pii/S2001037020302968

GeneCT论文链接:https://academic.oup.com/bioinformatics/article/34/23/4129/5045913

GeneCT下载地址:https://sunlab.cpy.cuhk.edu.hk/GeneCT/

撰稿 | 昆 仑

编辑 | 鲍 啦