肝细胞癌预后评估以及分子分型的方法、标志物及其应用与流程

未命名 07-15 阅读:98 评论:0


1.本技术涉及癌症诊断技术领域,尤其是涉及肝细胞癌预后评估以及分子分型的方法、标志物及其应用。


背景技术:

2.肝癌是最常见的癌症类型之一。临床上肝癌有多种类型,其中肝细胞癌(hepatocellular carcinoma,hcc)是最常见的类型,约占原发性肝脏恶性肿瘤的90%。肝癌的恶性程度对于治疗方案的选择和患者预后的评估至关重要。目前临床上使用肝癌分期作为肝癌恶性程度的主要评估手段。这些分期方法对于肝癌患者的治疗方案设计和预后评估有一定的指导价值,原理相似,但均未参考任何肿瘤分子层面的信息,这使得分期结果偏向于定性而非定量,对精准医疗的指导能力有限、对患者预后的评估也不够精细。
3.另一方面,目前国内外对于肿瘤分子分型的临床价值已经达成共识。肿瘤分型可以直接指导治疗方案的选择(如靶向用药),在癌症治疗方面有很高的临床转化价值。对于多种癌症,如乳腺癌、肺癌的分子分型方法已经在临床中取得了非常好的应用。但是对于肝细胞癌分子分型方法的研究依然较少,多以复杂和昂贵的蛋白质组图谱和多组学分析技术为主,缺乏简便、易用、适合临床推广的肝细胞癌分子分型方法。


技术实现要素:

4.本技术旨在至少解决现有技术中存在的技术问题之一。为此,本技术提出肝细胞癌预后评估以及分子分型的方法、标志物及其应用,基于该肝细胞癌预后评估方法能够有效定量评估患者预后,而该肝细胞癌分子分型的方法也简便、易用、适合临床推广。
5.本技术的第一方面,提供检测标志物的试剂在制备肝细胞癌预后的产品中的应用,标志物包含组a~d的整体中的至少一种:
6.组a:gage2a、gage1、u95743、flj36000、brsk1、ac093730、linc01968、rhoxf2b、z98200、rhpn1、linc01559、linc02008、pfkfb4、ac114489、lastr、linc02003、dhdh、ac145343、linc00160、lpcat1;
7.组b:ccdc38、hmgcs2、cfhr3、amdhd1、cd69、folh1、pde2a、bend4、cd302、dnase1l3、ccl23、mmut、tcf21、tmem220、slc38a4、tgfbr3、myom2、ppargc1a、aspa、slc2a2;
8.组c:ac090360、rfx8、ccdc180、prok1、trim73、ppp4r1、actl6b、nkpd1、qrfpr、ac005091;
9.组d:al360014、cd81、chst4、ac007221、gpr180、linc02512、wnt2、linc01505、rab20、slco4c1。
10.根据本技术实施例的应用,至少具有如下有益效果:
11.在本技术中,通过分析来自肝细胞癌症患者的肿瘤样本、对照样本的相关数据,鉴定出肿瘤样本中差异表达的基因;结合患者的预后信息,鉴定出其中与患者预后相关的基因;进一步选取其中与患者预后相关性最高的基因(基于统计分析中的p值),以此建立反映
肝细胞恶性程度的模型,利用这一模型中的相关基因检测结果代入模型可以实现对患者肝细胞癌预后情况的有效预估。
12.此外,在该模型中,结合疑似原癌基因、疑似上调保护基因、疑似肿瘤抑制基因、疑似下调保护基因的四种基因分组,以高表达组相对低表达组的风险比(hazard ratio,hr)为权重系数进行模型构建,使得评估效果更为有效。
13.在本技术的一些实施方式中,标志物包含组a~d的整体(全部60种)中的任选1种、任选2种、任选3种、任选4种、任选5种、任选6种、任选7种、任选8种、任选9种、任选10种、任选11种、任选12种、任选13种、任选14种、任选15种、任选16种、任选17种、任选18种、任选19种、任选20种、任选21种、任选22种、任选23种、任选24种、任选25种、任选26种、任选27种、任选28种、任选29种、任选30种、任选31种、任选32种、任选33种、任选34种、任选35种、任选36种、任选37种、任选38种、任选39种、任选40种、任选41种、任选42种、任选43种、任选44种、任选45种、任选46种、任选47种、任选48种、任选49种、任选50种、任选51种、任选52种、任选53种、任选54种、任选55种、任选56种、任选57种、任选58种、任选59种、全部60种。
14.在本技术的一些实施方式中,标志物包含组a~d的整体中每组独立任选1种到10种;或,标志物包含组a~b中每组独立任选11到20种以及组c~d中每组独立任选1种到10种。换言之,标志物包含组a中任选1至20种、组b中任选1至20种、组c中任选1至10种以及组d中任选1至10种的组合。
15.在本技术的一些实施方式中,标志物包含组a中任选1种、任选2种、任选3种、任选4种、任选5种、任选6种、任选7种、任选8种、任选9种、任选10种、任选11种、任选12种、任选13种、任选14种、任选15种、任选16种、任选17种、任选18种、任选19种、全部20种,和组b中任选1种、任选2种、任选3种、任选4种、任选5种、任选6种、任选7种、任选8种、任选9种、任选10种、任选11种、任选12种、任选13种、任选14种、任选15种、任选16种、任选17种、任选18种、任选19种、全部20种,和组c中任选1种、任选2种、任选3种、任选4种、任选5种、任选6种、任选7种、任选8种、任选9种、全部10种,和组d中任选1种、任选2种、任选3种、任选4种、任选5种、任选6种、任选7种、任选8种、任选9种、全部10种的组合。
16.在本技术的一些实施方式中,标志物包含组a~d中均任选1种、任选2种、任选3种、任选4种、任选5种、任选6种、任选7种、任选8种、任选9种、任选10种。
17.在本技术的一些实施方式中,标志物包含组a~b中均任选11种、任选12种、任选13种、任选14种、任选15种、任选16种、任选17种、任选18种、任选19种、全部20种,组c~d中均任选1种、任选2种、任选3种、任选4种、任选5种、任选6种、任选7种、任选8种、任选9种、全部10种。
18.在本技术的一些实施方式中,任选x种为按组a~d中标志物的先后顺序选x种,x为1~20。
19.在本技术的一些实施方式中,标志物包含组a~d的整体中全部60种。
20.在本技术的一些实施方式中,试剂检测标志物中基因的rna水平。
21.在本技术的一些实施方式中,试剂包括rna测序试剂。
22.在本技术的一些实施方式中,rna测序试剂包括rna建库试剂。
23.本技术的第二方面,提供评估肝细胞癌患者预后的方法,该方法包括以下步骤:
24.获取肝细胞癌患者的标志物的水平;
25.将水平与阈值比较;
26.根据比较结果,评估肝细胞癌患者是否预后不良。
27.其中,所述标志物包含组a~d的整体中的至少一种:
28.组a:gage2a、gage1、u95743、flj36000、brsk1、ac093730、linc01968、rhoxf2b、z98200、rhpn1、linc01559、linc02008、pfkfb4、ac114489、lastr、linc02003、dhdh、ac145343、linc00160、lpcat1;
29.组b:ccdc38、hmgcs2、cfhr3、amdhd1、cd69、folh1、pde2a、bend4、cd302、dnase1l3、ccl23、mmut、tcf21、tmem220、slc38a4、tgfbr3、myom2、ppargc1a、aspa、slc2a2;
30.组c:ac090360、rfx8、ccdc180、prok1、trim73、ppp4r1、actl6b、nkpd1、qrfpr、ac005091;
31.组d:al360014、cd81、chst4、ac007221、gpr180、linc02512、wnt2、linc01505、rab20、slco4c1。
32.在本技术的一些实施方式中,标志物包含组a~d的整体(全部60种)中的任选1种、任选2种、任选3种、任选4种、任选5种、任选6种、任选7种、任选8种、任选9种、任选10种、任选11种、任选12种、任选13种、任选14种、任选15种、任选16种、任选17种、任选18种、任选19种、任选20种、任选21种、任选22种、任选23种、任选24种、任选25种、任选26种、任选27种、任选28种、任选29种、任选30种、任选31种、任选32种、任选33种、任选34种、任选35种、任选36种、任选37种、任选38种、任选39种、任选40种、任选41种、任选42种、任选43种、任选44种、任选45种、任选46种、任选47种、任选48种、任选49种、任选50种、任选51种、任选52种、任选53种、任选54种、任选55种、任选56种、任选57种、任选58种、任选59种、全部60种。
33.在本技术的一些实施方式中,标志物包含组a~d的整体中每组独立任选1种到10种;或,标志物包含组a~b中每组独立任选11到20种以及组c~d中每组独立任选1种到10种。换言之,标志物包含组a中任选1至20种、组b中任选1至20种、组c中任选1至10种以及组d中任选1至10种的组合。
34.在本技术的一些实施方式中,标志物包含组a中任选1种、任选2种、任选3种、任选4种、任选5种、任选6种、任选7种、任选8种、任选9种、任选10种、任选11种、任选12种、任选13种、任选14种、任选15种、任选16种、任选17种、任选18种、任选19种、全部20种,和组b中任选1种、任选2种、任选3种、任选4种、任选5种、任选6种、任选7种、任选8种、任选9种、任选10种、任选11种、任选12种、任选13种、任选14种、任选15种、任选16种、任选17种、任选18种、任选19种、全部20种,和组c中任选1种、任选2种、任选3种、任选4种、任选5种、任选6种、任选7种、任选8种、任选9种、全部10种,和组d中任选1种、任选2种、任选3种、任选4种、任选5种、任选6种、任选7种、任选8种、任选9种、全部10种的组合。
35.在本技术的一些实施方式中,标志物包含组a~d中均任选1种、任选2种、任选3种、任选4种、任选5种、任选6种、任选7种、任选8种、任选9种、任选10种。
36.在本技术的一些实施方式中,标志物包含组a~b中均任选11种、任选12种、任选13种、任选14种、任选15种、任选16种、任选17种、任选18种、任选19种、全部20种,以及组c~d中均任选1种、任选2种、任选3种、任选4种、任选5种、任选6种、任选7种、任选8种、任选9种、全部10种。
37.在本技术的一些实施方式中,任选x种为按组a~d中基因的先后顺序选x种,x为1、
2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20。
38.在本技术的一些实施方式中,标志物包含组a~d的整体中全部60种。
39.在本技术的一些实施方式中,标志物的水平可以是标志物的各个基因的绝对表达水平或相对表达水平,或者也可以是对各个基因的绝对表达水平或相对表达水平赋予权重得到的加和,不同基因的权重可以相同或不同。
40.在本技术的一些实施方式中,标志物的阈值可以采用本领域熟知的任一种方式确定,基于标志物的阈值可以将若干个具有不同标志物水平的样本区分为预后不同的若干组样本,例如可以采用受试者工作特征曲线(roc曲线)等方式确定或自行确定阈值大小。
41.在本技术的一些实施方式中,将标志物的水平与阈值比较包括:
42.根据标志物的水平通过以下公式计算sahr值:
43.其中,n为标志物中基因的数量,根据实际使用的标志物中基因的数量,在1~60的整数范围内;
44.δi为第i个基因的相对表达水平,当第i个基因为组a或组d中的基因,表达水平高于第i个基因的阈值时δi为1,表达水平不高于第i个基因的阈值时δi为-1;当第i个基因为组b或组c中的基因,表达水平高于第i个基因的阈值时δi为-1,表达水平不高于第i个基因的阈值时δi为1;
45.hri为第i个基因的权重。
46.在本技术的一些实施方式中,基因的阈值为可以将同一基因不同表达水平的样本区分其表达水平大小的值。在一些实施方式中,可以取若干个具有不同表达水平的样本中基因表达水平的特征参数,例如平均数、中位数、倍数平均数或中位数(例如1.1倍、1.2倍、1.3倍、1.4倍、1.5倍、1.6倍、1.7倍、1.8倍、1.9倍、2倍等)或其它特征参数等。
47.在本技术的一些实施方式中,hri为风险比权重,不同基因的风险比权重对应以下:
[0048][0049]
在本技术的一些实施方式中,不同基因的阈值对应以下:
[0050]
[0051][0052]
在本技术的一些实施方式中,基因的表达水平为基因的rna水平。
[0053]
在本技术的一些实施方式中,基因的表达水平可以是根据样本检测到的基因表达水平的原始值,例如通过rna-seq、微阵列等技术得到的标志物的基因表达水平;也可以是将表达水平的原始值经过任选一种或多种数学处理、变换等方式得到的处理值,例如通过任选的归一化和/或标准化方法得到的处理值。
[0054]
在本技术的一些实施方式中,肝细胞癌患者为tnmⅰ期或ⅱ期患者。tnmⅰ期(stageⅰ)包括ⅰa(通常为t1a/n0/m0)、ⅰb(通常为t1b/n0/m0),tnmⅱ期(stageⅱ)包括ⅱ(通常为t2/n0/m0)。
[0055]
在本技术的一些实施方式中,肝细胞癌患者为tnmⅲ期或ⅳ期患者。tnmⅲ期(stageⅲ)包括ⅲa(通常为t3/n0/m0)、ⅲb(通常为t4/n0/m0),tnmⅳ期(stageⅳ)包括ⅳa(通常为任意t/n1/m0)、ⅳb(通常为任意t/任意n/m1)。
[0056]
在本技术的一些实施方式中,将标志物的水平与阈值比较包括:根据标志物的水平通过公式计算sahr值,将sahr值与标志物的阈值比较:
[0057][0058]
在本技术的一些实施方式中,标志物的阈值为0,sahr值大于0时,判断患者预后不良;sahr值不大于0时,判断患者预后良好。
[0059]
本技术的第三方面,提供肝细胞癌样本分子分型的方法,包括以下步骤:
[0060]
获取若干个肝细胞癌样本的转录组数据;
[0061]
选取转录组数据中表达量的离散程度高于设定值的基因;
[0062]
基于基因的表达量对样本的转录组数据进行降维和聚类,获取肝细胞癌样本的分子分型的亚型。
[0063]
本技术的实施例开发了一种肝细胞癌分子分型方法,该方法仅需转录组测序数据即可进行肝癌的分子分型。转录组测序技术成熟,成本低廉,易于临床推广。同时,通过分析不同肝细胞癌亚型中特异性高/低表达的基因/信号通路,可以为对应亚型的癌变机理和精准治疗提供指导作用。
[0064]
在本技术的一些实施方式中,若干个肝细胞癌的转录组数据可以是1~100、1~
200、1~500、1~1000、1~2000、1~5000、1~10000、1~20000、1~50000、1~100000例肝细胞癌样本的转录组数据。在一些实施方式中,若干个肝细胞癌的转录组数据是10例以上、20例以上、50例以上、100例以上的肝细胞癌样本的转录组数据。
[0065]
在本技术的一些实施方式中,转录组数据包括mrna的表达量数据、lncrna的表达量数据、mirna的表达量数据等其中至少一种。
[0066]
在本技术的一些实施方式中,还包括获取若干个肝细胞癌样本的临床数据。
[0067]
在本技术的一些实施方式中,基因的表达量的离散程度是指基因表达量在不同的肝细胞癌样本之间的差异的集中程度(或称其在不同样本之间的变异情况)。显然,对于不同进展程度的肝细胞癌,其原发灶、淋巴结以及远端转移等方面的不同都会导致部分基因的表达出现异常且各不相同,因而从这些在不同样本之间变异程度大的基因可以更有效地进行分型。
[0068]
在本技术的一些实施方式中,离散程度高于设定值是指基因的表达量在不同的肝细胞癌样本之间存在较大变化,例如可以通过极差、四分位差、平均差、方差、标准差等参数与平均值的比例确定一个无量纲的反映表达量的离散程度的系数,将系数与一个设定值比较,大于设定值即为表达量的离散程度高于设定值,认定为该基因在不同样本间变异情况/离散程度较大,反之则为不高于设定值,表明其变异情况/离散程度较低。
[0069]
在本技术的一些实施方式中,设定值可以预先划定,或者根据需要选取的基因的数量将反映表达量的离散程度的参数按照从大到小顺序排列后,确定落入数量的设定值进而选取这些基因。
[0070]
在本技术的一些实施方式中,选取转录组数据中表达量的离散程度高于设定值的基因可以是选取离散程度最高的500~10000个基因,例如可以是500、1000、1500、2000、2500、3000、3500、4000、4500、5000、6000、7000、8000、9000、10000个基因
[0071]
在本技术的一些实施方式中,转录组数据中基因的表达量可以是根据样本检测到的基因表达量的原始值,例如通过rna-seq、微阵列等技术得到的标志物的基因的表达量;也可以是将表达量的原始值经过任选一种或多种数学处理、变换等方式得到的处理值,例如通过任选的归一化和/或标准化方法得到的处理值。其中,归一化的方法可以是lognormalize、clr(中心对数比转换)、rc(相对计数)等其中至少一种。
[0072]
在本技术的一些实施方式中,降维可以选择本领域常用的pca、lda、mds、isomap、sne、t-sne、autoencoder、umap等其中至少一种。在其中一些实施方式中,可以是pca+umap、pca+t-sne中的任一种。
[0073]
在本技术的一些实施方式中,pca降维后选取其中20~100个主成分,30~50个主成分,进行umap或tsne的数据降维,例如可以选择20、30、40、50、60、70、80、90、100个主成分。
[0074]
在本技术的一些实施方式中,聚类的方式可以是任选的无监督聚类方式,例如一致性聚类(consensus clustering)和非负矩阵分解(non-negative matrix factorization,nmf)中的至少一种。在其中一些实施方式中,一致性聚类包括k均值(k-means,km)、分层聚类(hierarchical clustering,hc)、围绕中心点的划分算法(partitioning around medoid,pam)聚类等其中至少一种。
[0075]
在本技术的一些实施方式中,还包括选取不同亚型之间的差异表达水平基因构建
分子分型模型。
[0076]
在本技术的一些实施方式中,选取不同亚型之间的差异表达水平基因包括选取不同亚型之间表达水平的差异的显著性最强的x个基因,x可以是1~100,5~100,10~100。在其中一些实施方式中,显著性最强的x个基因为检验不同亚型之间基因的表达水平的差异显著性的p值最小的x个基因。
[0077]
在本技术的一些实施方式中,根据x个基因构建分子分型模型是指构建关于x个基因的多元一次方程模型。该模型对x个基因的绝对表达水平或相对表达水平分别赋予权重并加和,不同基因的权重可以相同或不同。
[0078]
本技术的第四方面,提供一种肝细胞癌患者的分子分型的方法,包括以下步骤:
[0079]
获取肝细胞癌患者的标志物的水平;
[0080]
将水平与阈值比较;
[0081]
根据比较结果,判断肝细胞癌患者的分子分型;
[0082]
其中,标志物选自dcxr、dcxr-dt、page4、ac011317.1、ac133552.5、itpr3、itih5、sema3c、lama1、cadps中的至少一种。
[0083]
在本技术的一些实施方式中,标志物选自其中的任选1种、任选2种、任选3种、任选4种、任选5种、任选6种、任选7种、任选8种、任选9种、全部10种。在本技术的一些实施方式中,肝细胞癌患者的标志物的水平可以是标志物的各个基因的绝对表达水平或相对表达水平,或者也可以是对各个基因的绝对表达水平或相对表达水平赋予权重得到的加和,不同基因的权重可以相同或不同。
[0084]
在本技术的一些实施方式中,阈值可以采用本领域熟知的任一种方式确定,基于阈值可以将若干个具有不同标志物水平的样本区分为不同分子亚型的样本,从而将标志物的水平与阈值比较,确定样本的分子分型结果。其中,阈值可以采用受试者工作特征曲线(roc曲线)等方式确定或自行确定大小。在其中一些实施方式中,阈值可以有一个或多个,从而可以得到两种或更多种的分子分型结果。
[0085]
本技术的第五方面,提供检测标志物的试剂在制备肝细胞癌分子分型产品中的应用,标志物选自dcxr、dcxr-dt、page4、ac011317.1、ac133552.5、itpr3、itih5、sema3c、lama1、cadps中的至少一种。
[0086]
在本技术的一些实施方式中,标志物选自dcxr、dcxr-dt、page4、ac011317.1、ac133552.5、itpr3、itih5、sema3c、lama1、cadps中的至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种、全部十种。
[0087]
在本技术的一些实施方式中,标志物选自集合a的dcxr、dcxr-dt、page4、ac011317.1、ac133552.5中的至少一种,和/或,标志物选自集合b的itpr3、itih、sema3c、lama1、cadps中的至少一种。
[0088]
在本技术的一些实施方式中,当集合a中的标志物中的至少一种存在下调,和/或,集合b中的至少一种存在上调,认定肝细胞癌患者为c0型;当集合a中的标志物中的至少一种存在上调,和/或,集合b中的至少一种存在下调,认定肝细胞癌患者为c1或c2型。
[0089]
本技术的第五方面,提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,计算机可执行指令用于使计算机执行前述任一项的方法。
[0090]
本技术的第六方面,提供设备,该设备包括处理器和存储器,存储器上存储有可在
处理器上运行的计算机程序,处理器在运行计算机程序时实现前述的方法。
[0091]
其中,存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序,如本技术的上述实施方式中描述的评估肝细胞癌患者预后或者对肝细胞癌患者进行分型分析的过程。处理器通过运行存储在存储器中的非暂态软件程序以及指令,从而实现肝细胞癌的预后评估或分子分型。
[0092]
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储执行上述计算机程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,比如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。
[0093]
在本技术的一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0094]
实现上述评估所需的非暂态软件程序以及指令存储在存储器中,当被一个或者多个处理器执行时,执行上述方法。
[0095]
以上所描述的装置实施仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0096]
可以理解的是,上文中所公开的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。可以理解的是,计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。
[0097]
此外,可以理解的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
[0098]
本技术的第七方面,提供评估系统,该系统包括:
[0099]
获取模块,获取模块用于获取肝细胞癌患者的标志物的水平;
[0100]
评估模块,评估模块用于将水平与阈值比较,并根据比较结果评估肝细胞癌患者是否预后不良;
[0101]
其中,标志物包含组a~d的整体中的至少一种:
[0102]
组a:gage2a、gage1、u95743、flj36000、brsk1、ac093730、linc01968、rhoxf2b、z98200、rhpn1、linc01559、linc02008、pfkfb4、ac114489、lastr、linc02003、dhdh、ac145343、linc00160、lpcat1;
[0103]
组b:ccdc38、hmgcs2、cfhr3、amdhd1、cd69、folh1、pde2a、bend4、cd302、dnase1l3、
ccl23、mmut、tcf21、tmem220、slc38a4、tgfbr3、myom2、ppargc1a、aspa、slc2a2;
[0104]
组c:ac090360、rfx8、ccdc180、prok1、trim73、ppp4r1、actl6b、nkpd1、qrfpr、ac005091;
[0105]
组d:al360014、cd81、chst4、ac007221、gpr180、linc02512、wnt2、linc01505、rab20、slco4c1;
[0106]
和/或,评估模块用于将水平与阈值比较,并根据比较结果评估肝细胞癌患者的分子分型;
[0107]
其中,标志物选自dcxr、dcxr-dt、page4、ac011317.1、ac133552.5、itpr3、itih5、sema3c、lama1、cadps中的至少一种。
[0108]
在本技术的一些实施方式中,用于评估预后不良的标志物包含组a~d的整体(全部60种)中的任选1种、任选2种、任选3种、任选4种、任选5种、任选6种、任选7种、任选8种、任选9种、任选10种、任选11种、任选12种、任选13种、任选14种、任选15种、任选16种、任选17种、任选18种、任选19种、任选20种、任选21种、任选22种、任选23种、任选24种、任选25种、任选26种、任选27种、任选28种、任选29种、任选30种、任选31种、任选32种、任选33种、任选34种、任选35种、任选36种、任选37种、任选38种、任选39种、任选40种、任选41种、任选42种、任选43种、任选44种、任选45种、任选46种、任选47种、任选48种、任选49种、任选50种、任选51种、任选52种、任选53种、任选54种、任选55种、任选56种、任选57种、任选58种、任选59种、全部60种。
[0109]
在本技术的一些实施方式中,用于评估预后不良的标志物包含组a~d的整体中每组独立任选1种到10种;或,标志物包含组a~b中每组独立任选11到20种以及组c~d中每组独立任选1种到10种。换言之,标志物包含组a中任选1至20种、组b中任选1至20种、组c中任选1至10种以及组d中任选1至10种的组合。
[0110]
在本技术的一些实施方式中,用于评估预后不良的标志物包含组a中任选1种、任选2种、任选3种、任选4种、任选5种、任选6种、任选7种、任选8种、任选9种、任选10种、任选11种、任选12种、任选13种、任选14种、任选15种、任选16种、任选17种、任选18种、任选19种、全部20种,和组b中任选1种、任选2种、任选3种、任选4种、任选5种、任选6种、任选7种、任选8种、任选9种、任选10种、任选11种、任选12种、任选13种、任选14种、任选15种、任选16种、任选17种、任选18种、任选19种、全部20种,和组c中任选1种、任选2种、任选3种、任选4种、任选5种、任选6种、任选7种、任选8种、任选9种、全部10种,和组d中任选1种、任选2种、任选3种、任选4种、任选5种、任选6种、任选7种、任选8种、任选9种、全部10种的组合。
[0111]
在本技术的一些实施方式中,用于评估预后不良的标志物包含组a~d中均任选1种、任选2种、任选3种、任选4种、任选5种、任选6种、任选7种、任选8种、任选9种、任选10种。
[0112]
在本技术的一些实施方式中,用于评估预后不良的标志物包含组a~b中均任选11种、任选12种、任选13种、任选14种、任选15种、任选16种、任选17种、任选18种、任选19种、全部20种,组c~d中均任选1种、任选2种、任选3种、任选4种、任选5种、任选6种、任选7种、任选8种、任选9种、全部10种。
[0113]
在本技术的一些实施方式中,任选x种为按组a~d中基因的先后顺序选x种,x为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20。
[0114]
在本技术的一些实施方式中,用于评估预后不良的标志物包含组a~d的整体中全
部60种。
[0115]
在本技术的一些实施方式中,用于评估分子分型的标志物选自dcxr、dcxr-dt、page4、ac011317.1、ac133552.5、itpr3、itih5、sema3c、lama1、cadps中的至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种、全部十种。
[0116]
在本技术的一些实施方式中,用于评估分子分型的标志物选自集合a的dcxr、dcxr-dt、page4、ac011317.1、ac133552.5中的至少一种,和/或,用于评估分子分型的标志物选自集合b的itpr3、itih、sema3c、lama1、cadps中的至少一种。
[0117]
在本技术的一些实施方式中,当集合a中的标志物中的至少一种存在下调,和/或,集合b中的至少一种存在上调,认定肝细胞癌患者为c0型;当集合a中的标志物中的至少一种存在上调,和/或,集合b中的至少一种存在下调,认定肝细胞癌患者为c1或c2型。
[0118]
在本技术的一些实施方式中,标志物的水平可以是根据样本检测到的标志物的基因表达水平的原始值,例如通过rna-seq、微阵列等技术得到的标志物的基因表达水平;也可以是将表达水平的原始值经过任选一种或多种数学处理、变换等方式得到的处理值,例如通过任选的归一化和/或标准化方法得到的处理值。
[0119]
在本技术的一些实施方式中,标志物的阈值可以采用本领域熟知的任一种方式确定,基于标志物的阈值可以将若干个具有不同标志物水平的样本区分为预后不同的若干组样本,例如可以采用受试者工作特征曲线(roc曲线)等方式确定或自行确定阈值大小。
[0120]
在本技术的一些实施方式中,用于评估预后不良的评估模块中,将标志物的水平与阈值比较包括:
[0121]
根据标志物的水平通过以下公式计算sahr值:
[0122]
其中,n为标志物中基因的数量,根据实际使用的标志物中基因的数量,在1~60的整数范围内;
[0123]
δi为第i个基因的相对表达水平,当第i个基因为组a或组d中的基因,表达水平高于第i个基因的阈值时δi为1,表达水平不高于第i个基因的阈值时δi为-1;当第i个基因为组b或组c中的基因,表达水平高于第i个基因的阈值时δi为-1,表达水平不高于第i个基因的阈值时δi为1;
[0124]
hri为第i个基因的权重。
[0125]
在本技术的一些实施方式中,基因的阈值为可以将同一基因不同表达水平的样本区分其表达水平大小的值。在一些实施方式中,可以取若干个具有不同表达水平的样本中基因表达水平的特征参数,例如平均数、中位数、倍数平均数或中位数(例如1.1倍、1.2倍、1.3倍、1.4倍、1.5倍、1.6倍、1.7倍、1.8倍、1.9倍、2倍等)或其它特征参数等。
[0126]
在本技术的一些实施方式中,hri为风险比权重,不同基因的风险比权重对应以下:
[0127][0128]
在本技术的一些实施方式中,不同基因的阈值对应以下:
[0129]
[0130][0131]
在本技术的一些实施方式中,基因的表达水平为基因的rna水平。
[0132]
在本技术的一些实施方式中,基因的表达水平可以是根据样本检测到的基因表达水平的原始值,例如通过rna-seq、微阵列等技术得到的标志物的基因表达水平;也可以是将表达水平的原始值经过任选一种或多种数学处理、变换等方式得到的处理值,例如通过任选的归一化和/或标准化方法得到的处理值。
[0133]
在本技术的一些实施方式中,肝细胞癌患者为tnmⅰ期或ⅱ期患者。tnmⅰ期(stageⅰ)包括ⅰa(通常为t1a/n0/m0)、ⅰb(通常为t1b/n0/m0),tnmⅱ期(stageⅱ)包括ⅱ(通常为t2/n0/m0)。
[0134]
在本技术的一些实施方式中,肝细胞癌患者为tnmⅲ期或ⅳ期患者。tnmⅲ期(stageⅲ)包括ⅲa(通常为t3/n0/m0)、ⅲb(通常为t4/n0/m0),tnmⅳ期(stageⅳ)包括ⅳa(通常为任意t/n1/m0)、ⅳb(通常为任意t/任意n/m1)。
[0135]
在本技术的一些实施方式中,用于评估分子分型的评估模块中,将标志物的水平与阈值比较包括sahr值大于0时,判断患者预后不良;sahr值不大于0时,判断患者预后良好。
[0136]
本技术的第八方面,提供肝细胞癌分子分型系统,该系统包括:
[0137]
获取模块,获取模块用于获取若干个肝细胞癌样本的转录组数据;
[0138]
选择模块,选择模块用于选取转录组数据中表达量的离散程度高于设定值的基因;
[0139]
降维模块,降维模块用于根据选取的基因的表达量对转录组数据进行降维;
[0140]
聚类模块,聚类模块用于对降维后的基因进行聚类,获取不同样本的分子分型的亚型。
[0141]
在本技术的一些实施方式中,若干个肝细胞癌的转录组数据可以是1~100、1~200、1~500、1~1000、1~2000、1~5000、1~10000、1~20000、1~50000、1~100000例肝细胞癌样本的转录组数据。在一些实施方式中,若干个肝细胞癌的转录组数据是10例以上、20例以上、50例以上、100例以上的肝细胞癌样本的转录组数据。
[0142]
在本技术的一些实施方式中,转录组数据包括mrna的表达量数据、lncrna的表达量数据、mirna的表达量数据等其中至少一种。
[0143]
在本技术的一些实施方式中,还包括获取若干个肝细胞癌样本的临床数据。
[0144]
在本技术的一些实施方式中,基因的表达量的离散程度是指基因表达量在不同的肝细胞癌样本之间的差异的集中程度(或称其在不同样本之间的变异情况)。显然,对于不同进展程度的肝细胞癌,其原发灶、淋巴结以及远端转移等方面的不同都会导致部分基因的表达出现异常且各不相同,因而从这些在不同样本之间变异程度大的基因可以更有效地进行分型。
[0145]
在本技术的一些实施方式中,离散程度高于设定值是指基因的表达量在不同的肝细胞癌样本之间存在较大变化,例如可以通过极差、四分位差、平均差、方差、标准差等参数与平均值的比例确定一个无量纲的反映表达量的离散程度的系数,将系数与一个设定值比
较,大于设定值即为表达量的离散程度高于设定值,认定为该基因在不同样本间变异情况/离散程度较大,反之则为不高于设定值,表明其变异情况/离散程度较低。
[0146]
在本技术的一些实施方式中,设定值可以预先划定,或者根据需要选取的基因的数量将反映表达量的离散程度的参数按照从大到小顺序排列后,确定落入数量的设定值进而选取这些基因。
[0147]
在本技术的一些实施方式中,选取转录组数据中表达量的离散程度高于设定值的基因可以是选取离散程度最高的500~10000个基因,例如可以是500、1000、1500、2000、2500、3000、3500、4000、4500、5000、6000、7000、8000、9000、10000个基因
[0148]
在本技术的一些实施方式中,转录组数据中基因的表达量可以是根据样本检测到的基因表达量的原始值,例如通过rna-seq、微阵列等技术得到的标志物的基因的表达量;也可以是将表达量的原始值经过任选一种或多种数学处理、变换等方式得到的处理值,例如通过任选的归一化和/或标准化方法得到的处理值。其中,归一化的方法可以是lognormalize、clr(中心对数比转换)、rc(相对计数)等其中至少一种。
[0149]
在本技术的一些实施方式中,降维可以选择本领域常用的pca、lda、mds、isomap、sne、t-sne、autoencoder、umap等其中至少一种。在其中一些实施方式中,可以是pca+umap、pca+t-sne中的任一种。
[0150]
在本技术的一些实施方式中,pca降维后选取其中20~100个主成分,30~50个主成分,进行umap或tsne的数据降维,例如可以选择20、30、40、50、60、70、80、90、100个主成分。
[0151]
在本技术的一些实施方式中,聚类的方式可以是任选的无监督聚类方式,例如一致性聚类(consensus clustering)和非负矩阵分解(non-negative matrix factorization,nmf)中的至少一种。在其中一些实施方式中,一致性聚类包括k均值(k-means,km)、分层聚类(hierarchical clustering,hc)、围绕中心点的划分算法(partitioning around medoid,pam)聚类等其中至少一种。
[0152]
在本技术的一些实施方式中,还包括选取不同亚型之间的差异表达水平基因构建分子分型模型。
[0153]
在本技术的一些实施方式中,选取不同亚型之间的差异表达水平基因包括选取不同亚型之间表达水平的差异的显著性最强的x个基因,x可以是1~100,5~100,10~100。在其中一些实施方式中,显著性最强的x个基因为检验不同亚型之间基因的表达水平的差异显著性的p值最小的x个基因。
[0154]
在本技术的一些实施方式中,根据x个基因构建分子分型模型是指构建关于x个基因的多元一次方程模型。该模型对x个基因的绝对表达水平或相对表达水平分别赋予权重并加和,不同基因的权重可以相同或不同。
[0155]
前期工作中已经证明组织样本的转录组数据中蕴含大量的信息,比如可以用于判断该样本是否为恶性肿瘤、组织来源、以及纯度评估。肿瘤组织中有很多基因的表达量发生了变化,这些基因有较大的可能在肿瘤的形成、发展中发挥重要功能,有潜力用于肿瘤的恶性程度评估和分子分型。在本技术中,通过分析来自肝细胞癌症患者的肿瘤样本、对照样本的rna-seq数据,鉴定出肿瘤样本中差异表达的基因;然后结合患者的临床信息(包括临床分期和预后),鉴定出其中与患者预后相关的基因(即高表达组和低表达组患者的预后有显
著差异)。进一步选取其中与患者预后相关性最高的基因(即目标基因;基于统计分析中的p值),并以高表达组相对低表达组的风险比(hazard ratio,hr)为权重系数建立肿瘤恶性程度的预后评估模型。该模型不仅可以单独使用,也可以结合临床分期等相关信息,对患者预后进行更精准的预测。在一些实施方式中,本技术仅需要对肿瘤样本进行转录组测序(rna-seq),实验操作简单、成本低,易于临床推广。此外,利用机器学习方法对肿瘤转录组数据进行降维、聚类,从而将肿瘤样本分为不同的亚型(即分子分型);通过结合临床信息来验证该分子分型的临床价值,并通过鉴定不同亚型之间的差异表达基因、信号通路来挖掘潜在的特异性治疗靶点,从而指导精准医疗。
[0156]
本技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实践了解到。
附图说明
[0157]
图1是本技术的一个实施例采用60基因的sahr模型分别对训练数据集(a)和测试数据集(b)中根据sahr值正负区分的两组样本的生存时间预测评估结果。
[0158]
图2是本技术的一个实施例采用60基因的sahr模型对测试数据集中早期(a)和晚期(b)根据sahr值正负区分的两组样本的生存时间预测评估结果。
[0159]
图3是本技术的一个实施例采用hr》3的11基因的sahr模型对训练数据集(a)、测试数据集(b)、测试数据集中的早期(c)和晚期(d)根据sahr值正负区分的两组样本的生存时间预测评估结果。
[0160]
图4是本技术的一个实施例采用top5的20基因的sahr模型对训练数据集(a)、测试数据集(b)、测试数据集中的早期(c)和晚期(d)根据sahr值正负区分的两组样本的生存时间预测评估结果。
[0161]
图5是本技术的一个实施例采用top10的40基因的sahr模型对训练数据集(a)、测试数据集(b)、测试数据集中的早期(c)和晚期(d)根据sahr值正负区分的两组样本的生存时间预测评估结果。
[0162]
图6是本技术的一个实施例中对hcc患者的分子分型结果。其中,a为c0、c1、c2的聚类结果,b为c0与c1_c2的预后分析结果,c为c0相对于c1_c2的差异表达基因,d为c中部分差异表达基因在c0、c1、c2中的表达情况。
[0163]
图7是本技术的一个实施例中根据分子分型得出的10个差异表达基因验证样本是否为c0亚型的roc曲线验证结果。
[0164]
图8是本技术的一个实施例中c0相对于c1_c2特异性上调的基因在kegg数据库(a)和go数据库(b)的功能富集结果。
具体实施方式
[0165]
以下将结合实施例对本技术的构思及产生的技术效果进行清楚、完整地描述,以充分地理解本技术的目的、特征和效果。显然,所描述的实施例只是本技术的一部分实施例,而不是全部实施例,基于本技术的实施例,本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例,均属于本技术保护的范围。
[0166]
下面详细描述本技术的实施例,描述的实施例是示例性的,仅用于解释本技术,而
不能理解为对本技术的限制。
[0167]
在本技术的描述中,若干的含义是一个以上,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。如果在流程图中描述到了逻辑顺序,但是在某些情况下,可以以不同于流程图中的顺序执行所描述或示出的步骤。
[0168]
本技术的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0169]
以下结合具体的实施例对本技术进行说明。
[0170]
实施例1
[0171]
hcc预后模型
[0172]
1.样本选择:从tcga(the cancer genome atlas)数据库中下载肝细胞癌的转录组测序数据和临床信息数据,筛选出提供患者随访信息(若有肿瘤分期信息,则也会加以利用)的样本,最终用于分析的数据中包含5个以上的癌旁样本和100个以上的肿瘤样本。
[0173]
2.差异表达基因筛选:使用deseq2软件对癌旁样本和肿瘤样本进行分析,获取在肝细胞癌患者的肿瘤样本中差异表达的基因(包括上调和下调)。
[0174]
3.数据集建立:根据癌症样本量大小,将全部患者随机分成训练数据集(约50%)和测试数据集(约50%)。
[0175]
4.生存分析:针对步骤2中获得的差异表达基因,将训练数据集按照其表达量分为高、低两组,然后结合患者的预后信息(即生存时间)对每个差异表达的基因进行生存分析。具体使用kaplan-meier方法,基于log-rank检验,每个基因均可以得到一个p值和一个高表达组相对低表达组的风险比(hazard ratio,hr),然后根据p值筛选出与预后相关的基因(p《0.05的基因认定与预后相关)。
[0176]
5.基因分类:
[0177]
根据生存分析结果,将预后相关基因分为4种类型:
[0178]
在肿瘤样本中上调表达,并导致更差预后的基因为疑似原癌基因(oncogene-like);
[0179]
在肿瘤样本中上调表达,但导致更好预后的基因为疑似上调保护基因(upsaver-like);
[0180]
在肿瘤样本中下调表达,并导致更差预后的基因为疑似肿瘤抑制基因(tumorsuppressor-like);
[0181]
在肿瘤样本中下调表达,但导致更好预后的基因为疑似下调保护基因(downsaver-like)。
[0182]
6.模型构建:根据基因与生存分析的显著性(p值从小到大,均小于0.05)进行排序,筛选出oncogene-like,upsaver-like,tumorsuppressor-like和downsaver-like四种基因类型分别排名靠前的60个基因,构建得到sahr(score of aggregated hazard ratio)
模型。结果如表1所示,分别为这些基因的ensembl id、基因名称、基因分类、风险比(hr)和截断值(cut off value)。
[0183]
表1.肝细胞癌预后sahr模型基因参数
[0184]
[0185][0186]
该模型数学通式:
[0187]
对该模型解释如下:
[0188]
n为基因的数量,本实施例中n为60。
[0189]
δi为第i个基因的相对表达水平,为该基因的绝对表达水平与阈值的相对大小的赋值。第i个基因的阈值为所有肝细胞癌样本中这一基因的表达量的中位数(表1中cut off值),待测肿瘤样本中,若该基因表达量高于该阈值,则认为该基因在该样本中高表达,若不高于该阈值,则认为该基因在该样本中低表达,基于此,赋值如下:
[0190]
第i个基因为oncogene-like基因,若高表达,δi为1,若低表达,δi为-1;
[0191]
第i个基因为tumorsuppressor-like基因,若高表达,δi为-1,若低表达,δi为1;
[0192]
第i个基因为upsaver-like基因,若高表达,δi为-1,若低表达,δi为1;
[0193]
第i个基因为downsaver基因,若高表达,δi为1,若低表达,δi为-1。
[0194]
将全部60个基因的hri和δi的乘积累加,即为评估肝细胞癌预后评估模型的sahr值。
[0195]
分别对于测试数据集和训练数据集中的样本,计算其sahr值,并分为正值(positive)、负值(negative)两组,比较这两组患者的预后差异,验证sahr模型对患者预后的预测能力。换言之,以0为sahr模型的截断值,结果如图1所示,从图中可以看到,无论是测试数据集还是训练数据集,根据sahr值的正负都可以对其生存时间进行有效区分,两者差异具有统计学意义。
[0196]
将sahr模型与临床分期联合使用,根据临床分期,将测试数据集中的患者分为早期(stagei和stageii)和晚期(一般为stageiii和stageiv),在不同的期别中比较sahr值分别为正值和负值的两组患者的预后差异。结果如图2所示,从图中可以看到,无论是早期患者还是晚期患者,根据sahr值的正负都可以对其生存时间进行有效区分,两者差异具有统计学意义。
[0197]
实施例2
[0198]
本实施例提供一种sahr模型,其中包括作为标志物的基因:gage2a、gage1、u95743、flj36000、brsk1、ac093730、linc01968、rhoxf2b、z98200、rhpn1、ccdc38共11个,基因对应的hr和基因对应的阈值与实施例1相同。该模型中含有10个疑似原癌基因和1个疑似肿瘤抑制基因,并且hr值均大于3。本实施例中仍然使用0作为sahr模型阈值将不同样本分为两组,采用实施例1中的数据集划分成的测试数据集和训练数据集,按照上述模型计算sahr值,得到相应的生存曲线,结果如图3的a和b所示,根据sahr值的正负同样可以对其生存时间进行有效区分,两者差异具有统计学意义。进一步将sahr模型与临床分期联合使用,根据临床分期,将测试数据集中的患者分为早期(stagei和stageii)和晚期(一般为stageiii和stageiv),在不同的期别中比较sahr值分别为正值和负值的两组患者的预后差异。结果如图3的c和d所示,无论是早期患者还是晚期患者,根据sahr值的正负都可以对其生存时间进行有效区分,两者差异具有统计学意义。
[0199]
实施例3
[0200]
本实施例提供一种sahr模型,其中包括作为标志物的基因:gage2a、gage1、u95743、flj36000、brsk1、ccdc38、hmgcs2、cfhr3、amdhd1、cd69、ac090360、rfx8、ccdc180、prok1、trim73、al360014、cd81、chst4、ac007221、gpr180共20个,其中,oncogene-like、upsaver-like、tumorsuppressor-like和downsaver-like四种基因各为5个(top5),基因对应的hr和基因对应的阈值与实施例1相同。本实施例中仍然使用0作为sahr模型阈值将不同样本分为两组,采用实施例1中的数据集划分成的测试数据集和训练数据集,按照上述模型计算sahr值,得到相应的生存曲线,结果如图4的a和b所示,根据sahr值的正负同样可以对其生存时间进行有效区分,两者差异具有统计学意义。进一步将sahr模型与临床分期联合使用,根据临床分期,将测试数据集中的患者分为早期(stagei和stageii)和晚期(一般为stageiii和stageiv),在不同的期别中比较sahr值分别为正值和负值的两组患者的预后差异。结果如图4的c和d所示,无论是早期患者还是晚期患者,根据sahr值的正负都可以对其生存时间进行有效区分,两者差异具有统计学意义。
[0201]
实施例4
[0202]
本实施例提供一种sahr模型,其中包括作为标志物的基因:gage2a、gage1、u95743、flj36000、brsk1、ac093730、linc01968、rhoxf2b、z98200、rhpn1、ccdc38、hmgcs2、cfhr3、amdhd1、cd69、folh1、pde2a、bend4、cd302、dnase1l3、ac090360、rfx8、ccdc180、prok1、trim73、ppp4r1、actl6b、nkpd1、qrfpr、ac005091、al360014、cd81、chst4、ac007221、gpr180、linc02512、wnt2、linc01505、rab20、slco4c1共40个,其中,oncogene-like、upsaver-like、tumorsuppressor-like和downsaver-like四种基因各为10个(top5),基因对应的hr和基因对应的阈值与实施例1相同。本实施例中仍然使用0作为sahr模型阈值将样本分为两组,采用实施例1中的数据集划分成的测试数据集和训练数据集,按照上述模型计算sahr值,得到相应的生存曲线,结果如图5的a和b所示,根据sahr值的正负同样可以对其生存时间进行有效区分,两者差异具有统计学意义。进一步将sahr模型与临床分期联合使用,根据临床分期,将测试数据集中的患者分为早期(stagei和stageii)和晚期(一般为stageiii和stageiv),在不同的期别中比较sahr值分别为正值和负值的两组患者的预后差异。结果如图5的c和d所示,无论是早期患者还是晚期患者,根据sahr值的正负都可以对其生存时间进行有效区分,两者差异具有统计学意义。
[0203]
实施例5
[0204]
本实施例提供一种肝细胞癌预后评估系统,其中包括能够获取标志物表达水平的获取模块,以及将表达水平与阈值比较,并根据比较结果评估肝细胞癌患者是否预后不良的评估模块,评估模块包含实施例1中的sahr模型。
[0205]
实施例6~8
[0206]
实施例6~8分别提供一种肝细胞癌预后评估系统,与实施例5的区别在于,评估模块分别包含实施例2~4中的sahr模型。
[0207]
实施例9
[0208]
hcc分子分型模型
[0209]
以下处理步骤使用seurat和deseq2软件包完成:
[0210]
1.高变异基因筛选:从tcga(the cancer genome atlas)数据库中下载肝细胞癌的转录组测序数据后,对每个基因的原始读数(raw count)进行lognormalize的归一化;进行均值方差分析,根据基因的表达量均值和方差的关系,筛选出样本间高变异的4000个基因。
[0211]
2.高变异基因聚类:对高变异的基因的表达数据进行z-score标准化后,利用主成分分析(pca)对数据进行降维;筛选出前30个主成分,利用umap或者t-sne方法进行进一步数据降维,使用k均值(k-means)算法进行聚类,从而将肿瘤样本分为不同的分子亚型。
[0212]
分子分型结果如图6的a所示,这些肿瘤样本可以分为三种亚型。对三种亚型的生存时间的预后分析发现,c0、c1和c2之间受限于样本量等因素,统计学上并不显著。
[0213]
将c1和c2亚型合并,对c0及c1_c2亚型再次进行生存分析,结果如图6的b所示,可以看出c0亚型的预后显著低于c1_c2。
[0214]
如图6的c和d所示,差异表达分析揭示了多个在c0中特异性上调和下调的基因,如dxcr(糖代谢相关基因)、dxcr-dt、itpr3(钙离子通道相关基因)、itih5、page4、ac011317.1、ac133552.5、sema3c、lama1、cadps等等,这些基因有望成为c0特异的标志物用
于设计hcc分子分型诊断试剂盒。
[0215]
为此,验证这10个基因的分子分型效用如下:
[0216]
采用lasso回归,根据上述的10个差异表达基因的tpm值进行c0亚型预测。利用50%的样本作为训练集,50%的样本作为测试集,选择10x交叉验证法,最终根据这10个基因的tpm值进行c0亚型预测的auc为0.986,参考图7。上述结果表明,可以通过这10个基因对肝细胞癌患者进行有效的分子分型。
[0217]
此外,如图8所示,c0中特异性上调的基因呈现出显著的功能富集,如pi3k-akt信号通路、cgmp-pkg通路、铁离子结合等等,可作为靶点筛选潜在治疗药物,从而指导精准医疗。
[0218]
上面结合实施例对本技术作了详细说明,但是本技术不限于上述实施例,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本技术宗旨的前提下做出各种变化。此外,在不冲突的情况下,本技术的实施例及实施例中的特征可以相互组合。

技术特征:
1.检测标志物的试剂在制备肝细胞癌预后的产品中的应用,其特征在于,所述标志物包含组a~d的整体中的至少一种:组a:gage2a、gage1、u95743、flj36000、brsk1、ac093730、linc01968、rhoxf2b、z98200、rhpn1、linc01559、linc02008、pfkfb4、ac114489、lastr、linc02003、dhdh、ac145343、linc00160、lpcat1;组b:ccdc38、hmgcs2、cfhr3、amdhd1、cd69、folh1、pde2a、bend4、cd302、dnase1l3、ccl23、mmut、tcf21、tmem220、slc38a4、tgfbr3、myom2、ppargc1a、aspa、slc2a2;组c:ac090360、rfx8、ccdc180、prok1、trim73、ppp4r1、actl6b、nkpd1、qrfpr、ac005091;组d:al360014、cd81、chst4、ac007221、gpr180、linc02512、wnt2、linc01505、rab20、slco4c1;优选地,所述标志物包含组a~d的整体中每组独立1种到10种;或,所述标志物包含组a~b中每组独立11到20种以及组c~d中每组独立1种到10种;优选地,所述标志物包含组a~d的整体中全部60种。2.评估肝细胞癌患者预后的方法,其特征在于,包括以下步骤:获取肝细胞癌患者的标志物的水平;将所述水平与阈值比较;根据比较结果,评估所述肝细胞癌患者是否预后不良;其中,所述标志物包含组a~d的整体中的至少一种:组a:gage2a、gage1、u95743、flj36000、brsk1、ac093730、linc01968、rhoxf2b、z98200、rhpn1、linc01559、linc02008、pfkfb4、ac114489、lastr、linc02003、dhdh、ac145343、linc00160、lpcat1;组b:ccdc38、hmgcs2、cfhr3、amdhd1、cd69、folh1、pde2a、bend4、cd302、dnase1l3、ccl23、mmut、tcf21、tmem220、slc38a4、tgfbr3、myom2、ppargc1a、aspa、slc2a2;组c:ac090360、rfx8、ccdc180、prok1、trim73、ppp4r1、actl6b、nkpd1、qrfpr、ac005091;组d:al360014、cd81、chst4、ac007221、gpr180、linc02512、wnt2、linc01505、rab20、slco4c1。3.根据权利要求2所述的方法,其特征在于,将标志物的水平与阈值比较包括:根据所述标志物的所述水平通过以下公式计算sahr值:其中,n为所述标志物中基因的数量;δ
i
为第i个基因的相对表达水平,当第i个基因为组a或组d中的基因,表达水平高于第i个基因的阈值时δ
i
为1,表达水平不高于第i个基因的阈值时δ
i
为-1;当第i个基因为组b或组c中的基因,表达水平高于第i个基因的阈值时δ
i
为-1,表达水平不高于第i个基因的阈值时δ
i
为1;hr
i
为第i个基因的权重;优选地,hr
i
为风险比权重,不同基因的所述风险比权重对应以下:
优选地,不同基因的阈值对应以下:
4.肝细胞癌样本分子分型的方法,其特征在于,包括以下步骤:获取若干个肝细胞癌样本的转录组数据;选取所述转录组数据中表达量的离散程度高于设定值的基因;基于所述基因的表达量对所述转录组数据进行降维和聚类,获取所述肝细胞癌样本的分子分型的亚型。5.肝细胞癌患者的分子分型的方法,其特征在于,包括以下步骤:获取所述肝细胞癌患者的标志物的水平;将所述水平与阈值比较;根据比较结果,判断所述肝细胞癌患者的分子分型;其中,所述标志物选自dcxr、dcxr-dt、page4、ac011317.1、ac133552.5、itpr3、itih5、sema3c、lama1、cadps中的至少一种。6.检测标志物的试剂在制备肝细胞癌分子分型产品中的应用,其特征在于,所述标志物选自dcxr、dcxr-dt、page4、ac011317.1、ac133552.5、itpr3、itih5、sema3c、lama1、cadps中的至少一种。7.计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行权利要求2、3、4、5中任一项所述的方法。8.设备,其特征在于,包括处理器和存储器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器在运行所述计算机程序时实现权利要求2、3、4、5中任一项所述的方法。9.评估系统,其特征在于,所述系统包括:获取模块,所述获取模块用于获取肝细胞癌患者的标志物的水平;评估模块,所述评估模块用于将所述水平与阈值比较,并根据比较结果评估所述肝细胞癌患者是否预后不良;其中,所述标志物包含组a~d的整体中的至少一种:
组a:gage2a、gage1、u95743、flj36000、brsk1、ac093730、linc01968、rhoxf2b、z98200、rhpn1、linc01559、linc02008、pfkfb4、ac114489、lastr、linc02003、dhdh、ac145343、linc00160、lpcat1;组b:ccdc38、hmgcs2、cfhr3、amdhd1、cd69、folh1、pde2a、bend4、cd302、dnase1l3、ccl23、mmut、tcf21、tmem220、slc38a4、tgfbr3、myom2、ppargc1a、aspa、slc2a2;组c:ac090360、rfx8、ccdc180、prok1、trim73、ppp4r1、actl6b、nkpd1、qrfpr、ac005091;组d:al360014、cd81、chst4、ac007221、gpr180、linc02512、wnt2、linc01505、rab20、slco4c1;和/或,所述评估模块用于将所述水平与阈值比较,并根据比较结果评估所述肝细胞癌患者的分子分型;其中,所述标志物选自dcxr、dcxr-dt、page4、ac011317.1、ac133552.5、itpr3、itih5、sema3c、lama1、cadps中的至少一种。10.肝细胞癌分子分型系统,其特征在于,包括:获取模块,所述获取模块用于获取若干个肝细胞癌样本的转录组数据;选择模块,所述选择模块用于选取所述转录组数据中表达量的离散程度高于设定值的基因;降维模块,所述降维模块用于根据选取的基因的表达量对所述转录组数据进行降维;聚类模块,所述聚类模块用于对降维后的基因进行聚类,获取不同样本的分子分型的亚型。

技术总结
本申请公开了肝细胞癌预后评估以及分子分型的方法、标志物及其应用。本申请的第一方面公开了检测标志物的试剂在制备肝细胞癌预后的产品中的应用。在本申请中,通过分析来自肝细胞癌症患者的肿瘤样本、对照样本的相关数据,鉴定出肿瘤样本中差异表达的基因;结合患者的预后信息,鉴定出其中与患者预后相关的基因;进一步选取其中与患者预后相关性最高的基因(基于统计分析中的P值),以此建立反映肝细胞恶性程度的模型,利用这一模型中的相关基因检测结果代入模型可以实现对患者肝细胞癌预后情况的有效预估。后情况的有效预估。后情况的有效预估。


技术研发人员:孙坤 胡丁雪 刘晓懿 杨梦琦
受保护的技术使用者:深圳湾实验室
技术研发日:2023.03.31
技术公布日:2023/7/12
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐