一种分化型甲状腺癌的基因甲基化预后评估模型及其构建方法
未命名
08-27
阅读:148
评论:0
1.本发明属于医学建模领域,特别是一种分化型甲状腺癌的基因甲基化预后评估模型。
背景技术:
2.甲状腺癌是最常见的内分泌恶性肿瘤,近几年其发病率在世界范围内呈逐步上升趋势。甲状腺癌可分为甲状腺乳头状癌(papillary thyroid cancer,ptc),甲状腺髓样癌(medullary thyroid carcinoma,mtc),甲状腺未分化癌(anaplastic thyroid cancer,atc)等几种类型。其中,以ptc最为多见,ptc也叫分化型甲状腺癌,预后最好,而未分化型甲状腺癌患者的恶性度最高,但是因为atc仅仅只占到所有甲状腺癌的不到2%,所以ptc的关注度在甲状腺癌中是最多的,也是最受关注的。
3.ptc在甲状腺癌中发生的频率较高,但是一般情况下ptc患者在包括手术,放疗等标准治疗下大多预后较好,但是在ptc中有一部分肿瘤患者的甲状腺癌在治疗后一段时间就发生淋巴结转移、原位转移或者手术切除后复发,这些患者的甲状腺癌具有多发性,转移性、复发性等特点,且具有这些特点的患者的五年生存率低,死亡率高,预后较其他甲状腺癌患者差很多。所以,临床亟需能够帮助临床医生判断患者的肿瘤是否有这些相关危险因素的工具或手段,从而用来帮助监测和治疗甲状腺癌的复发和转移,对甲状腺癌患者进行更精细化地管理,治疗和监测,进而延长甲状腺癌患者的生存期以及提高他们的生活质量。然而,目前关于如何对甲状腺癌的预后进行判断评估,没有较好的解决手段。除此之外,ptc大多预后良好,若能区分出这些高危人群,对于那些低风险的ptc患者而言,也可以在很大程度上减轻疾病对患者所产生的心理压力,提高这些患者的生存质量。所以,目前亟需能够帮助临床医生区分出ptc患者中这一部分高危人群的手段。
技术实现要素:
4.本发明针对背景技术中存在的问题,提出了一种分化型甲状腺癌的基因甲基化预后评估模型及其构建方法。
5.技术方案:
6.一种分化型甲状腺癌的基因甲基化预后评估模型,它通过以下步骤构建:
7.s1、获得检测样本,对检测样本进行人工分级;
8.s2、对检测样本进行dna提取和储存;
9.s3、将具有ptc(实验组)以及正常甲状腺结节(对照组)的dna用于rrbs文库构建,进行甲基化分析;
10.s4、基于dna甲基化的预后分类模型的构建,预后评估模型显示ptc患者中具有cg15676916的患者大多预后不良,而具有cg03190661的患者的预后相对较好,所以计算出的预后模型的风险值为risk score=0.15411928*cg03190661-0.10405129*cg15676916+
0.06108015(基因的甲基化测序为现有技术,经过测序后会有检测样本的所有甲基化位点(也就是rrbs的结果)。如果需要专门检测这两个位点,可以设计这两个位点相关的探针和甲基化面板,从而专门检测这两个位点的情况);根据风险值risk score值进行预后评估,风险值risk score值越高越危险;
11.s5、交叉验证(留一法交叉验证)评估性能,获得基因甲基化预后评估模型。
12.优选的,s1中,使用超声引导下细针穿刺活检fnac获得检测样本。
13.优选的,s2中,提取的dna于-80℃储存于试管中。
14.优选的,s3中,rrbs文库基于已建立的单端测序操作步骤在genome analyzer ii上进行测序;对原始测序数据进行过滤和评估;获得胞嘧啶的甲基化相关信息,包括覆盖率分析、甲基化分析和dmrs分析;选用序列深度覆盖至少为10且至少被四个读数覆盖的甲基化胞嘧啶的多少来确定基因甲基化水平的高低。
15.优选的,s4中,具体步骤为:
16.s4-1、获取甲状腺癌临床特征在内的癌症基因组图谱tcga数据库的甲基化数据;
17.s4-2、将tcga数据库中的ptc数据集(dmg-2)被分离成两个独立的数据集:一个用于与来自fnac样本的rrbs的数据集合并构建预后模型(dmg-3);另一个数据集用作验证数据集(dmg-4),对所构建的模型进行验证;
18.s4-3、将fnac ptc样品与正常对照之间的差异甲基化探针dmp通过字符串数据库映射到其相应的dmg;
19.s4-4、将来自tcga数据库的这些dmg与来自rrbs测序的dmg进行比较,并将两个数据集中的dmg命名为dmg-5,用于构建ptc预后模型;
20.s4-5、对dmp-4数据进行受试者工作特征曲线(receiver operator characteristic curve,roc curve)分析,以确定具有统计学显着性的dmps用于单因素回归分析,生存作为因变量;
21.s4-6、将单因素回归分析筛选出的dmp进一步用于多因素回归分析;
22.s4-7、在此基础上构建预后分类模型。
23.优选的,s5中,通过留一法交叉验证(loocv)评估性能。
24.优选的,s4中,风险值risk score值在[-0.04,0)区间表明患者的预后较好,为低风险因素组,可正常随访;在[0,0.3)区间表明患者的风险较高,为中风险因素组,可缩短随访天数至一半;在[0.3,0.6]区间则表明患者预后不良的风险高,为高风险因素组,当密切随访。
[0025]
本发明的有益效果
[0026]
本模型通过对甲状腺癌患者的超声引导下穿刺样本进行测序,将测序的数据结合tcga数据库和geo数据库内的大量甲状腺癌患者的数据,选取甲状腺癌患者中具有复发、转移和生存期等临床数据的甲状腺癌甲基化数据进行分析和建模,构建出可用于临床辅助判断患者预后情况的预后模型。本模型采用风险值risk score值用以进行甲状腺分化癌预后评估,并根据风险值的具体值将患者分为低风险因素组、中风险因素组和高风险因素组三组。根据模型,对于不同风险的小组采用不同的随访方式,具体的:低风险因素组,患者的甲状腺癌复发转移的风险较低,预后较好,可正常随访;中风险因素组,患者的甲状腺癌复发转移的风险较高,预后较差,可缩短随访天数至一半;高风险因素组,患者的甲状腺癌复发
转移的风险高,预后差,当密切随访。
[0027]
本发明经过对临床样本的测序发现甲状腺癌的预后情况与患者基因的甲基化异常有关,基因甲基化的异常降低与甲状腺癌的发生发展密切相关。目前认为,虽然手术可切除肿瘤所在的区域,但是患者的细胞,尤其是肿瘤附近的细胞仍然存在表观遗传记忆,并且相关的表观遗传印记是导致肿瘤复发转移和不良预后的关键。本模型基于临床和数据库中的大量真实案例对模型进行训练,并在独立的数据库中对模型完成了验证,具有良好的预测甲状腺癌患者的预后情况的能力。使ptc患者中具有高危因素的这部分患者能够得到更密切的关注和更为及时的治疗。而对于低危险因素人群,本模型也可以使这部分人群降低心理负担,减少心理压力,同时也避免过度治疗带来的其他诸如经济压力等负担。心理因素对身体健康具有非常复杂和深刻的影响,基于本模型的预后评估结果,可减少低风险因素组甲状腺分化癌患者预后对自己病情的忧虑,进而提高生活质量,促进其身体康复。而对于中高风险组的甲状腺分化癌患者可采取更为密切的随访,从而在最大程度上避免延误病情而导致的病情恶化。
[0028]
肿瘤的发生发展机制复杂,对于肿瘤患者的治疗和预后管理也应该是综合性的。临床医生可结合本模型的评分与其他的一些临床资料来综合判断患者的情况,从而找出最适合患者的治疗和随访方式,在最大程度上降低患者的压力,提高患者的生活质量,加强对术后预后的监管,防范患者的肿瘤卷土重来,对患者进行及时的检测和治疗,提高患者的生存期。
附图说明
[0029]
图1为预后模型的应用流程示意图。
[0030]
图2为ptc vs normal的富集分析条形图。
[0031]
图3为metascape数据库基于disgenet对dmg进行的分析结果图。
[0032]
图4为甲状腺癌fnac样本和正常组织的差异分析图。
[0033]
图5为tcga数据库的训练集数据中的甲状腺癌样本与正常对照组的差异分析图。
[0034]
图6为tcga中训练集的差异甲基化位点对应的dmg-3与dmg-1的交集示意图。
[0035]
图7为测试集的基因的甲基化水平框线图。
[0036]
图8为测试集的生存分析示意图。
[0037]
图9为测试集的roc曲线图。
[0038]
图10为验证数据集的基因的甲基化水平框线图。
[0039]
图11为验证数据集的生存分析示意图。
[0040]
图12为验证数据集的roc曲线。
具体实施方式
[0041]
下面结合实施例对本发明作进一步说明,但本发明的保护范围不限于此:
[0042]
结合图1,整个过程主要包括超声引导下甲状腺结节穿刺取样,焦磷酸测序,根据测序结果计算风险值和分类等步骤,具体见技术方案所述。
[0043]
实施例1
[0044]
1、实验方法
[0045]
(1)在医院经过医院的伦理委员会批准以及患者的同意后,收集临床医生对患者进行超声引导下细针穿刺活检的样本,以下简称穿刺样本。用qiagen的dna试剂盒提取穿刺样本中的的dna,放置在-80
°
的冰箱里里冷冻保存。对患者进行五年随访,记录患者包括甲状腺癌的复发、转移、转移的方式和部位以及第二次手术后的病理等详细的临床资料,方便日后分析。选取在后期随访中发生甲状腺癌的复发、转移的患者的穿刺样本和随访内未发生复发、转移,预后良好的甲状腺癌患者的样本作为实验的研究对象,同时样本中的dna浓度要达到30ng/ul,纯度od260/280≥1.8左右以保证测序样本的质量和所得结果的准确。
[0046]
(2)对经以上步骤选取的样本采用目前甲基化测序的金标准,即焦磷酸测序来对样本进行甲基化测序。测序的样本采用qiagen公司q48焦磷酸测序仪进行高度精确的甲基化定量分析,对基因启动子区域(转录起始点
±
1k)的基因甲基化程度进行检测,测序所参照的为hg38版本(homo sapiens genome assembly grch38-ncbi-nlm(nih.gov))。差异甲基化基因的筛选阈值为|logfc|》1&p.value《0.05。将由此获得的来自于实验样本测序所得的dmgs标记为dmg-1。
[0047]
(3)从ucsc xena(https://xenabrowser.net/datapages/)下载获得tcga数据库中甲状腺癌的甲基化相关数据、临床数据及生存数据,保留具有临床信息和预后信息的肿瘤样本的甲基化相关数据,经挑选后,共有498个样本的数据(dmp-2)纳入分析。预后针对于肿瘤患者的肿瘤样本进行,将这tcga中下载到的甲状腺癌的肿瘤数据随机以5:5的比例分为训练集dmp-3(249)及验证集dmp-4(249)。将训练集与正常样本(64),按步骤2.4重新进行差异分析,dmp的筛选阈值亦同。将训练集中筛选的dmp注释对应的dmg与甲基化测序数据得到的dmg-1取交集,获得dmg-5,用于预后模型的构建。
[0048]
(5)生存分析、单因素回归、多因素回归和逐步回归分析。对dmg-5对应的甲基化位点dmp在训练集中先分别进行生存分析。针对每个dmp,先使用survminer包计算optimal cutoff,将》optimal cutoff的作为高甲基化,将《optimal cutoff的作为低甲基化,分组后进行生存分析,将生存分析显著(p《0.05)的dmp挑选出来进行后续分析。将生存分析结果显著的dmp再进行单因素回归分析(以生存结局作为因变量),筛选预后显著相关的dmp。单因素回归分析后,对单因素回归分析显著的dmp进一步进行多因素回归(以生存结局作为因变量);然后进行逐步回归分析,得到最终aic值最小时获得的自变量及系数,作为我们获得的最优最简预后模型。获得预后模型后,再使用模型计算得到risk score,使用生存分析、risk score分组箱线图和roc方法,分别进行预后模型的验证。
[0049]
(6)基于最优dmp组合进行预后风险模型构建,我们在验证集中使用模型再次计算训练集中的risk score,然后在验证集中使用生存分析、risk score分组箱线图和roc方法,分别进行预后模型的验证,看与训练集中得到对应结果是否基本一致,完成验证集对预后模型的验证。
[0050]
(7)最后按照risk score的分值来计算患者的危险系数,判断危险系数所在的区间和术后发生复发、转移等风险时间的风险高低。
[0051]
2、实验结果
[0052]
经过焦磷酸测序,超声引导下细针穿刺活检样本中的甲状腺癌和正常对照组的dna的甲基化水平相比,与多种甲状腺疾病有关(图2显示了测序结果,也就是差异甲基化位点与许多甲状腺的功能活动密切相关),而特定基因的甲基化水平过低可能与甲状腺癌有
关(图3显示了差异甲基化位点与许多甲状腺疾病相关联,与甲状腺癌高度相关)。测序的数据显示基因的甲基化异常与甲状腺癌有密切关联,甲状腺癌组的基因甲基化水平较正常组明显降低(图4展示了样本在整个基因组层面的基因甲基化程度差异,图上显示肿瘤组的基因甲基化水平比正常对照组有所降低)。tcga数据库中具有复发,转移特点的甲状腺癌的甲基化水平与正常对照组的分析同样显示,特定基因的甲基化异常与甲状腺癌的发生发展密切相关(图5展示了tcga数据库的训练集数据中的甲状腺癌样本与正常对照组的差异分析结果与测序样本的结果相一致,肿瘤组的甲基化水平有所降低)。tcga数据库中的用于构建预后模型的数据与焦磷酸测序的数据取交集所得的dmg(图6展示了tcga中训练集的差异甲基化位点对应的dmg-3与dmg-1的交集。由图可以看出,dmg-1为749,dmg-3为974,两者的交集得到31个dmg,即这31个dmg能够准确区分出具有高危因素的肿瘤和预后较好的肿瘤患者的标本)。预后模型在测试集中的预后效果用框线图(图7中,基因的甲基化水平框线图显示预后模型在测试数据集中可以区分出甲状腺癌患者中不良预后的患者与没有发生死亡的预后较好的患者,具有良好的预后效果),生存图(图8中,生存分析显示预后模型在测试数据集中对甲状腺癌患者中不良预后的患者与预后较好的患者分组明显,具有良好的预后效果)和roc曲线图(图9展示了roc曲线显示预后模型在测试数据集中区分出甲状腺癌患者中不良预后的敏感性和特异性良好)显示出了良好的区分出具有复发转移这些临床特点的患者的能力。预后模型在tcga数据库中的验证数据集的预后效果用框线图(图10中,基因的甲基化水平框线图显示预后模型在验证数据集中同样可以区分出甲状腺癌患者中不良预后的患者与没有发生死亡的预后较好的患者,验证了预后模型的预后效果),生存图(图11,生存分析显示预后模型在验证数据集同样可以将甲状腺癌患者中不良预后的患者与预后较好的患者很好地分组,验证了预后模型的预后效果)和roc曲线图(图12,roc曲线显示预后模型在验证数据集中表现出的区分出甲状腺癌患者中不良预后的敏感性和特异性良好,验证了预后模型具有良好的敏感性和特异性)。
[0053]
实施例2
[0054]
基于上述研究成果,本发明采用机器学习的算法,通过对差异的基因甲基化位点的数值进行计算提供了相对客观且经济便捷的甲状腺癌预后的评价方法,可用于分化型甲状腺癌的随访术后和治疗方式选择时的参考。具体为,一种基于焦磷酸测序和机器学习算法的的甲状腺癌预后评估模型,按照患者的测序结果,将患者基因的甲基化情况,按照风险值risk score公式进行计算,公式为risk score=0.15411928*cg03190661-0.10405129*cg15676916+0.06108015。式中,risk score表示风险值;0.15411928为模型中差异甲基化位点cg03190661所占的权重;cg03190661表示该差异甲基化位点的值;-0.10405129为模型中差异甲基化位点cg15676916所占的权重;cg15676916为该差异甲基化位点的值;0.06108015为常量。按照此公式来计算患者的对应的危险分值,再按照风险值所在的区间对患者进行分级。风险值risk score值在[-0.04,0)区间表明患者的预后较好,正常随访即可;在[0,0.3)区间表明患者的复发转移风险较高,当缩短随访天数至一半;而分值在[0.3,0.6]区间的患者预后不良的风险最高,应当密切随访。临床医生可对预后模型的分值分组与患者的其他临床资料综合考虑,如影像学图像和治疗情况等来共同决定患者的监测和治疗方案。
[0055]
实施例3
[0056]
甲状腺癌检测示例
[0057]
按照实施例1的方法进行操作,获得患者的基因甲基化数据。使用公式risk score=0.15411928*cg03190661-0.10405129*cg15676916+0.06108015,计算患者甲状腺癌复发、转移等预后不良发生的风险,计算示例如下:
[0058]
样本1(经手术后随访未发现复发转移,五年生存期良好的甲状腺癌穿刺样本):cg03190661=-0.34562;cg15676916=0.255776,故risk score=0.15411928*cg03190661-0.10405129*cg15676916+0.06108015=0.15411928*-0.34562-0.10405129*0.255776+0.06108015=-0.018800378,样本1的患者的诊断模型risk score为-0.018800378,属于[-0.04,0)区间,为低风险组,即患者甲状腺癌经治疗后的预后较好,正常随访即可,与临床结果一致。
[0059]
样本2(手术后复发甲状腺癌患者第一次手术前的甲状腺癌穿刺样本):
[0060]
cg03190661=0.253861;cg15676916=-0.29211,故risk score=0.15411928*0.253861-0.10405129*(-0.29211)+0.06108015=0.15411928*(-0.34562)-0.10405129*0.255776+0.06108015=0.130599447。样本2的患者的预后模型的风险值为0.130599447,属于[0,0.3)区间,为中风险组,表明患者的复发转移风险较高,当缩短随访天数,患者有不适需要及时诊断治疗,与临床结局一致。
[0061]
样本3(手术后甲状腺癌淋巴结转移的患者第一次手术前的甲状腺癌穿刺样本):
[0062]
cg03190661=-0.30545;cg15676916=-0.27328,故risk score=0.15411928*cg03190661-0.10405129*cg15676916+0.06108015=0.15411928*(-0.30545)-0.10405129*(-0.27328)+0.06108015=0.042439552。样本3的患者的预后模型的风险值为0.042439552,属于[0,0.3)区间,为中风险组,表明患者的复发转移风险较高,当缩短随访天数,预后模型的预测结果与临床结局一致。
[0063]
表1
[0064][0065]
※
risk score=0.15411928*cg03190661-0.10405129*cg15676916+0.06108015
[0066]
本文中所描述的具体实施例仅仅是对本发明精神做举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替
代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
技术特征:
1.一种分化型甲状腺癌的基因甲基化预后评估模型的构建方法,其特征在于它包括以下步骤:s1、获得检测样本,对检测样本进行人工分级;s2、对检测样本进行dna提取和储存;s3、将具有ptc以及正常甲状腺结节的dna用于rrbs文库构建,进行甲基化分析;s4、基于dna甲基化的预后分类模型的构建,计算出的预后模型的风险值为risk score=0.15411928*cg03190661-0.10405129*cg15676916+0.06108015;根据风险值risk score值进行预后评估,风险值risk score值越高越危险;s5、交叉验证评估性能,获得基因甲基化预后评估模型。2.根据权利要求1所述的方法,其特征在于s1中,使用超声引导下细针穿刺活检fnac获得检测样本。3.根据权利要求1所述的方法,其特征在于s2中,提取的dna于-80℃储存于试管中。4.根据权利要求1所述的方法,其特征在于s3中,rrbs文库基于已建立的单端测序操作步骤在genome analyzerii上进行测序;对原始测序数据进行过滤和评估;获得胞嘧啶的甲基化相关信息,包括覆盖率分析、甲基化分析和dmrs分析;选用序列深度覆盖至少为10且至少被四个读数覆盖的甲基化胞嘧啶的多少来确定基因甲基化水平的高低。5.根据权利要求1所述的方法,其特征在于s4中,具体步骤为:s4-1、获取甲状腺癌临床特征在内的癌症基因组图谱tcga数据库的甲基化数据;s4-2、将tcga数据库中的ptc数据集被分离成两个独立的数据集:一个用于与来自fnac样本的rrbs的数据集合并构建预后模型;另一个数据集用作验证数据集,对所构建的模型进行验证;s4-3、将fnac ptc样品与正常对照之间的差异甲基化探针dmp通过字符串数据库映射到其相应的dmg,标记为dmg-1;s4-4、将来自tcga数据库的所有甲基化数据对应的dmg标记为dmp-2,其中验证集对应的dmg为dmg-3,验证集对应的dmg为dmg-4,dmg-3与来自rrbs测序的dmg-1进行比较,并将同时位于两个数据集中的dmg命名为dmg-5,用于构建ptc预后模型;s4-5、对dmp-5数据进行受试者工作特征曲线roc curve分析,以确定具有统计学显着性的dmps用于单因素回归分析,生存作为因变量;s4-6、将单因素回归分析筛选出的dmp进一步用于多因素回归分析;s4-7、在此基础上构建预后分类模型。6.根据权利要求1所述的方法,其特征在于s5中,通过留一法交叉验证loocv评估性能。7.根据权利要求1所述的方法,其特征在于s4中,风险值risk score值在[-0.04,0)区间表明患者的预后较好,为低风险因素组,可正常随访;在[0,0.3)区间表明患者的风险较高,为中风险因素组,可缩短随访天数至一半;在[0.3,0.6]区间则表明患者预后不良的风险高,为高风险因素组,当密切随访。8.一种分化型甲状腺癌的基因甲基化预后评估模型,其特征在于所述模型由权利要求1-7任一项所述的方法构建。
技术总结
本发明公开了一种分化型甲状腺癌的基因甲基化预后评估模型的构建方法,其特征在于它包括以下步骤:S1、获得检测样本;S2、对检测样本进行DNA提取和储存;S3、进行甲基化分析;S4、基于DNA甲基化的预后分类模型的构建,计算出的预后模型的风险值为Risk Score=0.15411928*cg03190661-0.10405129*cg15676916+0.06108015;S5、交叉验证评估性能,获得基因甲基化预后评估模型。本模型通过风险值Risk Score值用以进行甲状腺分化癌预后评估:低风险因素组,可正常随访;中风险因素组,可缩短随访天数至一半;高风险因素组,当密切随访。切随访。切随访。
技术研发人员:孔岩君
受保护的技术使用者:南京医科大学
技术研发日:2023.03.01
技术公布日:2023/8/24
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
