一种基于MAF的评价方法及装置与流程

未命名 07-23 阅读:153 评论:0

一种基于maf的评价方法及装置
技术领域
1.本发明涉及生物信息学领域,具体涉及一种基于maf的评价方法及装置。


背景技术:

2.宫颈癌、卵巢癌、子宫内膜癌是妇科三大癌症。近几十年来,宫颈癌的早筛早诊早治及预防取得了重大进展,世界范围内宫颈癌发病率和死亡率有明显下降的趋势,与宫颈癌相关的健康教育、人乳头状瘤病毒(hpv)疫苗接种、宫颈癌诊断有关。目前三大癌症中宫颈癌是国内唯一作为常规诊断的癌种。临床上宫颈癌的标准诊断方法是巴氏涂片,通过显微镜下病理检查子宫颈细胞的异常情况,以确定是否为癌症或癌前病变。目前国际研究数据已经证实hpv是大多数宫颈癌的病因,近年来,女性接受hpv病毒检测的情况越来越普遍。无论是单独检测还是与巴氏检测相结合,都能很好的帮助宫颈癌的诊断。
3.然而子宫内膜癌和卵巢癌的有效的早期诊断手段缺乏。在欧美子宫内膜癌发病率已占妇科恶性肿瘤的第一位。子宫内膜癌的高危因素包括肥胖、高血压、糖尿病、绝经延迟、不孕和长期单纯雌激素刺激等。内膜癌的高发年龄为50~60岁,以阴道不规则出血为主要表现,初次诊断时72%为ⅰ期,12%为ⅱ期,13%为ⅲ期,3%为ⅳ期,如早期发现早期治疗,预后较好。随着肥胖率和长寿率的上升,子宫内膜癌发病率上升。子宫内膜样癌i期5年生存率高达95%;而在iv期时仅为37%;浆液性和透明细胞5年生存率均低于子宫内膜样癌。子宫内膜癌临床期别不同,预后明显不同。早期发现子宫内膜癌是高度可治愈的,对于子宫内膜癌更需要及时预防、及早发现。近年来,随着子宫内膜癌的发病率显著升高,子宫内膜癌的预防和诊断越来越被临床重视。对于子宫内膜癌,目前临床上诊断手段有细胞学检查和经阴道超声(transvaginal songraphy,tvs)。但是细胞学检查特异性低。tv s用于测量子宫内膜的厚度,与细胞学一样,tvs诊断子宫内膜厚度缺乏足够的特异性,因为良性病变,如息肉,也会导致子宫内膜增厚。因此,细胞学和tvs都不能满足诊断测试的要求。
4.虽然子宫内膜癌比卵巢癌更常见,但是后者更致命。对卵巢癌症进行可靠的诊断测试的需求尤为迫切,因为体重增加或盆腔疼痛等症状往往是在疾病发展到晚期才出现的。只有20%的卵巢癌患者在诊断时处于疾病的最早阶段(i期)。发现卵巢癌并诊断出来的阶段至关重要:i期卵巢癌或子宫内膜癌患者五年生存率为95%;而到了iii期,五年生存率只有25%。发现得越早,治疗越早患者五年生存率就越高。对于卵巢癌症,目前临床上诊断手段主要是tvs评估结合血清ca-125水平。ca-125特异性不够,局限性在于其在多种良性疾病中也升高,如盆腔炎、子宫内膜异位症和卵巢囊肿。尽管tvs可以可视化卵巢,但它只能检测大肿瘤,不能明确区分良性和恶性。血清ca-125结合tvs也不能显著增加卵巢癌检出的特异性。b超发现的卵巢肿块需要通过腹腔镜或剖腹探查术进行进一步评估才能确诊。
5.综上所述,在实际临床应用中,目前无论是国际还是国内,临床上目前缺乏可靠有效的方法用于在普通人群中子宫内膜癌的诊断手段。因此,目前国内外指南并没有建议对子宫内膜癌或卵巢癌进行常规诊断。子宫内膜癌和卵巢癌新发病例的总和已经超过了宫颈癌,开发一种有效的诊断工具已成为当务之急。


技术实现要素:

6.根据第一方面,在一实施例中,提供一种基于maf的评价方法,包括:
7.数据预处理步骤,包括获取待测样本的测序数据,去除标记非“exonic”的突变,去除ui d小于阈值的突变,将待测样本的测序数据记为blindtest组,对照样本(control)记为bas eline组;
8.比对步骤,将blindtest组中的突变基因与baseline组中的突变基因做对比,对于blindt est组中任意一个样本,若其包含在baseline组中不存在的突变基因、且该基因的突变maf值(等位基因频率)大于阈值,则直接标记该样本的mafscore=1,否则mafscore=0;
9.赋值步骤,包括针对baseline组中每一个突变基因,计算其maf的平均值,记为ave_i,计算其maf的最大值,记为ave_m;
10.参照值确定步骤,包括计算所有基因平均值ave_i的第x百分位数值作为参照值,记为a ve_ref;
11.归一化步骤,包括计算blindtest组中每一个基因maf值的归一化数值mafi;
12.mafscore判定步骤,包括计算blindtest组中每一个基因maf归一化数值与最大值的差,获得差值mafd,根据所述差值判定mafscore。
13.根据第二方面,在一实施例中,提供一种基于maf的评价装置,包括:
14.数据预处理模块,包括获取待测样本的测序数据,去除标记非“exonic”的突变,去除ui d小于阈值的突变,将待测样本的测序数据记为blindtest组,对照样本(control)记为bas eline组;
15.比对模块,将blindtest组中的突变基因与baseline组中的突变基因做对比,对于blindt est组中任意一个样本,若其包含在baseline组中不存在的突变基因、且该基因的突变maf值(等位基因频率)大于阈值,则直接标记该样本的mafscore=1,否则mafscore=0;
16.赋值模块,包括针对baseline组中每一个突变基因,计算其maf的平均值,记为ave_i,计算其maf的最大值,记为ave_m;
17.参照值确定模块,包括计算所有基因平均值ave_i的第x百分位数值作为参照值,记为ave_ref;
18.归一化模块,包括计算blindtest组中每一个基因maf值的归一化数值mafi;
19.mafscore判定模块,包括计算blindtest组中每一个基因maf归一化数值与最大值的差,获得差值mafd,根据所述差值判定mafscore。
20.根据第三方面,在一实施例中,提供一种基于maf的评价设备,包括:
21.存储器,用于存储程序;
22.处理器,用于通过执行所述存储器存储的程序以实现如第一方面任一项所述的方法。
23.根据第四方面,在一实施例中,提供一种计算机可读存储介质,所述介质上存储有程序,所述程序能够被处理器执行以实现如第一方面任一项所述的方法。
24.在一实施例中,本发明通过子宫内膜癌、卵巢癌、非癌对照组20基因的检测结果分析,建立专有逻辑算法,用于子宫内膜癌和卵巢癌早期诊断。检测系统整体性能,灵敏度和
特异性均超过90%。
25.在一实施例中,本发明通过分子检测方法能够检测宫腔脱落细胞标本中是否存在癌症细胞,比常规方法更高的灵敏度和特异性。
附图说明
26.图1为一种实施例的建库及检测流程示意图;
27.图2为子宫内膜癌auc图;
28.图3为卵巢癌auc图。
具体实施方式
29.下面通过具体实施方式结合附图对本发明作进一步详细说明。在以下的实施方式中,很多细节描述是为了使得本技术能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他材料、方法所替代。在某些情况下,本技术相关的一些操作并没有在说明书中显示或者描述,这是为了避免本技术的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
30.另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
31.本文中为部件所编序号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。
32.近年液体活检技术不断发展成熟,在癌症早期检测中表现出非常令人期待的优势。在一实施例中,本发明针对现有子宫内膜癌和卵巢癌检测方法的局限,对比癌症诊断金标准病理检测结果,将细胞学检测技术结合二代测序技术和算法,开发新型检测方法,提供了一种用于早期子宫内膜癌和卵巢癌诊断的试剂盒及其使用方法和检测系统,通过取患者的子宫内脱落细胞样本,联合20基因154片段覆盖9473基因位点突变的结果,用于子宫内膜癌和卵巢癌的诊断,具有更高的灵敏度和特异性。本发明提供了无创、敏感、特异性高且简单可行的检测方法作为子宫内膜癌和卵巢癌检测的依据。
33.根据第一方面,在一实施例中,提供一种基于maf的评价方法,包括:
34.数据预处理步骤,包括获取待测样本的测序数据,去除标记非“exonic”的突变,去除uid小于阈值的突变,将待测样本的测序数据记为blindtest组,对照样本(control)记为baseline组;对照样本即为非癌对照样本;
35.比对步骤,将blindtest组中的突变基因与baseline组中的突变基因做对比,对于blindtest组中任意一个样本,若其包含在baseline组中不存在的突变基因、且该基因的突变maf值(等位基因频率)大于阈值,则直接标记该样本的mafscore=1,否则mafscore=0;mafscore=1表示该样本为患癌样本,mafscore=0表示该样本为非癌样本;
36.赋值步骤,包括针对baseline组中每一个突变基因,计算其maf的平均值,记为
ave_i,计算其maf的最大值,记为ave_m;
37.参照值确定步骤,包括计算所有基因平均值ave_i的第x百分位数值作为参照值,记为ave_ref;
38.归一化步骤,包括计算blindtest组中每一个基因maf值的归一化数值mafi;
39.mafscore判定步骤,包括计算blindtest组中每一个基因maf归一化数值与最大值的差,获得差值mafd,根据所述差值判定mafscore。
40.在一实施例中,数据预处理步骤中,uid阈值为100~3000,包括但不限于100、500、1000、1500、2000、2500、3000等等。
41.在一实施例中,数据预处理步骤中,uid阈值为100~1000。
42.在一实施例中,数据预处理步骤中,uid阈值为500。
43.在一实施例中,比对步骤中,maf的阈值为1%。
44.在一实施例中,参照值确定步骤中,第x百分位数值为第25百分位数值。
45.在一实施例中,归一化步骤中,计算公式为mafi=maf*ave_ref/ave_i。
46.在一实施例中,mafscore判定步骤中,计算公式为mafd=maf
i-ave_m。
47.在一实施例中,mafscore判定步骤中,选择mafd的第y百分位数值作为阈值,记为thre。
48.在一实施例中,mafscore判定步骤中,所述第y百分位数值为第99.0~99.9百分位数值。包括但不限于第99.0、99.1、99.2、99.3、99.4、99.5、99.6、99.7、99.8或99.9百分位数值。
49.在一实施例中,mafscore判定步骤中,若有任一个mafd》thre,则标记对应的样本的mafscore=1,否则mafscore=0。
50.在一实施例中,mafscore=1表示对应的样本为患癌样本,癌症为子宫内膜癌或卵巢癌;mafscore=0表示对应的样本为非癌样本。
51.在一实施例中,所述癌症为子宫内膜癌和/或卵巢癌。
52.在一实施例中,所述癌症为早期癌症。
53.在一实施例中,所述癌症为子宫内膜癌i期或ii期。
54.在一实施例中,所述癌症为子卵巢癌i期或ii期。
55.子宫内膜癌、卵巢癌的分期具体可参考figo分期。
56.在一实施例中,所述待测样本为体液样本或组织样本。
57.在一实施例中,所述待测样本为宫腔脱落细胞样本或血液样本。
58.在一实施例中,所述待测样本所属生物体包括动物,优选为哺乳动物,如人、老鼠、非人类灵长类动物、兔子或者其它哺乳动物,或者非哺乳动物。
59.根据第二方面,在一实施例中,提供一种基于maf的评价装置,包括:
60.数据预处理模块,包括获取待测样本的测序数据,去除标记非“exonic”的突变,去除uid小于阈值的突变,将待测样本的测序数据记为blindtest组,对照样本(control)记为baseline组;
61.比对模块,将blindtest组中的突变基因与baseline组中的突变基因做对比,对于blindtest组中任意一个样本,若其包含在baseline组中不存在的突变基因、且该基因的突变maf值(等位基因频率)大于阈值,则直接标记该样本的mafscore=1,否则mafscore=0;
62.赋值模块,包括针对baseline组中每一个突变基因,计算其maf的平均值,记为ave_i,计算其maf的最大值,记为ave_m;
63.参照值确定模块,包括计算所有基因平均值ave_i的第x百分位数值作为参照值,记为ave_ref;
64.归一化模块,包括计算blindtest组中每一个基因maf值的归一化数值mafi;
65.mafscore判定模块,包括计算blindtest组中每一个基因maf归一化数值与最大值的差,获得差值mafd,根据所述差值判定mafscore。
66.在一实施例中,数据预处理模块中,uid阈值为100~3000,包括但不限于100、500、1000、1500、2000、2500、3000等等。
67.在一实施例中,数据预处理模块中,uid阈值为100~1000。
68.在一实施例中,数据预处理模块中,uid阈值为500。
69.在一实施例中,比对模块中,maf的阈值为1%。
70.在一实施例中,参照值确定模块中,第x百分位数值为第25百分位数值。
71.在一实施例中,归一化模块中,计算公式为mafi=maf*ave_ref/ave_i。
72.在一实施例中,mafscore判定模块中,计算公式为mafd=mafi-ave_m。
73.在一实施例中,mafscore判定模块中,选择mafd的第y百分位数值作为阈值,记为thre。
74.在一实施例中,mafscore判定模块中,所述第y百分位数值为第99.0~99.9百分位数值。包括但不限于第99.0、99.1、99.2、99.3、99.4、99.5、99.6、99.7、99.8或99.9百分位数值。
75.在一实施例中,mafscore判定模块中,若有任一个mafd》thre,则标记该样本的mafscore=1,否则mafscore=0。
76.在一实施例中,所述癌症为子宫内膜癌和/或卵巢癌。
77.在一实施例中,所述癌症为早期癌症。
78.在一实施例中,所述癌症为子宫内膜癌i期或ii期。
79.在一实施例中,所述癌症为子卵巢癌i期或ii期。
80.在一实施例中,所述待测样本为体液样本或组织样本。
81.在一实施例中,所述待测样本为宫腔脱落细胞样本或血液样本。
82.在一实施例中,所述待测样本所属生物体包括动物,优选为哺乳动物,如人、老鼠、非人类灵长类动物、兔子或者其它哺乳动物,或者非哺乳动物。
83.根据第三方面,在一实施例中,提供一种基于maf的评价设备,包括:
84.存储器,用于存储程序;
85.处理器,用于通过执行所述存储器存储的程序以实现如第一方面任一项所述的方法。
86.根据第四方面,在一实施例中,提供一种计算机可读存储介质,所述介质上存储有程序,所述程序能够被处理器执行以实现如第一方面任一项所述的方法。
87.在一实施例中,本发明提供一种子宫内膜癌和卵巢癌早期诊断的试剂盒及其使用方法和检测系统,试剂盒包括组织基因组dna提取试剂,20基因154片段覆盖9473基因位点的多重pcr二代测序文库建库试剂。
88.其中组织基因组dna提取试剂用于提取子宫内脱落细胞样本中的人基因组dna。
89.多重pcr二代测序文库建库试剂盒用于后续20基因154片段覆盖9473基因位点突变的二代测序文库建库。
90.在一实施例中,所述宫腔脱落细胞样本可以来源于使用无创耗材如子宫内膜取样器获得的脱落细胞。
91.在一实施例中,所述多重pcr二代测序文库建库试剂盒检测的基因包括pten、tp53、pik3ca、pik3r1、kras、ctnnb1、fgfr2、rnf43、pole、ppp2r1a、fbxw7、akt1、apc、braf、cdkn2a、egfr、nras、mapk1、gnas、hras。本发明能够同时对20个子宫内膜癌致癌基因的多个区域中的基因突变位点进行检测,直接反映相关基因的具体突变位点。
92.在一实施例中,本发明还提供一种上述用于早期子宫内膜癌和卵巢癌诊断的试剂盒的使用方法,所述使用方法包括以下步骤:
93.样本收集,收集用于基因突变检测的宫腔脱落细胞样本;
94.样本的处理与检测;
95.基因组dna的提取,采用qiagen、天根品牌或者其他可替代品牌的组织细胞基因组提取试剂盒,通过柱法或者磁珠法提取基因组dna;
96.提取到的基因组dna采用多重pcr二代测序文库建库试剂盒进行建库。
97.使用华大dnbseq-t7/dnbseq-2000型号测序仪及对应测序试剂,pe150测序(检测仪器不受限制,也可以是其他测序仪)。使用writefq软件把测序的cal文件转化成常见的测序原始数据格式fastq存储,其中包含测序(reads)的序列信息以及其对应的测序质量信息,同时使用样本标签序列区分出不同的样本。使用anchorseq_extractumi从fastq文件中识别固定序列的位置,进一步提取分子标签信息。提取分子标签后的原始数据中,会存在少量reads包含接头信息、低质量碱基或未检出的碱基,为了保证信息分析质量,使用fastp对raw reads进行初步过滤,得到clean reads。使用bwa mem软件比对clean reads和人类参考基因组grch38。根据pair-end reads比对到参考基因组的起止位置和umi序列,构建tag-family,而每个tag-family生成一条序列,得到各位点经阈值筛选的序列碱基支持reads最多的信息,并计算出各目标位点的等位基因型和突变频率。获得每个样本的基因超级突变数据。
98.在一实施例中,数据处理系统将获得的样本的基因超级突变数据中基因突变频率转化为待测者的mafscore,根据mafscore值判断待测者是否为子宫内膜癌或卵巢癌患者。
99.在一实施例中,待测者的mafscore值的计算分为两大阶段,分别是模型建立阶段和实际检测阶段:(建立阈值过程)
100.1.模型建立阶段:旨在根据已有检测数据建立可用于实际检测的癌症筛查模型,分为以下几个步骤:
101.(1)读取实验数据,将实验数据输入计算机;
102.(2)数据预处理,去除标记非“exonic”的突变,去除uid小于100(500)的突变。假设数据预处理之后数据集中一共有n个control(非癌受试者的宫颈脱落细胞样本)、m个case(病理金标准确诊的受试者的宫颈脱落细胞样本)的突变数据;
103.(3)将n个control随机分为互不交叠的10组,记为l1、l2、
……
、l
10
,将m个case放在一组,标记为a0;
104.(4)以下第(4)至第(10)步为10折交叉验证。每次从10组control中取1组出来,与case组一起作为evaluation组,记为ti(i为交叉验证编号,i=1,2,...,10),则ti=li+a0;剩下的9组control作为baseline组,记为bi;
105.(5)将ti组中的突变基因与bi组中的突变基因做对比,对于ti组中任意一个样本,若其包含在bi组中不存在的突变基因、且该基因的突变等位基因频率maf值大于1%,则直接标记该样本的mafscore=1,否则mafscore=0;
106.(6)针对bi组中每一个突变基因,计算其maf的平均值记为ave_i,计算其maf的最大值记为ave_m;
107.(7)计算所有基因平均值ave_i的第25百分位数值作为参照值,记为ave_ref;
108.(8)计算ti和bi中每一个基因maf值的归一化数值,计算方法为mafi=maf*ave_ref/ave_i;
109.(9)计算ti和bi中每一个基因maf归一化数值与最大值的差,计算方法为mafd=mafi-ave_m,选择mafd的第99.5百分位数值作为阈值,记为thre;
110.(10)对于ti和bi组中每一个样本,若有任一基因的mafd值大于thre,则标记该样本的mafscore=1,否则mafscore=0;
111.(11)重复第(4)至第(10)步一共10次,每一轮都会有一个li被打分,最终n个control都会被打1次分,若mafscore=1,则认定为阳性,由此来计算specificity;每一轮所有的a0都会被打分,最终m个case每个会被打10次分,若mean(mafscore)》=5则认定为阳性,由此来计算sensitivity;
112.(12)输出的模型包括所有control组、case组数据,阈值thre。
113.2.实际检测阶段:旨在根据新检测数据确定样本的筛查结果,分为以下几个步骤:
114.(1)读取实验数据,将实验数据输入计算机;
115.(2)数据预处理,去除标记非“exonic”的突变,去除uid小于500的突变,新检测数据记为blindtest组,模型control记为baseline组;
116.(3)将blindtest组中的突变基因与baseline组中的突变基因做对比,对于blindtest组中任意一个样本,若其包含在baseline组中不存在的突变基因、且该基因的突变等位基因频率maf值大于1%,则直接标记该样本的mafscore=1,否则mafscore=0;
117.(4)针对baseline组中每一个突变基因,计算其maf的平均值,记为ave_i,计算其maf的最大值,记为ave_m;
118.(5)计算所有基因平均值ave_i的第25百分位数值作为参照值,记为ave_ref;
119.(6)计算blindtest中每一个基因maf值的归一化数值,计算方法为mafi=maf*ave_ref/ave_i;
120.(7)计算blindtest中每一个基因maf归一化数值与最大值的差,计算方法为mafd=mafi-ave_m,若有任一个mafd》thre,则标记该样本的mafscore=1,否则mafscore=0;
121.(8)输出样本的筛查结果mafscore。
122.在一实施例中,本发明的试剂盒通过检测宫腔脱落细胞样本中的20基因154片段覆盖9473基因位点的突变检测,通过逻辑算法得到的score进行结果判定,达到辅助诊断或筛查子宫内膜癌和卵巢癌的目的,实现了基于宫腔原位取样检测两癌的目的,采样过程无创,无需麻醉,无症状人群对该检测接受度高;相较于宫腔镜局部子宫内膜取样,在整个宫
腔内刷取样本,无取样盲区,取样效果等同于分段刮宫取样,获得的脱落细胞再经分子检测获得的体细胞突变的信息;相较于临床现有的检测手段有更高的特异性和敏感性,为早期筛查出两种癌症帮助治疗窗口前移提供了可能。
123.由于子宫、卵巢、输卵管的生理构造,子宫内膜癌其首先向宫腔内生长,在其生长过程中,包括癌前病变或癌症早期阶段,不断有大量肿瘤细胞经代谢脱落进入宫腔内。一些卵巢癌起源于输卵管,或者卵巢癌的肿瘤细胞脱落时,可能通过输卵管伞输卵管进入子宫腔内。这些细胞中含有肿瘤发生密切相关的基因,反映肿瘤形成过程,通过子宫腔取样刷获得宫腔脱落细胞,检测细胞基因组dna基因突变的情况,就可以发现肿瘤在内膜上的存在。由于这些基因从肿瘤产生初期就存在,因而能够反映肿瘤最早期的过程。
124.通过阅读以下详细描述和所附权利要求,这些和其它方面、特征和优点对于本领域普通技术人员将变得显而易见。为了避免疑问,本发明的一个方面的任何特征都可以用于本发明的任何其它方面。词语“包含”旨在表示“包括,”但不一定是“由...组成”或“由...构成”。换句话说,所列出的步骤或选项不需要是穷举性的。应注意,以下描述中给出的实施例旨在阐明本发明,而非旨在使本发明限于这些实施例本身。类似地,除非另有说明,否则所有百分比均为重量/重量百分比。除非是在工作实施例和比较实施例中,或者是在另外明确指出的情况下,否则本说明书中表示材料量或反应条件、材料物理性质和/或用途的所有数字都应理解为由词语“约”修饰。以“x至y”的形式表示的数值范围应理解为包括x和y。当针对特定特征以“x至y”的形式描述多个优选范围时,应理解还预期组合不同端点的所有范围。换句话说,在规定值的任何范围时,任何特定的上限值可以与任何特定的下限值相关联。最后,通过不定冠词“一个/种(a/an)”指代要素并不排除存在多于一个/种要素的可能性,除非上下文明确要求只有一个/种要素。因此,不定冠词“一个/种(a/an)”通常表示“至少一个/种”。
125.在公开关于本发明的特定方面(例如本发明的方法)的特征时,这样的公开也被认为适用于本发明的任何其他方面(例如本发明的试剂盒和用途),并作出必要的修正。
126.在一实施例中,本发明适合于采用宫腔脱落细胞样本的无创活检,用于定性检测从受检者宫腔脱落细胞样本提取的基因组dna中的基因突变,结合分析逻辑算法,适合于辅助诊断或者筛查子宫内膜癌和卵巢癌。
127.实施例1
128.建库及检测流程如图1所示。
129.子宫内膜癌样本的文库构建方法具体参考申请号为202211415746.x的中国专利《一种检测子宫内膜癌的引物组合、试剂盒及文库构建方法》。
130.子宫内膜癌样本建库所使用的引入如下表1所示。
131.表1
132.133.134.135.136.137.[0138][0139]
外侧引物具体为seq id no.1~308所示的核苷酸序列中,序列编号为2n的序列,n为≥0的整数。
[0140]
内侧引物具体为seq id no.1~308所示的核苷酸序列中,序列编号为2n+1的序列,n为≥0的整数。
[0141]
子宫内膜癌样本的文库构建方法的具体步骤如下:
[0142]
1.对已知突变的基因组dna标准品检测4次,每次使用25ng(浓度为2.5ng/μl),基因组dna打断后使用商品化试剂盒进行末端修复,3'端加“a”。
[0143]
配制反应体系:
[0144]
表2
[0145]
试剂体积片段化的dna10μlendrepair&a-tailingbuffer7μlendrepair&a-tailingenzymemix3μlnuclease-freewater40μl总体积60μl
[0146]
设置pcr仪参数如下:
[0147]
表3
[0148][0149]
2.将anchorseq
tm
umi adapter(15μm,for illumina,艾吉泰康)使用nuclease-fre e water提前稀释10倍到1.5μμ/μl。上一步完成3'端加“a”的样品进行带umi的接头连接。
[0150]
配制反应体系:
[0151]
表4
[0152]
试剂体积步骤1反应结束的样品60μlanchorseq
tm
umiadapter稀释液5μlnuclease-freewater10μlligationbuffer30μldnaligase5μl总体积110μl
[0153]
设置pcr仪参数如下:
[0154]
表5
[0155][0156]
3.使用igt
tm
pure beads对步骤2的接头连接后的dna样品进行纯化,得到13μl洗脱液。
[0157]
4.使用外侧引物对进行巢式pcr第一轮扩增,向反应体系中加入前述外侧混合引物对、靶向扩增试剂、与带umi的接头的特异性互补的引物anchorseq
tm
anchored primer(for i llumina),对目标区域进行巢式pcr第一轮扩增。
[0158]
外侧引物对具体为seq id no.1~308所示的核苷酸序列中,序列编号为2n的序列,n为≥0的整数。
[0159]
配制如下反应体系:
[0160]
表6
[0161]
试剂体积步骤2反应结束的样品11μlanchorseq
tm
pcrmastermix15μlanchorseq
tm
anchoredprimer2μl外侧混合引物对2μl总体积30μl
[0162]
设置pcr仪参数如下:
[0163]
表7
[0164]
[0165][0166]
5.使用igt
tm
pure beads或agencourt ampure xp磁珠对步骤4的扩增子液体的进行纯化,得到14μl洗脱液。
[0167]
6.使用内侧引物对进行巢式pcr第二轮扩增,向反应体系中加入前述外侧混合引物对、靶向扩增试剂、与带umi的接头的特异性互补的引物anchorseq
tm
anchored primer(for i llumina),对目标区域进行巢式pcr第二轮扩增。
[0168]
内侧引物对具体为seq id no.1~308所示的核苷酸序列中,序列编号为2n+1的序列,n为≥0的整数。
[0169]
配制如下反应体系:
[0170]
表8
[0171]
试剂体积步骤5反应结束的样品11μlanchorseq
tm
pcrmastermix15μlanchorseq
tm
anchoredprimer2μl内侧混合引物对2μl总体积30μl
[0172]
设置pcr仪参数如下
[0173]
表9
[0174][0175]
7.使用igt
tm
pure beads对步骤6的扩增子液体进行纯化,得到15μl洗脱液。
[0176]
8.在步骤7中获得的扩增子液体中加入文库扩增缓冲液、i5标签、i7标签和双蒸
水,进行pcr反应使扩增子两侧带上测序接头序列。
[0177]
配制如下反应体系:
[0178]
表10
[0179]
试剂体积步骤7反应结束的样品13μlanchorseq
tm
pcrmastermix15μlanchorseq
tm
udiprimer2μl总体积30μl
[0180]
设置pcr仪参数如下:
[0181]
表11
[0182][0183]
9.使用igt
tm
pure beads对步骤8的扩增子液体进行纯化,得到52μl洗脱液。用移液器吸取50μl上清液,转移到新的pcr管中,做好标记用于测序。取1μl文库,使用qubit dsdna hs assay kit进行文库浓度测序,记录文库浓度。取1μl文库使用片段分析仪进行片段长度测定。
[0184]
10.检测合格后,华大mgiseq-2000上机测序。
[0185]
卵巢癌样本的文库构建方法参照子宫内膜癌进行,具体可参见申请号为202211415748.9的中国专利《一种检测卵巢癌的引物组合、试剂盒及文库构建方法》,使用的引物如表12所示。
[0186]
外侧引物具体为表1中的seq id no.1~308所示的核苷酸序列中,序列编号为2n的序列,n为≥0的整数,且不包含seq id no.34、80、188、234所示核苷酸序列。
[0187]
内侧引物具体为seq id no.1~308所示的核苷酸序列中,序列编号为2n+1的序列,n为≥0的整数,且不包含seq id no.33、79、187、233所示核苷酸序列。
[0188]
实施例2算法优化
[0189]
从湘雅三院、湘雅二院采集得到宫腔脱落细胞合计282例,所有入组病例均获取得到病理诊断金标准的结果,子宫内膜癌21例,卵巢癌13例,非癌对照248例。使用天根血液/细胞/组织因组试剂盒(货号dp304)进行基因组dna提取,quibt检测基因组dna浓度,按照实施例1的操作方法进行样本处理和上机检测,突变数据分析。
[0190]
使用writefq软件把测序的cal文件转化成常见的测序原始数据格式fastq存储,其中包含测序(reads)的序列信息以及其对应的测序质量信息,同时使用样本标签序列区
ontrol都会被打1次分,若mafscore=1则认定为阳性,由此来计算specificity;每一轮所有的a0都会被打分,最终m个case每个会被打10次分,若mean(mafscore)》=5则认定为阳性,由此来计算sensitivity;
[0208]
(12)输出的模型包括所有control组、case组数据,阈值thre。计算所的突变,模型对子宫内膜癌的sensitivity、specificity、ppv、npv。
[0209]
模型2:卵巢癌检测模型
[0210]
(1)读取实验数据,将实验数据输入计算机;
[0211]
(2)数据预处理,去除标记非“exonic”的突变,调整uid的测序深度uid《100/500/1000/1500/2000/2500/3000,数据预处理之后针对子宫内膜癌的模型1数据集中一共有185个con trol、29个两癌case的突变数据;数据预处理之后针对卵巢癌的模型2数据集中一共有185个control、29个两癌case的突变数据。
[0212]
(3)将185个control随机分为互不交叠的10组,记为l1、l2、
……
、l
10
,将18个c ase放在一组,标记为a0;
[0213]
(4)以下第(4)至第(10)步为10折交叉验证。每次从10组control中取1组出来,与case组一起作为evaluation组,记为ti(i为交叉验证编号,i=1,2,...,10),则ti=li+a0;剩下的9组control作为baseline组,记为bi;
[0214]
(5)将ti组中的突变基因与bi组中的突变基因做对比,对于ti组中任意一个样本,若其包含在bi组中不存在的突变基因,且该基因的突变等位基因频率maf值大于1%,则直接标记该样本的mafscore=1,否则mafscore=0;
[0215]
(6)针对bi组中每一个突变基因,计算其maf的平均值记为ave_i,计算其maf的最大值记为ave_m;
[0216]
(7)计算所有基因平均值ave_i的第25百分位数值作为参照值,记为ave_ref;
[0217]
(8)计算ti和bi中每一个基因maf值的归一化数值,计算方法为mafi=maf*ave_ref/ave_i;
[0218]
(9)计算ti和bi中每一个基因maf归一化数值与最大值的差,计算方法为mafd=maf
i-ave_m,选择mafd的第99.0/99.1/99.2/99.3/99.4/99.5/99.6/99.7/99.8/99.9百分位数值作为阈值,记为thre;本实施例选择第99.6百分位数值作为阈值;
[0219]
(10)对于ti和bi组中每一个样本,若有任一基因的mafd值大于thre,则标记该样本的mafscore=1,否则mafscore=0;
[0220]
(11)重复第(4)至第(10)步一共10次,每一轮都会有一个li被打分,最终n个control都会被打1次分,若mafscore==1则认定为阳性,由此来计算specificity;每一轮所有的a0都会被打分,最终m个case每个会被打10次分,若mean(mafscore)》=5则认定为阳性,由此来计算sensitivity;
[0221]
(12)输出的模型包括所有control组、case组数据,阈值thre。计算所的突变,模型对子宫内膜癌的sensitivity,specificity,ppv,npv。
[0222]
建模方案二:两癌(子宫内膜癌+非癌对照),和非癌对照建立1个单独的计算模型,分别设计control为非癌对照、case为两癌(子宫内膜癌+卵巢癌),具体步骤如下:
[0223]
模型1:两癌(子宫内膜癌+非癌对照)检测模型
[0224]
(1)读取实验数据,将实验数据输入计算机;
[0225]
(2)数据预处理,去除标记非“exonic”的突变,调整uid的测序深度uid《100/500/1000/1500/2000/2500/3000,数据预处理之后针对子宫内膜癌的模型1数据集中一共有185个control、29个癌症(子宫内膜癌+非癌对照)case的突变数据;数据预处理之后针对卵巢癌的模型2数据集中一共有185个control、29个癌症(子宫内膜癌+非癌对照)case的突变数据。
[0226]
(3)将185个control随机分为互不交叠的10组,记为l1、l2、
……
、l
10
,将18个case放在一组,标记为a0;
[0227]
(4)以下第(4)至第(10)步为10折交叉验证。每次从10组control中取1组出来,与case组一起作为evaluation组,记为ti(i为交叉验证编号,i=1,2,...,10),则ti=li+a0;剩下的9组control作为baseline组,记为bi;
[0228]
(5)将ti组中的突变基因与bi组中的突变基因做对比,对于ti组中任意一个样本,若其包含在bi组中不存在的突变基因、且该基因的突变等位基因频率maf值大于1%,则直接标记该样本的mafscore=1,否则mafscore=0;
[0229]
(6)针对bi组中每一个突变基因,计算其maf的平均值记为ave_i,计算其maf的最大值记为ave_m;
[0230]
(7)计算所有基因平均值ave_i的第25百分位数值作为参照值,记为ave_ref;
[0231]
(8)计算ti和bi中每一个基因maf值的归一化数值,计算方法为mafi=maf*ave_ref/ave_i;
[0232]
(9)计算ti和bi中每一个基因maf归一化数值与最大值的差,计算方法为mafd=maf
i-ave_m,选择mafd的第99.0/99.1/99.2/99.3/99.4/99.5/99.6/99.7/99.8/99.9百分位数值作为阈值,记为thre;
[0233]
(10)对于ti和bi组中每一个样本,若有任一基因的mafd值大于th,则标记该样本的mafscore=1,否则mafscore=0;
[0234]
(11)重复第(4)至第(10)步一共10次,每一轮都会有一个li被打分,最终n个control都会被打1次分,若mafscore=1则认定为阳性,由此来计算specificity;每一轮所有的a0都会被打分,最终m个case每个会被打10次分,若mean(mafscore)》=5则认定为阳性,由此来计算sensitivity;
[0235]
(12)输出的模型包括所有control组、case组数据,阈值thre。计算所的突变,模型对子宫内膜癌的sensitivity,specificity,ppv,npv。
[0236]
根据计算的结果,根据该队列样本建立的模型,模型性能见下表详细数据(此处为uid100、uid500结果)。单独建立子宫内膜癌、卵巢癌模型和建立子宫内膜癌+卵巢癌模型计算得到的筛查子宫内膜癌或卵巢癌的敏感性sen、特异性spe、阳性预测值ppv、阴性预测值npv基本一致,测序深度以uid500、thre0.996最佳(可根据后续更大的样本量会通过机器学习进行优化,得到进一步优化的结果)。
[0237]
表12
[0238][0239]
表13模型对子宫内膜癌和卵巢癌检测性能
[0240][0241]
**测序深度以uid500、thre0.996。
[0242]
从表13可见,该算法用于子宫内膜癌和卵巢癌两种癌症总检出敏感性为73.5%,用于单独的子宫内膜癌检出的敏感性为85.7%,用于单独卵巢癌检出的敏感性为54%。该算法用于子宫内膜癌和卵巢癌两种癌症检出特异性为94.7%。特别是针对早期(i期+ii期)癌症,用于单独的早期子宫内膜癌检出的敏感性为81.25%,用于单独卵巢癌检出的敏感性为100%。
[0243]
图2为子宫内膜癌检测模型的受试者工作特征曲线(receiver operating characteristic,roc),roc曲线下与坐标轴围成的面积(area under curve,auc)为0.926,说明子宫内膜癌检测模型具有良好的性能。
[0244]
图3为卵巢癌检测模型的roc曲线,roc auc为0.745,说明卵巢癌检测模型具有较好的性能。
[0245]
3模型性能的验证
[0246]
从湘雅二院、长沙市妇幼采集得到另一批次宫腔脱落细胞合计96例,所有入组病例均获取得到病理诊断金标准的结果,采用建立的模型进行盲测,计算和判读。根据实际临
床病理结果和score的计算判读结果比较,计算子宫内膜癌模型的检测性能。此批次子宫内膜癌样本5例,子宫内膜非典型增生1例,非癌对照样本90例,子宫内膜非典型增生1例。根据模型,子宫内膜癌5例全部检出,子宫内膜非典型增生1例检出,非癌对照中检出8例假阳性,模型针对子宫内膜癌的敏感性为100%,针对非癌对照的特异性为92%。子宫内膜癌5例分期均为i期。证明模型用于早期子宫内膜癌筛查的性能优越。
[0247]
4宫颈癌样本的污染可能性
[0248]
从湘雅二院采集得到病理诊断金标准确认的宫颈癌(病灶局限在宫颈),宫腔脱落细胞合计2例,按照实施例1的流程进行样本dna提取、建库、突变分析,采用建立的模型进行计算和判读。2例宫颈癌阳性突变均未检出,score均为0,证明采用该检测方法获得的脱落细胞混入宫颈脱落细胞的可能性较小。
[0249]
在一实施例中,本发明提供一种子宫内膜癌和卵巢癌早期诊断的试剂盒及其使用方法和检测系统,试剂盒包括组织基因组dna提取试剂,20基因154片段覆盖9473基因位点的多重pcr二代测序文库建库试剂;其中组织基因组dna提取试剂用于提取子宫内脱落细胞样本中的人基因组dna;多重pcr二代测序文库建库试剂用于后续20基因154片段覆盖9473基因位点突变的检测。
[0250]
在一实施例中,本发明通过子宫内膜癌、卵巢癌、非癌对照组20基因的检测结果分析,建立专有逻辑算法,用于子宫内膜癌和卵巢癌早期诊断。检测系统整体性能,灵敏度和特异性均超过90%。我们通过分子检测方法能够检测宫腔脱落细胞标本中是否存在癌症细胞,比常规方法更高的灵敏度和特异性。
[0251]
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。

技术特征:
1.一种基于maf的评价方法,其特征在于,包括:数据预处理步骤,包括获取待测样本的测序数据,去除标记非“exonic”的突变,去除uid小于阈值的突变,将待测样本的测序数据记为blindtest组,对照样本记为baseline组;比对步骤,将blindtest组中的突变基因与baseline组中的突变基因做对比,对于blindt est组中任意一个样本,若其包含在baseline组中不存在的突变基因、且该基因的突变maf值大于阈值,则直接标记该样本的mafscore=1,否则mafscore=0;赋值步骤,包括针对baseline组中每一个突变基因,计算其maf的平均值,记为ave_i,计算其maf的最大值,记为ave_m;参照值确定步骤,包括计算所有基因平均值ave_i的第x百分位数值作为参照值,记为ave_ref;归一化步骤,包括计算blindtest组中每一个基因maf值的归一化数值maf
i
;mafscore判定步骤,包括计算blindtest组中每一个基因maf归一化数值与最大值的差,获得差值maf
d
,根据所述差值判定mafscore。2.如权利要求1所述的方法,其特征在于,数据预处理步骤中,uid阈值为100~3000。3.如权利要求1所述的方法,其特征在于,比对步骤中,maf的阈值为1%;或,参照值确定步骤中,第x百分位数值为第25百分位数值。4.如权利要求1所述的方法,其特征在于,归一化步骤中,计算公式为maf
i
=maf*av e_ref/ave_i。5.如权利要求1所述的方法,其特征在于,mafscore判定步骤中,计算公式为maf
d
=maf
i-ave_m。6.如权利要求1所述的方法,其特征在于,mafscore判定步骤中,选择maf
d
的第y百分位数值作为阈值,记为thre;或,mafscore判定步骤中,所述第y百分位数值为第99.0~99.9百分位数值;或,mafscore判定步骤中,若有任一个mafd>thre,则标记对应的样本的mafscore=1,否则mafscore=0。7.如权利要求6所述的方法,其特征在于,mafscore=1表示对应的样本所属生物体患有癌症;mafscore=0表示对应的样本所属生物体为健康个体,未患有癌症;或,所述癌症为子宫内膜癌和/或卵巢癌;或,所述癌症为早期癌症;或,所述癌症为子宫内膜癌i期或ii期;或,所述癌症为子卵巢癌i期或ii期;或,待测样本为宫腔脱落细胞样本;或,所述待测样本为体液样本或组织样本;或,所述待测样本为宫腔脱落细胞样本或血液样本;或,所述待测样本所属生物体包括动物。8.一种基于maf的评价装置,其特征在于,包括:数据预处理模块,包括获取待测样本的测序数据,去除标记非“exonic”的突变,去除uid小于阈值的突变,将待测样本的测序数据记为blindtest组,对照样本记为baseline组;比对模块,将blindtest组中的突变基因与baseline组中的突变基因做对比,对于
blindt est组中任意一个样本,若其包含在baseline组中不存在的突变基因、且该基因的突变maf值大于阈值,则直接标记该样本的mafscore=1,否则mafscore=0;赋值模块,包括针对baseline组中每一个突变基因,计算其maf的平均值,记为ave_i,计算其maf的最大值,记为ave_m;参照值确定模块,包括计算所有基因平均值ave_i的第x百分位数值作为参照值,记为ave_ref;归一化模块,包括计算blindtest组中每一个基因maf值的归一化数值maf
i
;mafscore判定模块,包括计算blindtest组中每一个基因maf归一化数值与最大值的差,获得差值maf
d
,根据所述差值判定mafscore。9.一种基于maf的评价设备,其特征在于,包括:存储器,用于存储程序;处理器,用于通过执行所述存储器存储的程序以实现如权利要求1~7任一项所述的方法。10.一种计算机可读存储介质,其特征在于,所述介质上存储有程序,所述程序能够被处理器执行以实现如权利要求1~7任一项所述的方法。

技术总结
一种基于MAF的评价方法及装置,评价方法包括数据预处理步骤、比对步骤、赋值步骤、参照值确定步骤、归一化步骤、MAFScore判定步骤。本发明通过子宫内膜癌、卵巢癌、非癌对照组20基因的检测结果分析,建立专有逻辑算法,用于子宫内膜癌和卵巢癌早期诊断。检测系统整体性能,灵敏度和特异性均超过90%。灵敏度和特异性均超过90%。灵敏度和特异性均超过90%。


技术研发人员:姚小明 张雅妮 徐世美 郑乐
受保护的技术使用者:深圳凯瑞思医疗科技有限公司
技术研发日:2023.04.04
技术公布日:2023/7/22
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐