利用纯合位点进行亲子鉴定的方法与流程
未命名
08-15
阅读:255
评论:0
1.本发明属于生物信息分析技术领域,特别涉及一种利用纯合位点进行亲子鉴定的方法。
背景技术:
2.基因是dna分子上携带有遗传信息的功能片断,是生物传递遗传信息的物质。dna的使用日益广泛,如进行亲子鉴定。而dna样品质量的好坏将直接关系到后续实验的成败。
3.伴随高通量测序技术的快速发展,单核苷酸多态性(snp)作为第三代遗传标记,越来越多的成为个体及亲子鉴定最新的检测手段。相对于str,snp在染色体中的分布更为广泛,数量更多,检测方法也更方便可靠。
4.现有技术中可以采用孕妇的外周血和父本进行亲子鉴定。常规的方法为根据错配率和胎儿浓度指标进行亲子鉴定。采用该方法:如果胎儿dna浓度较低,通常无法实现准确鉴定,需要重新送检;如果胎儿dna浓度较高,通常也无法实现准确鉴定,需要配合测序孕妇的白细胞,会增加成本与工作量。在这些场景下,错配率和胎儿浓度指标可能不太标准,需要结合其他指标来辅助判断。
技术实现要素:
5.本发明实施例提供了一种利用纯合位点进行亲子鉴定的方法,提供了另一种利用孕妇的外周血和父本进行亲子鉴定的方法,跟胎儿dna浓度基本不相关。在各种胎儿浓度下均可准确得到亲子鉴定的结果。该方法包括以下步骤:s101:对孕妇游离dna样本s和父本f进行测序并根据测序深度对样本s和样本f进行分型。
6.s102:根据分型结果计算两个样本的无效率p
无
或无效率p
无
与有效率p
有
的比值并根据计算结果进行亲子鉴定。
7.其中,有效率p
有
为有效位点在相反纯合子位点集x中的占比,有效位点为样本s中符合相反纯合子位点集x且能检测到胎儿信号的位点,按公式ⅰ选取样本s和样本f的位点组成相反纯合子位点集x:(ⅰ)。
8.无效率p
无
为无效位点在相同纯合子位点集x’中的占比,无效位点为样本s中符合相同纯合子位点集x’且能检测到胎儿信号的位点,按公式ⅱ选取样本s和样本f的位点组成相同纯合子位点集x’:(ⅱ)。
9.其中,na与na分别表示二态性位点a与a的观测值,n=na+na。
10.在本专利的一个方案中,在步骤s102中,计算样本s和样本f的无效率p
无
,若无效率p
无
≈0,则判断胎儿和样本f存在亲子关系。
11.在本专利的另一个方案中,在步骤s102中,计算样本s和样本f的有效率p
有
和无效
率p
无
,根据p
无
/p
有
进行亲子鉴定。
12.具体地,在步骤s102中,若p
无
/p
有
≈1,则判断胎儿和样本f不存在亲子关系;若p
无
/p
有
≈0,则判断胎儿和样本f存在亲子关系。
13.优选地,在步骤s102中,若p
无
/p
有
=0.8-1.0,可判断胎儿和样本f不存在亲子关系。
14.其中, 在步骤s102中,统计相反纯合子位点集x的总位点数,记为t;统计总的有效位点数,记为h,按公式ⅲ计算有效率p
有
:(ⅲ)。
15.其中, 在步骤s102中,统计相同纯合子位点集x’的总位点数,记为t’;统计总的无效位点数,记为h’,按公式ⅳ计算无效率p无:(ⅳ)。
16.其中, 所述孕妇游离dna样本s和父本f的测序深度为10x-100x,测序的点位数大于1000。
17.具体地,本发明实施例提供了一种利用纯合位点进行亲子鉴定的方法, 所述方法包括:s101:对孕妇游离dna样本s和父本f进行测序并根据测序深度对样本s和样本f进行分型,所述孕妇游离dna样本s和父本f的测序深度为10x-100x,测序的点位数大于1000;s102:根据分型结果计算两个样本的无效率p
无
;若无效率p
无
≈0,则判断胎儿和样本f存在亲子关系;或者,根据分型结果计算两个样本的p
无
/p
有;
若p
无
/p
有
=0.8-1.0,可判断胎儿和样本f不存在亲子关系;若p
无
/p
有
≈0,则判断胎儿和样本f存在亲子关系。
18.本发明实施例提供了一种利用纯合位点进行亲子鉴定的方法,提供了另一种利用孕妇的外周血和父本进行亲子鉴定的方法,跟胎儿dna浓度基本不相关。在各种胎儿浓度下均可准确得到亲子鉴定的结果,且方法简单。具体过程为:根据分型结果计算两个样本的无效率p
无
;若无效率p
无
≈0,则判断胎儿和样本f存在亲子关系;或者,根据分型结果计算两个样本的p
无
/p
有;
若p
无
/p
有
=0.8-1.0,可判断胎儿和样本f不存在亲子关系;若p
无
/p
有
≈0,则判断胎儿和样本f存在亲子关系。
附图说明
19.图1是本发明实施例提供的通过利用纯合位点进行亲子鉴定的方法的流程图;图2是不同浓度和模拟情况下有效率的分布图;图3是不同浓度和模拟情况下无效率的分布图;图4是不同浓度和模拟情况下无效率/有效率的分布图;图5是存在亲子关系下实际测序样本无效率、有效率及两者比值随浓度的分布图;图6是非亲子关系下实际测序样本无效率、有效率及两者比值随浓度的分布图。
具体实施方式
20.为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
21.参见图1,本发明实施例提供了一种利用纯合位点进行亲子鉴定的方法,该方法包括以下步骤:s101:对孕妇游离dna样本s和父本f进行测序并根据测序深度对样本s和样本f进行分型。
22.分型过程为:测序深度为100x时,样本s某snp位点上,测到a 95x;a5x,则胎儿信号(可以理解为小信号,a5x)比例=5/100=0.05,那么将此位点记为母本为aa纯合基因型,且出现胎儿的信号,胎儿的基因型为aa。同理,如果f样本中某位点测到a98x;a2x,则大信号(a98x)比例=98/100=0.98,那么将此位点记为父本为aa的纯合基因型。按照以上规则对s和 f 等进行分型。
23.s102:根据分型结果计算两个样本的无效率p
无
或无效率p
无
与有效率p
有
的比值(具体可以为p
无
/p
有
或p
有
/p
无
,本实施例具体为p
无
/p
有
)并根据计算结果进行亲子鉴定。
24.其中,有效率p
有
为有效位点在相反纯合子位点集x中的占比,有效位点为样本s中符合相反纯合子位点集x且能检测到胎儿信号的位点,按公式ⅰ选取样本s和样本f的位点组成相反纯合子位点集x:(ⅰ)。
25.无效率p
无
为无效位点在相同纯合子位点集x’中的占比,无效位点为样本s中符合相同纯合子位点集x’且能检测到胎儿信号的位点,按公式ⅱ选取样本s和样本f的位点组成相同纯合子位点集x’:(ⅱ)。
26.其中,na与na分别表示二态性位点a与a的观测值,n=na+na。
27.在本专利中,可以仅计算无效率p
无
,如果能得到无效率p
无
≈0,则判断胎儿和样本f存在亲子关系,则无需计算p
无
/p
有
。若无效率p
无
不约等于0,则再计算p
无
/p
有
,则可有效减少计算量。
28.当然,也可直接计算p
无
/p
有
,直接根据p
无
/p
有
进行判断。
29.在本专利的一个方案中,在步骤s102中,计算样本s和样本f的无效率p
无
,若无效率p
无
≈0,则判断胎儿和样本f存在亲子关系。
30.在本专利的另一个方案中,在步骤s102中,计算样本s和样本f的有效率p
有
和无效率p
无
,根据p
无
/p
有
进行亲子鉴定。
31.具体地,在步骤s102中,若p
无
/p
有
≈1,则判断胎儿和样本f不存在亲子关系;若p
无
/p
有
≈0,则判断胎儿和样本f存在亲子关系。
32.优选地,在步骤s102中,若p
无
/p
有
=0.8-1.0,可判断胎儿和样本f不存在亲子关系。
33.其中, 在步骤s102中,统计相反纯合子位点集x的总位点数,记为t;统计总的有效位点数,记为h,按公式ⅲ计算有效率p
有
:
(ⅲ)。
34.统计相同纯合子位点集x’的总位点数,记为t’;统计总的无效位点数,记为h’,按公式ⅳ计算无效率p无:(ⅳ)。
35.其中, 所述孕妇游离dna样本s和父本f的测序深度为10x-100x,测序的点位数大于1000。
36.具体地,本发明实施例提供了一种利用纯合位点进行亲子鉴定的方法, 该方法包括:s101:对孕妇游离dna样本s和父本f进行测序并根据测序深度对样本s和样本f进行分型。其中,孕妇游离dna样本s和父本f的测序深度为10x-100x,测序的点位数大于1000。
37.s102:根据分型结果计算两个样本的无效率p
无
;若无效率p
无
≈0,则判断胎儿和样本f存在亲子关系。
38.或者,根据分型结果计算两个样本的p
无
/p
有;
若p
无
/p
有
=0.8-1.0,可判断胎儿和样本f不存在亲子关系;若p
无
/p
有
≈0,则判断胎儿和样本f存在亲子关系。
39.是否计算p
无
/p
有
可根据是否出结果为准,如果已经得到亲子鉴定的结果,可仅计算p
无
;若p
无
无法得到鉴定结果,则必须计算p
无
/p
有
。
40.在本专利中,有效率p
有
可以理解为:选取父母本都是纯合子(基因型相反)的位点。假设这种点有500个,理论上孕妇游离dna样本在这500个点上都会出现胎儿信号。有效率就是1。然而,由于测序深度低或浓度低,有的信号位点或测不到,导致只出现了400个信号位点,则有效率为0.8。
41.无效率p
无
可以理解为:选取父母本都是纯合子(基因型相同)的位点。理论上,孕妇游离dna样本在这个位点上不应该出现胎儿信号,此时无效率为0。实际上因为测序错误,会有些点出现胎儿信号,导致实际无效率大于0,但接近于0。
42.实施例2:数据模拟过程如下:1、通过中国人群频率随机生成真父dna样本f、母本dna样本m和随机父本dna样本f’。模拟测序深度:50x-100x。通过孟德尔遗传生定律生成子代z,从0—0.4每间隔0.01进行混样,混合子代z和母本m的样本可以获得模拟的孕妇游离dna样本s,每种比例混合生成10个样本,则s样本集的样本数为400,其中s样本集中每一个样本含有位点个数>1000,且含有二态性类型包含snp和indel。
43.2、根据测序深度对s、f和f’进行snp分型。
44.3、选取s和f’为相反纯合子的位点,组成位点集x,统计总位点数,记为t。
45.4、选取s和f’为相同纯合子的位点,组成位点集x’,统计总位点数,记为t’。
46.x和x’选取方法如下:(ⅰ);(ⅱ) 。
47.5、计算有效率p
有
:如果s在位点集x中该位点有胎儿信号出现,就记为一次有效位点,统计总的有效位点数,记为h。有效率p
有
计算方法如下:。
48.6、计算无效率p
无
:如果s在位点集x’中该位点有胎儿信号出现,就记为一次无效位点,统计总的无效位点数,记为h’。无效率p
无
计算方法如下:。
49.以浓度为横轴,p
有
为y轴,画出错配情况下有效率p
有
的分布图,如图2所示;以浓度为横轴,p
无
为y轴,画出错配情况下无效率p
无
的分布图,如图3所示;以浓度为横轴,p
无
/p
有
为y轴,画出错配情况下p
无
/p
有
的分布图,如图4所示。
50.7、同理,如上,以s和f为分析对象,计算匹配情况下的有效率p
有
和无效率p
无
,分析位点集如下所示:(ⅲ);(ⅳ)。
51.按步骤5和步骤6计算方法,计算匹配情况下的有效率p
有
和无效率p
无
。以浓度为横轴,p
有
为y轴,画出匹配情况下有效率p
有
的分布图,如图2所示;以浓度为横轴,p
无
为y轴,画出匹配情况下无效率p
无
的分布图,如图3所示;以浓度为横轴,p
无
/p
有
为y轴,画出匹配情况下p
无
/p
有
的分布图,如图4所示。
52.实施例3:理论计算过程如下:1、通过中国人群频率随机生成真父dna样本f和母本dna样本m,模拟测序深度:50x-100x。通过孟德尔遗传生定律生成子代z,从0—0.4每间隔0.01进行混样,混合子代z和母本m的样本可以获得模拟的孕妇游离dna样本s ,每种比例混合生成10个样本,则s样本集的样本数为400,其中s样本集中每一个样本含有位点个数>1000,且含有二态性类型包含snp和indel。
53.2、通过中国人群频率生成生成随机父本dna样本f’。
54.3、选取s和f’为相反纯合子的位点,统计总位点数,记为t,选取方法如下:(
ⅴ
)。
55.4、计算有效率p
有
:将s中出现胎儿信号的位点记为1。未出现的位点记为0。如果,s在某一位点的基因型为aa,对应的f’在该位点的基因型为aa,该位点出现胎儿信号,则对应一个位点的有效率计算方法如下:,p(aa)代表f’在该位点aa基因型的频率。
56.如果,s在某一位点的基因型为aa,对应的f’在该位点的基因型为aa,该位点没有胎儿信号,则对应一个位点的有效率计算方法如下:。
57.累加每个位点的有效率,计算总的有效率,方法如下:。
58.其中,i为分析位点集x’对应的位点,pi为f’该位点对应的基因型的频率,ai为对应位点是否出现胎儿信号,如出现,则为1,反之为0。
59.5、计算无效率p
无
:将s中出现胎儿信号的位点记为1。未出现的位点记为0。如果,s在某一位点的基因型为aa,对应的f’在该位点的基因型为aa,该位点出现胎儿信号,则对应一个位点的无效率计算方法如下:。
60.其中,p(aa)代表f’在该位点aa基因型的频率。
61.如果,s在某一位点的基因型为aa,对应的f’在该位点的基因型为aa,该位点没有胎儿信号,则对应一个位点的无效率计算方法如下:。
62.累加每个位点的无效率,计算总的无效率,方法如下:。
63.其中,i为分析位点集x’对应的位点,pi为f’该位点对应的基因型的频率,ai为对应位点是否出现胎儿信号,如出现,则为1,反之为0。
64.以浓度为横轴,以指标值(不同曲线分别对应p
有
、p
无
或p
无
/p
有
)为y轴,分别画出存在亲子关系和非亲子关系的分布图,分别如图5和图6所示。
65.在图2中,理论随机与错配的曲线大量重合(分布图下方的两条曲线,同时浓度0.1之前和0.3之后,会随浓度的变化剧烈变化);而匹配的曲线(分布图上方的一条曲线)与理论随机和错配的曲线差距非常大且在浓度0.1之前,会随浓度的变化剧烈变化。则无法根据p
有
判断两个样本的关系。
66.在图3中,理论随机与错配的曲线大量重合(分布图上方的两条曲线,同时浓度0.1之前和0.25之后,会随浓度的变化剧烈变化);而匹配的曲线(分布图下方的一条曲线)与理论随机和错配的曲线差距非常大且不会随浓度变化而进行变化,则可采用p
无
判断两个样本为匹配关系(分布图底部的一条直线)。
67.在图4中,理论随机与错配的曲线大量重合(分布图上方的两条曲线)且不会随浓度变化而进行变化;而匹配的曲线(分布图下方的一条直线)与理论随机和错配的曲线差距非常大且基本不会随浓度变化而进行变化,则可采用p
无
/p
有
判断两个样本为匹配(分布图底部的一条直线)和非匹配关系(在0.8-1.0区间内)。
68.在图5中,在亲子关系下,p
无
/p
有
和p
无
(分布图下方的两条直线)且基本不会随浓度变化而进行变化。即p
无
/p
有
=0或者p
无
=0,可判断存在亲子关系。
69.在图6中,在非亲子关系下,p
无
/p
有
(分布图上方的一条曲线)且基本不会随浓度变化而进行变化。即p
无
/p
有
≈1,可判断存在非亲子关系
实施例4:实际测序数据过程如下:1、通过实验高通量测序分别获得母本dna样本m、子代dna样本z、真父dna样本f、其他随机父本dna样本f’的多态性位点。
70.2、按模拟1中的方式从0-0.4每间隔0.01进行混样,混合z和m的样本可以获得模拟的孕妇游离dna样本s。
71.3、根据测序深度对s、f和f’进行snp分型。
72.4、按照实施例1中步骤3-7。获得存在亲子关系下(s和f)和无亲子关系下(s和f’)有效率、无效率的分布图。分别如图4和图5所示。
73.结果表明,实际样本存在亲子关系时,无效率几乎为0,无效率/有效率的比值也接近于0(排除胎儿浓度特别低的情况),符合判断指标。当样本之间为非亲子关系时,有效率和无效率数值相近,接近1,也符合判断指标。
74.综上,实施例2-3与实施例4条件下二者的有效率、无效率和无效率/有效率分布几乎一致。胎儿与父本有亲子关系时(匹配):无效率接近0;无效率/有效率的比值接近0。
75.胎儿与父本无亲子关系时:无效率/有效率≈1。
76.综上,则可得出如下判断指标:当两个鉴定样本之间的无效率/有效率比值≈0或无效率接近0时可判断两者存在亲子关系。
77.当两个鉴定样本之间的无效率/有效率比值≈1(比值在0.8-1.0左右)时可判断两者不存在亲子关系。
78.实施例5实施例5公开了一种采用本发明的方法进行亲子鉴定的具体实例,如下;一个编号为qz40969家系,送测了孕妇外周血样本编号为qz40969s1和疑父的血液样本进行鉴定,疑父的编号为qzx40969f。通过测序分析获得qz40969s1和qzx40969f的snp分型结果,根据错配率和胎儿浓度指标(采用现有技术)可以确定该家系胎儿与疑父为亲子关系。根据本专利的步骤计算有效率和无效率。有效率为0.950;无效率为0.018,无效率为0.018≈0。符合亲子关系时(匹配)有效率和无效率的分布。
79.实施例6实施例6公开了一种采用本发明的方法进行亲子鉴定的具体实例,如下;一个编号为qz40972家系,送测了孕妇外周血样本编号为qz40972s1和疑父的毛发样本进行鉴定,疑父的编号为qzm40972f。通过测序分析获得qz40972s1和qzm40972f的snp分型结果,根据错配率和胎儿浓度指标(采用现有技术)可以确定该家系胎儿与疑父为非亲子关系。根据本专利的步骤计算有效率和无效率。有效率为0.440;无效率为0.405;无效率/有效率=0.92≈1。符合非亲子关系时(错配)有无效率/有效率的分布。
80.以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
技术特征:
1.利用纯合位点进行亲子鉴定的方法,其特征在于,所述方法包括:s101:对孕妇游离dna样本s和父本f进行测序并根据测序深度对样本s和样本f进行分型;s102:根据分型结果计算两个样本的无效率p
无
或无效率p
无
与有效率p
有
的比值并根据计算结果进行亲子鉴定;其中,有效率p
有
为有效位点在相反纯合子位点集x中的占比,有效位点为样本s中符合相反纯合子位点集x且能检测到胎儿信号的位点,按公式ⅰ选取样本s和样本f的位点组成相反纯合子位点集x:(ⅰ);无效率p
无
为无效位点在相同纯合子位点集x’中的占比,无效位点为样本s中符合相同纯合子位点集x’且能检测到胎儿信号的位点,按公式ⅱ选取样本s和样本f的位点组成相同纯合子位点集x’:(ⅱ);其中,na与na分别表示二态性位点a与a的观测值,n=na+na。2.根据权利要求1所述的利用纯合位点进行亲子鉴定的方法,其特征在于,在步骤s102中,计算样本s和样本f的无效率p
无
,若无效率p
无
≈0,则判断胎儿和样本f存在亲子关系。3.根据权利要求1所述的利用纯合位点进行亲子鉴定的方法,其特征在于,在步骤s102中,计算样本s和样本f的有效率p
有
和无效率p
无
,根据p
无
/p
有
进行亲子鉴定。4.根据权利要求3所述的利用纯合位点进行亲子鉴定的方法,其特征在于,在步骤s102中,若p
无
/p
有
≈1,则判断胎儿和样本f不存在亲子关系;若p
无
/p
有
≈0,则判断胎儿和样本f存在亲子关系。5.根据权利要求4所述的利用纯合位点进行亲子鉴定的方法,其特征在于,在步骤s102中,若p
无
/p
有
=0.8-1.0,可判断胎儿和样本f不存在亲子关系。6.根据权利要求1所述的利用纯合位点进行亲子鉴定的方法,其特征在于, 在步骤s102中,统计相反纯合子位点集x的总位点数,记为t;统计总的有效位点数,记为h,按公式ⅲ计算有效率p
有
:(ⅲ)。7.根据权利要求1所述的利用纯合位点进行亲子鉴定的方法,其特征在于, 在步骤s102中,统计相同纯合子位点集x’的总位点数,记为t’;统计总的无效位点数,记为h’,按公式ⅳ计算无效率p
无
:(ⅳ)。8.根据权利要求1所述的利用纯合位点进行亲子鉴定的方法,其特征在于, 所述孕妇游离dna样本s和父本f的测序深度为10x-100x,测序的点位数大于1000。9.根据权利要求1所述的利用纯合位点进行亲子鉴定的方法,其特征在于, 所述方法
包括:s101:对孕妇游离dna样本s和父本f进行测序并根据测序深度对样本s和样本f进行分型,所述孕妇游离dna样本s和父本f的测序深度为10x-100x,测序的点位数大于1000;s102:根据分型结果计算两个样本的无效率p
无
;若无效率p
无
≈0,则判断胎儿和样本f存在亲子关系;或者,根据分型结果计算两个样本的p
无
/p
有;
若p
无
/p
有
=0.8-1.0,可判断胎儿和样本f不存在亲子关系;若p
无
/p
有
≈0,则判断胎儿和样本f存在亲子关系。
技术总结
本发明公开了一种利用纯合位点进行亲子鉴定的方法,属于亲子鉴定技术领域。方法包括:S101:对孕妇游离DNA样本S和父本F进行测序并根据测序深度对S和F进行分型;S102:根据分型结果计算两个样本的无效率P
技术研发人员:熊露 黄奎匀 杨功达 曾丰波
受保护的技术使用者:上海蓝沙生物科技有限公司
技术研发日:2023.04.04
技术公布日:2023/8/14
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:一种救援用折叠病床的制作方法 下一篇:脱硫废液的处理方法与流程
