一种基于遗传算法的全基因组预测方法及其应用

未命名 10-18 阅读:104 评论:0


1.本发明属于生物信息领域,涉及一种基于遗传算法的全基因组预测方法及其应用。


背景技术:

2.培育优质高产、绿色高效的农作物品种是当前作物遗传育种工作的重中之重。传统的作物育种依赖于表型选择:育种家们通过在田间和实验室考察作物品系的表型,结合他们的育种经验,从中挑选出具有目标性状的品系以供进一步鉴定。然而,许多与作物的产量、品质有关的性状属于数量性状,它们由大量微效数量性状基因座控制,易受环境的影响,仅仅依靠表型进行选择是不可靠的。分子生物学的发展使得分子标记辅助选择育种成为可能,然而,分子标记辅助选择只适用于由少数主效数量性状基因座控制的性状,对作物产量、品质这样的性状,分子标记辅助选择同样无能为力。全基因组选择技术利用覆盖全基因组的高密度分子标记和作物表型构建统计模型,从而预测基因型已知但表型未知的材料的性状。全基因组选择将基因组上所有标记的效应纳入模型当中而不考虑他们的显著性水平,因而尤其适合作物产量、品质这样由微效多基因控制的数量性状。基因组最佳线性无偏估计(genomic best liner unbiased prediction,gblup)模型是全基因组选择模型当中最为稳健和通用的模型,然而,gblup模型假设所有的分子标记对目标性状具有相同的贡献,这与现代分子遗传学的结论相悖,限制了gblup方法预测精度的进一步提高。


技术实现要素:

3.本发明的目的在于提供一种基于遗传算法的基因组最佳线性无偏估计算法ga-gblup在预测杂交种农艺性状中的应用。通过ga-gblup算法可以有效提高水稻、玉米杂交种产量等农艺性状的预测力。因此,本发明可用于提高杂交种全基因组选择的准确性,在水稻、玉米杂种优势利用上具有重要意义,可以为杂交种的精准选育提供重要的技术支撑。
4.本发明的目的采用以下技术方案来实现:
5.一种基于遗传算法的全基因组预测方法,采用遗传算法选择最优的分子标记,在此基础上结合基因组最佳线性无偏估计模型来预测个体的育种值,包括以下步骤:
6.获取待预测作物的分子标记;
7.随机选择一定比例的分子标记进行遗传算法初始化,并构建基因组预测模型,计算不同分子标记子集的适合度,保留适合度较高的分子标记子集,将保留的分子标记子集以一定的比率进行突变、配对、交叉互换,产生新的分子标记子集;
8.再次计算不同分子标记子集的适合度,保留适合度较高的分子标记子集,直到达到最大迭代次数或者收敛,得到最终的分子标记子集并构建基因组最佳线性无偏估计模型。
9.进一步的,所述构建基因组预测模型的方法包括:
10.y是一个n
×
1的向量,代表一个数量性状的表型值,包含m个标记的混合线性模型
表示为:
[0011][0012]
其中x是一个n
×
q的固定效应矩阵,β是一个q
×
1的向量,表示固定效应的大小,zk是一个n
×
1的向量,代表第k个标记处所有个体的基因型,ε是一个服从n(0,iσ2)的向量,表示残差;m代表全部标记的数量,n表示样本个数,q表示固定效应的个数,γk表示第k个标记效应的大小;利用限制性极大似然估计方法来求解上述的混合线性模型,估计固定效应β和随机效应γ的大小;并基于估计的参数获得测试集的预测值,进而进行交叉验证,评价模型的预测力。
[0013]
进一步的,所述随机选择的步骤包括:将所有的m个分子标记以0/1的方式进行编码,得到一个向量δ=[δ1δ2...δm],其中δk=0表示这个标记被排除,δk=1代表这个标记被保留,上述过程随机重复100次,得到100个不同的δ向量进行ga算法初始化。
[0014]
进一步的,所述不同分子标记子集适合度的计算方法为下述方法中的任意一个,
[0015]
赤池信息准则:
[0016]
aic=2m-2ln(l)
[0017]
其中m是被估计的参数的数量,l是模型的似然值;aic表示采用赤池信息准则计算得到的适合度计算结果;
[0018]
贝叶斯信息准则:
[0019]
bic=mln(n)-2ln(l)
[0020]
其中m是被估计的参数的数量,l是模型的似然值,n是样本大小;bic表示采用贝叶斯信息准则计算得到的适合度计算结果;
[0021]
fit函数:
[0022]
fit=1-sse/sst
[0023]
其中sst是表型值的总变异平方和,sse是残差平方和;fit表示采用fit函数计算得到的适合度计算结果;
[0024]
hat函数:
[0025]
hat=1-press/sst
[0026]
其中press是混合线性模型的预测残差平方和,sst是表型值的总变异平方和;hat表示采用hat函数计算得到的适合度计算结果。
[0027]
进一步的,将保留的分子标记子集以一定的比率进行突变、配对、交叉互换,产生新的分子标记子集包括:
[0028]
将保留的分子标记向量按照每个位点0.1的概率进行1

0或者0

1的突变;每次随机选择一对δ向量两两配对,配对以后的两个δ向量之间发生交叉互换,导致两个δ向量的几个位点或者大片区域的信息发生重组;配对和交叉互换的同时产生新的分子标记向量。
[0029]
进一步的,通过10折交叉验证评价模型的预测力。
[0030]
本发明还提供一种预测作物杂交种农艺性状的方法,采用上述的方法预测作物杂交种的农艺性状。
[0031]
进一步的,所述作物为水稻或玉米。
[0032]
进一步的,所述农艺性状为由微效多基因控制的数量性状。
[0033]
进一步的,所述农艺性状包括作物产量和品质性状。
[0034]
进一步的,所述农艺性状包括产量、单株分蘖数、单穗重、千粒重和株高。
[0035]
本发明的目的在于提供一种基于遗传算法的基因组最佳线性无偏估计算法ga-gblup在预测杂交种农艺性状中的应用。
[0036]
本发明的实施例中,所述植物具体为禾本科植物水稻、玉米。所述算法具体为遗传算法和基因组最佳线性无偏估计算法。
[0037]
该方法包括如下步骤:首先在用户输入的全部分子标记中重复地随机选择1%的标记100次,得到100个不同的染色体供ga算法初始化,然后以这些染色体选择的标记分别构建基因组预测模型,由此计算不同染色体的适合度函数,保留适合度最高的5个染色体,淘汰其余的染色体,这5个染色体随后以一定的比率进行突变(代表某个位置上的标记由被选择到不被选择或不被选择到被选择的过程)、配对(两两配对,用于产生新的染色体)、交叉互换,最后产生100个新的染色体,再次以它们为标准选择标记用于构建亲缘关系矩阵,重复上面的过程直到达到最大迭代次数或者收敛。利用算法最终选择的分子标记子集构建基因组最佳线性无偏估计模型,预测训练集的表型,评价模型的预测力,在此基础上,预测所有潜在杂交种的表型,从中选出具有较好目的性状的杂交种,供田间鉴定。
[0038]
本发明提供的算法,命名为一种基于遗传算法的全基因组预测方法。
[0039]
有益效果
[0040]
本发明通过采用一种基于遗传算法的全基因组预测方法能够提高杂交种全基因组选择的准确性。ga-gblup与传统gblup方法相比,可以有效提高水稻、玉米杂交种产量、粒重、株高等农艺性状的预测力,在水稻、玉米杂交种育种上具有重要意义,为提高作物的品种选育效率提供有效的工具。
[0041]
本发明将遗传算法与传统的基因组最佳线性无偏估计方法相结合,形成了ga-gblup算法,该算法可以有效提高水稻、玉米杂交种农艺性状全基因组选择的预测力,提高杂交种全基因组选择的准确性,为作物新品种选育提供准确可靠的数字化参考依据,从而提升育种研究水平和育种效率。
附图说明
[0042]
图1为本发明的流程图。
[0043]
图2为本发明在水稻杂交种数据集上的表现。
[0044]
图3为本发明在玉米杂交种数据集上的表现。
具体实施方式
[0045]
下面结合实施例对本发明提供的技术方案进行详细的说明,但并不限定于本发明。
[0046]
下述实施例中的水稻imf2群体(hua,j.p.,xing,y.z.,wu,w.r.,xu,c.g.,sun,x.l.,yu,s.b.,&zhang,q.f.(2003).single-locus heterotic effects and dominance by dominance interactions can adequately explain the genetic basis of heterosis in an elite rice hybrid.proceedings of the national academy of sciences of the united states of america,100(5),2574-2579.)和玉米305杂交种群
体(wang,x.,zhang,z.,xu,y.,li,p.,zhang,x.,&xu,c.(2020).using genomic data to improve the estimation of general combining ability based on sparse partial diallel cross designs in maize.the crop journal,8(5),819-829.)基因型和表型数据,均可公开获取。
[0047]
实施例1
[0048]
ga-gblup算法的实现
[0049]
ga-gblup算法采用基因组最佳线性无偏估计模型来预测个体的育种值。y是一个n
×
1的向量,代表一个数量性状的表型值,包含m个标记的混合线性模型可以表示为:
[0050][0051]
其中x是一个n
×
q的固定效应矩阵,β是一个q
×
1的向量,表示固定效应的大小,zk是一个n
×
1的向量,代表第k个标记处所有个体的基因型,ε是一个服从n(0,iσ2)的向量,表示残差。m代表全部标记的数量,n表示样本个数,q表示固定效应的个数,γk表示第k个标记效应的大小。利用限制性极大似然估计方法来求解上述的混合线性模型,估计固定效应β和随机效应γ的大小;并基于估计的参数获得测试集的预测值,进而进行交叉验证,评价模型的预测力。
[0052]
ga-gblup算法主要包含如下步骤:
[0053]
1)染色体表示
[0054]
将所有的m个分子标记以0/1的方式进行编码,得到一个向量δ=[δ1δ2...δm],其中δk=0表示这个标记被排除,δk=1代表这个标记被保留,上述过程随机重复100次,得到100个不同的δ向量以供ga-gblup算法初始化。
[0055]
2)适合度计算
[0056]
对于上述每个δ向量从所有标记当中选择δk=1的标记保留,保留下来的标记用于构建基因组预测模型,按照适合度函数计算它们的适合度,所述适合度计算方法为下述方法中的任意一个,可以采用的适合度函数包括:
[0057]
赤池信息准则(aic)
[0058]
aic=2m-2ln(l)
[0059]
式中:m是被估计的参数的数量,l是模型的似然值;aic表示采用赤池信息准则计算得到的适合度计算结果。
[0060]
贝叶斯信息准则(bic)
[0061]
bic=mln(n)-2ln(l)
[0062]
式中:m是被估计的参数的数量,l是模型的似然值,n是样本大小;bic表示采用贝叶斯信息准则计算得到的适合度计算结果。
[0063]
fit函数
[0064]
fit=1-sse/sst
[0065]
式中:sst是表型值的总变异平方和,sse是残差平方和;fit表示采用fit函数计算得到的适合度计算结果。
[0066]
hat函数
[0067]
hat=1-press/sst
[0068]
其中press是混合线性模型的预测残差平方和,sst是表型值的总变异平方和。hat表示采用hat函数计算得到的适合度计算结果。
[0069]
当适合度计算完毕以后,将不同δ向量按照适合度进行排序,保留适合度最高的前5%的δ向量,淘汰其余δ向量;由10折交叉验证结果可以看出,采用fit和hat函数具有更好的效果。
[0070]
3)遗传操作
[0071]
对保留下来的5个δ向量,首先按照每个位点0.1的概率进行1

0或者0

1的突变,例如
[0072]
δ(i)=[1 0 1 1 0 0 1 0 1 1]突变前
[0073]
δ
(j)
=[1 0 1 1 0 0 1 0 0 1]突变后表示δ向量上的第9个位点从1突变成0,由此第9个位点被排除在模型之外。
[0074]
然后,我们每次随机选择一对δ向量两两配对,配对以后的两个δ向量之间发生交叉互换,导致两个δ向量的几个位点或者大片区域的信息发生重组。
[0075]
parent(i)=[1 0 1 0 0 0 1 0 1 1]
[0076]
parent
(j)
=[1 0 1 1 0 0 1 0 0 1]
[0077]
child(i)=[1 0 1 0 0 0 1 0 1 1]
[0078]
child
(j)
=[1 0 1 1 0 0 1 0 0 1]
[0079]
配对和交叉互换的同时产生新的个体,上述过程重复50次,直到产生100个不同的δ向量。
[0080]
此时再次计算不同δ向量的适合度,从中挑选适合度最高的5个个体,重复上述步骤,直到模型的适合度不再增加或者达到预定的迭代次数,利用算法最终选择的分子标记子集作为新的分子标记矩阵带入上述的混合线性模型,采用限制性极大似然法求解混合线性模型,对固定效应和随机效应的大小进行估计,在此基础上将测试数据的基因型带入混合线性模型,可以得到测试集的表型值,进一步通过10折交叉验证评价模型的预测力,在此基础上,预测所有潜在杂交种的表型,从中选出具有较好目的性状的杂交种,供田间鉴定。
[0081]
实施例2
[0082]
ga-gblup算法在水稻杂交种群体上的使用
[0083]
以水稻imf2群体278个杂交种的1619个bin标记作为基因型数据,产量、单株分蘖数、单穗重、千粒重四个性状作为表型数据。将278个杂交种随机分成均匀的10份,其中9份作为训练集,1份作为测试集,在训练集上使用结合了不同超参数的ga-gblup模型,从全部的1619个标记中挑选标记,达到指定迭代次数后,标记挑选完成。标记挑选完成以后,在训练集和测试集上,利用挑选出的标记子集构建亲缘关系矩阵,预测测试集的性状。上述过程依次进行,直到所有测试集都被预测一次,最终得到的预测值和实际值之间的决定系数作为预测精度,重复15次,以消除由ga算法造成的随机偏差。图2中虚线代表的是gblup方法的预测力,箱线图代表结合不同超参数的ga-gblup算法的预测精度,从图中不难看出,当ga-gblup算法与fit、hat适合度函数结合,能够有效提高水稻杂交种全基因组选择的预测力。对于产量、每株分蘖数、穗重、千粒重四个性状,ga-gblup算法相比于传统的gblup算法最多可以提升24.2%、12.6%、3.9%、2.2%的预测力,对于产量这样低遗传力的性状来说,具有重大的意义。
[0084]
实施例3
[0085]
ga-gblup算法在玉米杂交种群体上的使用
[0086]
以玉米305个杂交种的11255个snp标记作为基因型数据,穗重、株高两个性状作为表型数据。将305个杂交种随机分成均匀的10份,其中9份作为训练集,1份作为测试集,在训练集上使用结合了不同超参数的ga-gblup模型,从全部的11255个标记中挑选标记,达到指定迭代次数后,标记挑选完成。标记挑选完成以后,在训练集和测试集上,利用挑选出的标记子集构建亲缘关系矩阵,预测测试集的性状。上述过程依次进行,直到所有测试集都被预测一次,最终得到的预测值和实际值之间的决定系数作为预测精度,重复15次,以消除由ga算法造成的随机偏差。图3中虚线代表的是gblup方法的预测力,箱线图代表结合不同超参数的ga-gblup算法的预测精度,从图中不难看出,当ga-gblup算法与fit、hat适合度函数结合,能够有效提高玉米杂交种全基因组选择的预测力。当用于玉米穗重的预测时,ga-gblup与gblup方法相比可以提升11.2%的预测力。

技术特征:
1.一种基于遗传算法的全基因组预测方法,其特征在于,采用遗传算法选择最优的分子标记,在此基础上结合基因组最佳线性无偏估计模型来预测个体的育种值,包括以下步骤:获取待预测作物的分子标记;随机选择一定比例的分子标记进行遗传算法初始化,并构建基因组预测模型,计算不同分子标记子集的适合度,保留适合度较高的分子标记子集,将保留的分子标记子集以一定的比率进行突变、配对、交叉互换,产生新的分子标记子集;再次计算不同分子标记子集的适合度,保留适合度较高的分子标记子集,直到达到最大迭代次数或者收敛,得到最终的分子标记子集并构建基因组最佳线性无偏估计模型;将待预测作物的基因型带入基因组最佳线性无偏估计模型,得到待预测作物的表型值。2.根据权利要求1所述的基于遗传算法的全基因组预测方法,其特征在于,所述构建基因组亲缘关系矩阵预测模型的方法包括:y是一个n
×
1的向量,代表一个数量性状的表型值,包含m个标记的混合线性模型表示为:其中x是一个n
×
q的固定效应矩阵,β是一个q
×
1的向量,表示固定效应的大小,z
k
是一个n
×
1的向量,代表第k个标记处所有个体的基因型,ε是一个服从n(0,iσ2)的向量,表示残差;m代表全部标记的数量,n表示样本个数,q表示固定效应的个数,γ
k
表示第k个标记效应的大小;利用限制性极大似然估计方法来求解上述的混合线性模型,估计固定效应β和随机效应γ的大小;并基于估计的参数获得测试集的预测值,进而进行交叉验证,评价模型的预测力。3.根据权利要求1所述的基于遗传算法的全基因组预测方法,其特征在于,所述随机选择的步骤包括:将所有的m个分子标记以0/1的方式进行编码,得到一个向量δ=[δ1δ2...δ
m
],其中δ
k
=0表示这个标记被排除,δ
k
=1代表这个标记被保留,上述过程随机重复100次,得到100个不同的δ向量进行ga算法初始化。4.根据权利要求1所述的基于遗传算法的全基因组预测方法,其特征在于,所述不同分子标记子集适合度的计算方法为下述方法中的任意一个:赤池信息准则:aic=2m-2ln(l)其中m是被估计的参数的数量,l是模型的似然值;aic表示采用赤池信息准则计算得到的适合度计算结果;贝叶斯信息准则:bic=mln(n)-2ln(l)其中m是被估计的参数的数量,l是模型的似然值,n是样本大小;bic表示采用贝叶斯信息准则计算得到的适合度计算结果;fit函数:fit=1-sse/sst其中sst是表型值的总变异平方和,sse是残差平方和;fit表示采用fit函数计算得到
的适合度计算结果;hat函数:hat=1-press/sst其中press是混合线性模型的预测残差平方和,sst是表型值的总变异平方和;hat表示采用hat函数计算得到的适合度计算结果。5.根据权利要求1所述的基于遗传算法的全基因组预测方法,其特征在于,将保留的分子标记子集以一定的比率进行突变、配对、交叉互换,产生新的分子标记子集包括:将保留的分子标记向量按照每个位点0.1的概率进行1

0或者0

1的突变;每次随机选择一对δ向量两两配对,配对以后的两个δ向量之间发生交叉互换,导致两个δ向量的几个位点或者大片区域的信息发生重组;配对和交叉互换的同时产生新的分子标记向量。6.根据权利要求1所述的基于遗传算法的全基因组预测方法,其特征在于,通过10折交叉验证评价模型的预测力。7.一种预测作物杂交种农艺性状的方法,其特征在于,采用权利要求1所述的方法预测作物杂交种的农艺性状。8.根据权利要求7所述的预测作物杂交种农艺性状的方法,其特征在于,所述作物为水稻或玉米;所述农艺性状为由微效多基因控制的数量性状。9.根据权利要求7所述的预测作物杂交种农艺性状的方法,其特征在于,所述农艺性状包括作物产量和品质性状。10.根据权利要求7所述的预测作物杂交种农艺性状的方法,其特征在于,所述农艺性状包括产量、单株分蘖数、单穗重、千粒重和株高。

技术总结
本发明属于生物信息领域,涉及一种基于遗传算法的全基因组预测方法及其应用,采用基因组最佳线性无偏估计模型来预测个体的育种值,包括以下步骤:获取待预测作物的分子标记;从中重复地随机选择一定比例的分子标记子集供遗传算法初始化,并构建基因组预测模型,计算不同分子标记子集的适合度,保留适合度较高的分子标记子集,将保留的分子标记子集以一定的比率进行突变、配对、交叉互换,产生新的分子标记子集;再次计算不同分子标记子集的适合度函数,保留适合度较高的分子标记子集,直到达到最大迭代次数或者收敛,得到最终的分子标记子集并构建基因组最佳线性无偏估计模型用于全基因组预测。本发明方法可用于提高杂交种全基因组选择的准确性,可以为杂交种的精准选育提供重要的技术支撑。供重要的技术支撑。供重要的技术支撑。


技术研发人员:徐扬 张宇翔 周恺 于广宁 李成 杨文艳 王欣 徐辰武 杨泽峰 鲁月 陈茹佳 陶天云 李鹏程
受保护的技术使用者:扬州大学
技术研发日:2023.06.21
技术公布日:2023/10/11
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐