基于遗传算法的动植物评价方法、装置、设备及介质与流程

未命名 09-22 阅读:115 评论:0


1.本技术涉及数据处理领域,尤其是涉及到一种基于遗传算法的动植物评价方法、装置、设备及介质。


背景技术:

2.在现代农业中,为了获得表现更好的动植物,通常需要对动植物繁殖很多代,并观察每一代的表现。例如,对水稻进行多次杂交实验,得到高产水稻或抗病能力强的水稻等,而多代繁育实验耗费大量时间成本以及资金成本。基于此,将遗传算法引入动植物育种过程中,提取要模拟的基因并利用遗传算法实现基因对的交叉以及突变,从而模拟动植物的杂交以及变异过程,以提高动植物育种实践工作效率。然而,由于遗传算法中交叉以及突变是随机的事件,因此存在一定的盲目性,需要大量实验多次迭代得到目标解,导致效率低下,并且有陷入局部最优导致目标解对应的动植物不够优质的可能。


技术实现要素:

3.有鉴于此,本技术提供了一种基于遗传算法的动植物评价方法、装置、介质及设备,解决现有方案要迭代次数过多且目标解不够优质的问题。
4.本技术的第一方面,提供了一种基于遗传算法的动植物评价方法,所述方法包括:
5.获取评价指标,根据所述评价指标确定待评分的初始基因,并确定所述初始基因所在的染色体为初始染色体;
6.为所述初始染色体上每个基因所在位置设置预设变异率,并增大所述初始基因所在位置对应的预设变异率,得到所述初始基因所在位置对应的目标变异率;
7.利用遗传算法根据预设交叉率、所述预设变异率以及所述目标变异率对所述初始染色体进行遗传模拟,得到目标染色体;
8.将所述目标染色体的基因编码输入预设神经网络模型;
9.在所述预设神经网络模型中,根据所述基因编码对应的蛋白质的性质和/或作用、以及所述蛋白质在生物信号通路中的作用,确定所述目标染色体的评价分数;若所述评价分数高于预设阈值,则确定所述评价分数对应的基因编码为优质基因。
10.本技术的第二方面,提供了一种基于遗传算法的动植物评价装置,所述装置包括:
11.初始化模块,用于获取评价指标,根据所述评价指标确定待评分的初始基因,并确定所述初始基因所在的染色体为初始染色体;
12.迭代模块,用于为所述初始染色体上每个基因所在位置设置预设变异率,并增大所述初始基因所在位置对应的预设变异率,得到所述初始基因所在位置对应的目标变异率;以及,利用遗传算法根据预设交叉率、所述预设变异率以及所述目标变异率对所述初始染色体进行遗传模拟,得到目标染色体;
13.评价模块,用于将所述目标染色体的基因编码输入预设神经网络模型;以及,在所述预设神经网络模型中,根据所述基因编码对应的蛋白质的性质和/或作用,以及所述蛋白
质在生物信号通路中的作用,确定所述目标染色体的评价分数;以及,若所述评价分数高于预设阈值,则确定所述评价分数对应的基因编码为优质基因。
14.本技术的第三方面,提供了一种电子设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的指令或代码,所述处理器执行所述指令或代码时实现上述基于遗传算法的动植物评价方法。
15.本技术的第四方面,提供了一种存储介质,其上存储有指令或代码,所述指令或代码被处理器执行时实现上述基于遗传算法的动植物评价方法。
16.上述基于遗传算法的动植物评价方法、装置、设备及介质所实现的方案,利用遗传算法模拟动植物的繁育以及基因突变,通过多次迭代得到优势染色体,进而根据优势染色体筛选出表现较好的动植物个体,利用筛选出的动植物个体进行育种。在此过程中,可根据实际需要设置不同的评价指标,并提高与评价指标相关的基因的变异率,而变异率越高的基因其发生基因突变的概率越高,因此与评价指标相关的基因突变的概率更高,从而实现对染色体进行有针对性的变异,以实现有方向地进化,相较于传统方法,上述方法的方向性强,可在更少的迭代次数下得到更符合需求的后代,进而得到更高的收益。相较于传统的杂交得到优良品种的方法,该方案耗时短,效率高,成本低。
17.上述说明仅是本技术技术方案的概述,为了能够更清楚了解本技术的技术手段,而可依照说明书的内容予以实施,并且为了让本技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本技术的具体实施方式。
附图说明
18.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
19.图1示出了本技术实施例提供的一种基于遗传算法的动植物评价方法的示意图;
20.图2示出了本技术实施例提供的另一种基于遗传算法的动植物评价方法的流程示意图;
21.图3示出了本技术实施例提供的一种基于遗传算法的动植物评价装置的结构框图;
22.图4示出了本技术实施例提供的一种电子设备的结构框图。
具体实施方式
23.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
24.本技术实施例提供的基于遗传算法的动植物评价方法,可以应用在具有指令或程序运行能力的电子设备。其中,电子设备可以但不限于各种服务器、工作站、个人计算机、笔记本电脑等。运行在不同的运算设备仅是方案在执行主体上的差异,本领域人员可预见在
不同运算设备中运行能够产生相同的技术效果。下面通过具体的实施例对本发明进行详细的描述。
25.请参阅图1所示,图1为本发明实施例提供的基于遗传算法的动植物评价方法的一个流程示意图,包括如下步骤:
26.s10:获取评价指标,根据评价指标确定待评分的初始基因,并确定初始基因所在的染色体为初始染色体。
27.本发明提供的方法,可通过迭代进化的方法模拟生成新的基因,并对其进行分析,得到与评价指标的优势基因,进而根据优势基因来生成相应的培育计划,指导动植物繁殖。其中,评价指标可根据实际业务需求设置。
28.例如,对于奶牛育种研究项目,可将牛奶产量作为评价指标,根据现有研究,已知奶牛的某些基因可能影响牛奶产量,则可将这些基因作为待评分的初始基因,其所在的染色体为初始染色体,进而利用遗传算法进行迭代,分析迭代产生的每个子代的表现,进而确定该基因是何种结构时,牛奶产量更高,这种结构的基因即为优势基因。对现有奶牛进行基因检测,得到携带优势基因的奶牛,并利用携带优势基因的奶牛进行繁育。相较于其他奶牛而言,携带优势基因的奶牛繁育得到的后代同样携带优势基因的概率更高,因此,通过这样的培育计划,可以得到高产奶牛,有利于优良品种的培育,得到更高的产量。
29.基于此,该实施例首先根据评价指标确定待评分的初始基因,并确定初始基因所在的染色体为初始染色体。可以理解的是,每条染色体由多个基因构成,每个基因由一串碱基字母表示。其中,待评分的初始基因可根据实际需求确定,是可能对目标变异方向有影响的基因。例如,若评价指标是家禽抵抗禽流感的能力,则寻找可能对抵抗力有影响的基因作为初始基因。
30.s20:为初始染色体上每个基因所在位置设置预设变异率,并增大初始基因所在位置对应的预设变异率,得到初始基因所在位置对应的目标变异率;
31.有别于传统的随机突变的方法,该步骤进行有一定方向性的突变,使得突变后的家禽有更高概率获得抵抗禽流感的基因。
32.在具体应用中,首先为染色体上每个基因设置预设变异率,然后调整染色体上初始基因所在位置的突变率至目标突变率,而染色体其他基因所在位置的突变率保持预设突变率不变,其中,目标突变率大于预设突变率,预设突变率以及目标突变率的具体数值可根据历史经验确定。例如,若确定染色体中第3-10位基因可能是与家禽抵抗力相关的基因,则可提高这段基因所在位置对应的预设突变率,得到相应的目标突变率;而其他位置的突变率仍为预设突变率,保持不变。在确定染色体上要进行变异操作的基因时,有更高的概率选择突变率高的基因,因此更有可能选择这段与产奶量相关的基因进行变异,以促使产生更多种不同的抵抗力基因组合,进而在其中筛选出表现最好的基因。相较于传统的遗传算法只能进行随机突变,这种有方向的突变方式的优化效率更高、目标更明确、解决的问题更聚焦,可通过更少的迭代次数中得到需要的结果。
33.s30:利用遗传算法根据预设交叉率、预设变异率以及目标变异率对初始染色体进行遗传模拟,得到目标染色体。
34.在该步骤中,利用遗传算法对初始染色体进行迭代,得到目标染色体。可以理解的是,遗传算法(genetic algorithm,ga)是模拟达尔文生物进化论的自然选择和遗传学机理
的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法,包括交叉、变异、选择等步骤。
35.在一个可能的具体应用场景中,遗传算法包括如下步骤:
36.步骤1:将问题变量域表示为一条固定长度的染色体,选择染色体种群的大小、交叉概率和突变概率;
37.步骤2:定义一个适应度函数来度量问题域中单个染色体的性能或适应度;
38.步骤3:随机生成大小为n的染色体初始种群;
39.步骤4:计算每个染色体的适应度;
40.步骤5:从当前种群中选择一对染色体进行配对,选择亲本染色体的概率与其适应度有关;
41.步骤6:通过遗传操作——交叉和突变,创建一对子代染色体;
42.步骤7:将创建的后代染色体放入新的种群中;
43.步骤8:重复步骤5,直到新染色体种群的大小与初始染色体种群的大小n相等;
44.步骤9:用新的后代染色体种群替换初始亲本染色体种群;
45.步骤10:转到步骤4,重复此过程,直到满足终止条件。
46.在该实施例中,将待评分的初始基因所在的染色体作为问题变量域。例如本次进化模拟的目的是找到能够提高奶牛的产奶量的基因,则问题变量域为现有所知的所有可能与奶牛产奶量有关的基因所在的染色体。每条染色体由n个基因构成,每个基因由一串碱基字母表示。染色体种群的大小、交叉概率和突变概率可以人为任意选择,依据实际需求而定,其中,交叉概率可以设为100%,也即所有后代都是通过杂交产生的。设计适应度函数,适应度函数可表示染色体的性能,适应度函数为在繁殖过程中选择要被遗传的染色体奠定了基础,其中,适应度函数的设置方法与现有遗传算法的适应度函数设置方法相同。然后随机生成大小为n的染色体初始种群,初始种群中包括n条染色体,分别记为x1,x2,
……
,xn。根据适应度函数,分别计算每个染色体的适应度,记为f(x1),f(x2),

f(xn)。从当前种群中选择一对染色体进行配对,并对这对染色体进行交叉以及变异操作,得到一对子代染色体。其中,染色体被选中的概率与其适应度有关,可选择适应度较高的亲本染色体进行交叉变异操作。将交叉变异得到的子代染色体加入新的种群中,重复选择一对染色体进行交叉变异并加入新的种群的操作,直至新的种群的大小也达到n,用新的种群替换初始亲本染色体种群,完成一次迭代操作。返回至计算每个染色体适应度的步骤,后续步骤均针对于新的初始亲本染色体种群,以此类推,多次迭代重复,直至满足终止条件。
47.该实施例利用遗传算法模拟进化过程,相较于传统的杂交实验,该实施例的模拟过程利用计算机实现,因此效率更高,成本更低。
48.其中,步骤s30中,利用遗传算法根据预设交叉率、预设变异率以及目标变异率对初始染色体进行遗传模拟,得到目标染色体,包括如下步骤:
49.s31:构建初始染色体对应的初始种群,并将初始种群作为迭代种群,初始种群中的染色体作为迭代染色体;
50.s32:根据预设适应度函数分别计算每个所述迭代染色体的适应度;
51.s33:根据适应度、预设交叉率、预设变异率以及目标变异率,对迭代染色体进行交叉操作以及变异操作,得到子代染色体;
52.s34:将子代染色体作为新的迭代染色体,形成新的迭代种群,并返回至根据预设适应度函数分别计算每个所述迭代染色体的适应度的步骤,直至满足预设终止条件;
53.s35:在迭代种群中的迭代染色体中确定目标染色体。
54.在步骤s31-s35中,在具体运算过程中,通过对群体中具有某种结构形式的个体进行遗传操作,从而生成新的群体,逐渐逼近最优解。在求解过程中设定一个固定规模的种群,种群中的每个个体都表示问题的一个可能解,个体适应环境的程度用适应度函数判断,适应度差的个体被淘汰,适应度好的个体得以继续繁衍,繁衍的过程中可以经过选择、交叉、变异,形成新的族群,如此往复,最后得到更多更好的解。
55.具体地,首先进行种群初始化操作,生成一个代表问题可能潜在解集的一个初始种群。在种群初始化过程中,可根据实际应用场景,结合历史经验设定种群规模,具体地,种群规模大,则可以避免陷入局部最优;种群规模小,则可以降低运算量。将初始种群记作迭代种群,初始种群中的染色体记作迭代染色体。
56.然后对所有的染色体进行选择操作,根据每个染色体的适应度,按照优胜劣汰的原则淘汰劣势染色体。具体地,计算每个染色体的适应度函数,适应度越高则认为染色体越优质,因此利用适应度较高的染色体作为亲本染色体,得到子代染色体,而适应度较低的染色体则不留下后代,利用这样的方式得到新的迭代种群。在具体应用过程中,可采用轮盘赌选择法、锦标赛选择法等实现适应度较高的染色体的选择,也可根据实际需求采用其他选择策略。
57.其中,利用对迭代染色体进行交叉以及变异操作的方式得到子代染色体。可以理解的是,交叉是有性生殖。它结合了来自双亲的遗传物质,以产生优秀的后代。随机选择一个双亲染色体断裂的交叉点,然后交换该点之后的染色体部分,即产生了两个新的后代。突变是一种改变染色体上一个或多个基因值的遗传操作,染色体上每个基因变异的可能性取决于该基因所在位置对应的变异率,由于变异可将某基因的碱基对突变成新的碱基对,因此通过变异引入了随机性。通过交叉以及变异可以模拟自然进化过程。
58.通过上述步骤,完成了一次迭代操作,在实际应用过程中,可反复循环进行上述迭代操作,通过多次迭代得到表现较好的染色体,也即目标染色体。
59.其中,预设终止条件与评价指标相对应。
60.相应地,在步骤s35中,在迭代种群中的迭代染色体中确定目标染色体,包括:
61.s351:在迭代种群中,确定与预设终止条件对应的迭代染色体为目标染色体。
62.具体地,根据实际业务需求确定评价指标,进而根据评价指标确定预设终止条件。例如,若实际业务需求为找到不易感染禽流感病毒的家禽并进行培育,评价指标为家禽抗禽流感的能力,则可寻找可能对抵抗力有影响的基因作为初始基因,其所在的染色体为初始染色体,预设终止条件为迭代种群中某个迭代染色体对应的基因编码所形成的蛋白质与禽流感病毒的结合率为0,该迭代染色体即为目标染色体。在实际应用过程中,该预设终止条件也可设置为结合率小于一个接近0的数值,以避免始终无法达到预设终止条件。
63.该实施例有别于传统的以迭代次数作为终止条件的方法,而是根据目标变异方向设置终止条件,保证了最终结果是需要的结果。同时也避免在已经取到需要的结果的情况下继续进行迭代,导致运算量增大,浪费时间。
64.其中,步骤s33中,根据适应度、预设交叉率、预设变异率以及目标变异率,对迭代
染色体进行交叉操作以及变异操作,得到子代染色体,包括如下步骤:
65.s321:根据适应度以及预设交叉率,在迭代染色体中随机选择至少一对待交叉基因,并交换一对待交叉基因的位置,得到子代染色体;
66.s322:根据适应度、预设变异率以及目标变异率,在迭代染色体中确定至少一个待变异基因,并将待变异基因改变成为与目标变异方向对应的目标基因,得到子代染色体。
67.在步骤s321-s322中,具体地,根据适应度以及预设交叉率在迭代染色体中选择要进行交叉操作的若干对染色体,并确定每对染色体上要进行交叉操作的基因,进而交换这对基因,以得到一对新的染色体,也即子代染色体。其中,要交叉操作的基因可以是一段基因,也可以是一个基因,还可以是若干段基因或若干个基因。例如,可在染色体中确定一个交叉点,在该交叉点之后的基因作为要进行交叉操作的基因;也可在染色体中确定两个交叉点,在两个交叉点之间的基因作为要进行交叉操作的基因;还可在染色体中确定一个交叉点,恰好位于该交叉点的基因作为要进行交叉操作的基因。可以理解的是,适应度越高,被选中进行交叉操作的概率越高;适应度越低,被选中进行交叉操作的概率越低;预设交叉率越高,则进行交叉操作的染色体越多;预设交叉率越低,则进行交叉操作的染色体越少。
68.变异操作则是选择要进行变异操作的若干染色体,并根据染色体中每个基因对应位置的变异率,确定该染色体上要进行变异操作的基因,进而对该基因进行突变,改变该基因内部的碱基结构,以得到新的染色体,也即子代染色体。其中,同一条染色体中要进行变异操作的基因可以为一个,也可以为多个。可以理解的是,每条染色体的适应度不同,适应度越高,被选中进行变异操作的概率越高;适应度越低,被选中进行变异操作的概率越低;染色体中每个基因的变异率可以不同,初始基因所在位置的变异率为目标变异率,高于其他位置对应的变异率也即预设变异率,如前述实施例中,染色体中第3-10位基因可能是与家禽抵抗力相关的基因,初始基因对应的位置位第3-10位,因此在每次迭代过程中,每条染色体第3-10位对应的变异率均为目标变异率,而每条染色体中其他位置对应的变异率均为预设变异率。变异率越高,则该基因进行变异操作的概率越高;变异率越低,则该基因进行变异操作的概率越低。
69.s40:将目标染色体的基因编码输入预设神经网络模型;
70.s50:在预设神经网络模型中,根据基因编码对应的蛋白质的性质和/或作用、以及蛋白质在生物信号通路中的作用,确定目标染色体的评价分数。
71.s60:若评价分数高于预设阈值,则确定评价分数对应的基因编码为优质基因。
72.在步骤s40-s60中,根据目标染色体的基因编码为目标染色体打分,若得分达到预设阈值,则可认为其对应的基因编码为优质基因,目标染色体为优势染色体,进而可基于优势染色体生成相应的培育计划。筛选出携带优质基因的动植物个体,并对其进行优质品种的培育,以得到更好的后代。
73.在该实施例中,预先设计神经网络模型,在模型中根据基因序列与蛋白性质、生物信号通路的关系来完成评分过程。具体地,在预设神经网络模型中,综合分析基因序列与蛋白性质、功能、生物信号通路的关系,得到蛋白质的性质和/或作用、以及蛋白质在生物信号通路中的作用,因此可以预测出携带该基因的动植物所具有的表现特点,并将其作为制定培育计划的依据,方向更加明确。此外,有别于传统的遗传算法最多只考虑到某个基因层面的抑制或开启状态,该实施例通过蛋白质的分析,进一步深入到基因内部的每个碱基的突
变及其对应的蛋白结构和功能,分析更加深入。
74.该实施例基于实际业务需求对应的评价指标,利用遗传算法有方向性地模拟动植物的繁育以及基因突变,通过多次迭代得到优势基因以及优势染色体,进而指导生成培育计划。相较于传统的随机的盲目的方法,该实施例目的性强,因此耗时短,效率高,成本低,同时降低了陷入局部最优解导致目标染色体不够优质的概率。
75.其中,步骤s50中,根据基因编码对应的蛋白质的性质和/或作用、以及蛋白质在生物信号通路中的作用,确定目标染色体的评价分数,包括如下步骤:
76.s51:确定基因编码对应的蛋白质的性质和/或作用为第一预测值;
77.s52:根据蛋白质在生物信号通路中的作用构建知识图谱网络,并将知识网络图谱作为第二预测值;
78.s53:根据第一预测值以及第二预测值,确定目标染色体的评价分数。
79.在步骤s51-s53中,对目标染色体的基因编码对应的蛋白质进行评分,得到评价分数。在具体应用过程中,预测因素为基因序列,将值染色体对应的基因编码输入神经网络模型中,得到基因编码对应的蛋白质的性质以及功能中的至少一个,将其作为第一预测值;同时得到蛋白质在生物信号通路中的作用,并基于作用构建知识网络图谱,将其作为第二预测值。综合分析第一预设值以及第二预测值,例如,可对第一预设值以及第二值进行加权处理,得到最终的评价分数。
80.其中,步骤s51中,确定基因编码对应的蛋白质的性质和/或作用为第一预测值,包括如下步骤:
81.s511:确定基因编码对应的蛋白质与其他蛋白质之间的相互作用关系为预测作用;
82.s512:确定基因编码对应的蛋白质与预设药物之间的结合关系为第一预测性质;
83.s513:确定基因编码对应的蛋白质对蛋白质受体的亲和力为第二预测性质;
84.s514:将预测作用、第一预测性质以及第二预测性质中的至少一个作为第一预测值;或,对预测作用、第一预测性质以及第二预测性质中的至少两个进行加权求和,得到第一预测目标值。
85.在步骤s511-s514中,第一预测值由预测作用、第一预测性质以及第二预测性质中的至少一个确定,其中,预测作用标识基因编码对应的蛋白质与其他蛋白质之间的相互作用关系。可以理解的是,对于动植物,其不同的基因编码可生成不同表现的蛋白质,而蛋白质之间可以相互作用并传导信号,构成生物信号通路的基本单元。基于此,可将蛋白质之间的相互作用关系作为第一预设值的一个影响因素。
86.此外,蛋白质与药物的结合率也影响动植物的表现,因此,可将基因编码对应的蛋白质与预设药物之间的结合关系作为第一预设值的影响因素。例如,可利用具体的结合率数值表示第一预测性质,结合率为0-1之间的数值,若蛋白质与药物结合则为1,若不结合则为0;若同时确定蛋白质与多种药物之间的结合关系,也可利用向量作为第一预测性质,向量中每个元素分别表示蛋白质与一种药物之间的结合率。可以理解的是,在实际应用过程中,也可采用其他数值表示结合率,如表示为1-10之间的数值等。
87.进一步地,蛋白质对蛋白质受体的亲和力也影响动植物的表现,因此,可将基因编码对应的蛋白质对蛋白质受体的亲和力作为第一预设值的影响因素。与药物的结合率类
似,也可利用具体的亲和力数值表示第二预测性质,数值越大则亲和力越强,反之则越弱。
88.其中,步骤s52中,根据蛋白质在生物信号通路中的作用构建知识图谱网络,包括如下步骤:
89.s521:以多个基因编码对应的蛋白质作为节点,以每两个基因编码对应的蛋白质之间的相互作用关系为边,构建知识图谱网络。
90.在步骤s521中,根据蛋白质的相互作用构建知识图谱网络。如前所述,不同的基因编码可生成不同表现的蛋白质,而蛋白质之间可以相互作用并传导信号,基于此,将某一动植物体内的每个基因编码对应的蛋白质作为一个节点,每两个节点所代表的蛋白质之间的相互作用关系为边,利用节点和边构建知识网络图谱。具体地,例如,a基因序列可提高奶牛的产奶量,b基因序列可提高奶牛的免疫力,而a基因序列对应的蛋白质对b基因序列对应的蛋白质有负面作用,则可认为同时携带a、b基因序列的奶牛,虽然产奶量高,但是免疫力较低,容易生病,因此这样的奶牛不是优质奶牛,在制定培育计划时,不以这样的奶牛作为种牛。
91.该实施例通过构建知识图谱网络,从多角度考虑了动植物的表现,避免选择仅单一角度表现较好,而其他角度存在劣势的动植物进行培育,导致收益降低。
92.其中,在步骤s40之前,方法还包括如下步骤:
93.s401:获取现有基因并将现有基因作为模型输入;
94.s402:获取现有基因的蛋白质对应的性能和/或功能并作为第一输出;
95.s403:根据现有基因的蛋白质在生物信号通路中的作用构建知识图谱网络,并作为第二输出;
96.s404:利用模型输入、第一输出以及第二输出训练预设神经网络模型。
97.在步骤s401-s404中,在利用神经网络模型计算得分之前,首先对神经网络模型进行训练,依据现有的基因及其蛋白质的性质和功能、以及信号通路知识图谱,调整模型的参数,以使模型的计算结果更加精准。具体地,将现有基因作为模型的输入,将蛋白质的性能和/或功能、以及信号通路知识图谱作为模型的输出,在已知模型输入以及输出的情况下,对模型的参数进行调整。
98.图2示出了本技术另一个实施例提供的基于遗传算法的动植物评价方法的流程示意图,如图所示,包括如下步骤:
99.s001:获取现有基因并将现有基因作为模型输入;
100.s002:获取现有基因的蛋白质对应的性能和/或功能并作为第一输出;
101.s003:根据现有基因的蛋白质在生物信号通路中的作用构建知识图谱网络,并作为第二输出;
102.s004:利用模型输入、第一输出以及第二输出训练预设神经网络模型;
103.s005:获取评价指标,根据评价指标确定待评分的初始基因,并确定初始基因所在的染色体为初始染色体;
104.s006:为初始染色体上每个基因所在位置设置预设变异率,并增大初始基因所在位置对应的预设变异率,得到初始基因所在位置对应的目标变异率;
105.s007:构建初始染色体对应的初始种群,并将初始种群作为迭代种群,初始种群中的染色体作为迭代染色体;
106.s008:根据预设适应度函数分别计算每个所述迭代染色体的适应度;
107.s009:根据适应度以及预设交叉率,在迭代染色体中随机选择至少一对待交叉基因,并交换一对待交叉基因的位置,得到子代染色体;
108.s010:根据适应度、预设变异率以及目标变异率,在迭代染色体中确定至少一个待变异基因,并将待变异基因改变成为与目标变异方向对应的目标基因,得到子代染色体;
109.s011:将子代染色体作为新的迭代染色体,形成新的迭代种群;
110.s012:判断是否满足预设终止条件;若满足,则跳转至步骤s013;若不满足,则跳转至步骤s008;
111.s013:在迭代种群中,确定与预设终止条件对应的迭代染色体为目标染色体;
112.s014:将目标染色体的基因编码输入预设神经网络模型;
113.s015:在预设神经网络模型中,确定基因编码对应的蛋白质与其他蛋白质之间的相互作用关系为预测作用,确定基因编码对应的蛋白质与预设药物之间的结合关系为第一预测性质,确定基因编码对应的蛋白质对蛋白质受体的亲和力为第二预测性质,将预测作用、第一预测性质以及第二预测性质中的至少一个作为第一预测值,或,对预测作用、第一预测性质以及第二预测性质中的至少两个进行加权求和,得到第一预测值;
114.s016:在预设神经网络模型中,以多个基因编码对应的蛋白质作为节点,以每两个基因编码对应的蛋白质之间的相互作用关系为边,构建知识图谱网络,并将知识网络图谱作为第二预测值;
115.s017:根据第一预测值以及第二预测值,确定目标染色体的评价分数;
116.s18:若评价分数高于预设阈值,则确定评价分数对应的基因编码为优质基因。
117.针对步骤s001-s018,其原理以及效果与前述实施例类似,可参见方法实施例中的相关描述,为避免重复,在此不做赘述。
118.应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
119.可见,相较于已有的方法,上述方案利用遗传算法模拟动植物的繁育以及基因突变,通过多次迭代得到优势染色体,进而根据优势染色体筛选出表现较好的动植物个体,利用筛选出的动植物个体进行育种。在此过程中,可根据实际需要设置不同的评价指标,并提高与评价指标相关的基因的变异率,而变异率越高的基因其发生基因突变的概率越高,因此与评价指标相关的基因突变的概率更高,从而实现对染色体进行有针对性的变异,以实现有方向地进化,相较于传统方法,上述方案的方向性强,可在更少的迭代次数下得到更符合需求的后代,进而得到更高的收益。此外,上述方案综合分析基因编码的蛋白质的分子性质和功能、及信号通路知识图谱,得到染色体的评价分数,相较于传统的仅根据动植物外在表现评分的方法,本方案能够明确给出基因编码会使得动植物产生何种表现,评价结果更加精确。
120.在一实施例中,提供一种基于遗传算法的动植物评价装置,该基于遗传算法的动植物评价装置与上述实施例中基于遗传算法的动植物评价方法一一对应。如图3所示,该基于遗传算法的动植物评价装置包括:初始化模块、迭代模块以及评价模块。各功能模块详细说明如下:
121.初始化模块,用于获取评价指标,根据评价指标确定待评分的初始基因,并确定初始基因所在的染色体为初始染色体;
122.迭代模块,用于为初始染色体上每个基因所在位置设置预设变异率,并增大初始基因所在位置对应的预设变异率,得到初始基因所在位置对应的目标变异率;以及,利用遗传算法根据预设交叉率、预设变异率以及目标变异率对初始染色体进行遗传模拟,得到目标染色体;
123.评价模块,用于将目标染色体的基因编码输入预设神经网络模型;以及,在预设神经网络模型中,根据基因编码对应的蛋白质的性质和/或作用,以及蛋白质在生物信号通路中的作用,确定目标染色体的评价分数;以及,若评价分数高于预设阈值,则确定评价分数对应的基因编码为优质基因。
124.在一个实施例中,在一个实施例中,评价模块用于:
125.确定基因编码对应的蛋白质的性质和/或作用为第一预测值;
126.根据蛋白质在生物信号通路中的作用构建知识图谱网络,并将知识网络图谱作为第二预测值;
127.根据第一预测值以及第二预测值,确定目标染色体的评价分数。
128.在一个实施例中,评价模块用于:
129.确定基因编码对应的蛋白质与其他蛋白质之间的相互作用关系为预测作用;
130.确定基因编码对应的蛋白质与预设药物之间的结果关系为第一预测性质;
131.确定基因编码对应的蛋白质对蛋白质受体的亲和力为第二预测性质;
132.将预测作用、第一预测性质以及第二预测性质中的一个作为第一预测值;或,对预测作用、第一预测性质以及第二预测性质中的至少两个进行加权求和,得到第一预测值;
133.以及:
134.以多个基因编码对应的蛋白质作为节点,以每两个基因编码对应的蛋白质之间的相互作用关系为边,构建知识图谱网络。
135.在一个实施例中,迭代模块用于:
136.构建初始染色体对应的初始种群,并将初始种群作为迭代种群,初始种群中的染色体作为迭代染色体;
137.根据预设适应度函数分别计算每个迭代染色体的适应度;
138.根据适应度、预设交叉率、预设变异率以及目标变异率,对迭代染色体进行交叉操作以及变异操作,得到子代染色体;
139.将子代染色体作为新的迭代染色体,形成新的迭代种群,并返回至根据预设适应度函数分别计算每个迭代染色体的适应度的步骤,直至满足预设终止条件;
140.在迭代种群中的迭代染色体中确定目标染色体。
141.在一个实施例中,迭代模块用于:
142.根据适应度以及预设交叉率,在迭代染色体中随机选择至少一对待交叉基因,并交换一对待交叉基因的位置,得到子代染色体;
143.根据适应度、预设变异率以及目标变异率,在迭代染色体中确定至少一个待变异基因,并将待变异基因改变成为与目标变异方向对应的目标基因,得到子代染色体。
144.在一个实施例中,预设终止条件与评价指标相对应;
145.相应地,迭代模块用于,在迭代种群中,确定与预设终止条件对应的迭代染色体为目标染色体。
146.在一个实施例中,评价模块用于:
147.获取现有基因并将现有基因作为模型输入;
148.获取现有基因的蛋白质对应的性能和/或功能并作为第一输出;
149.根据现有基因的蛋白质在生物信号通路中的作用构建知识图谱网络,并作为第二输出;
150.利用模型输入、第一输出以及第二输出训练预设神经网络模型。
151.在一个实施例中,提供了一种电子设备,该电子设备可为手机、平板、车载移动终端等移动设备,也可为其他具有程序执行能力的设备,该电子设备其内部结构图可以如图4所示。该电子设备包括通过处理器、存储器和网络模块。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性和/或易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、指令或代码。该内存储器为非易失性存储介质中的操作系统和指令或代码的运行提供环境。该指令或代码被处理器执行时以实现一种上述基于遗传算法的动植物评价方法的功能或步骤。该电子设备的网络模块可包括网络接口和/或无线网络模块,电子设备可通过网络模块与其他设备或服务平台通信。此外,该电子设备还可包括显示屏和输入装置等。
152.在一个实施例中,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的指令或代码,处理器执行指令或代码时实现以下步骤:
153.获取评价指标,根据评价指标确定待评分的初始基因,并确定初始基因所在的染色体为初始染色体;
154.为初始染色体上每个基因所在位置设置预设变异率,并增大初始基因所在位置对应的预设变异率,得到初始基因所在位置对应的目标变异率;
155.利用遗传算法根据预设交叉率、预设变异率以及目标变异率对初始染色体进行遗传模拟,得到目标染色体;
156.将目标染色体的基因编码输入预设神经网络模型;
157.在预设神经网络模型中,根据基因编码对应的蛋白质的性质和/或作用、以及蛋白质在生物信号通路中的作用,确定目标染色体的评价分数;
158.若评价分数高于预设阈值,则确定评价分数对应的基因编码为优质基因。
159.在一个实施例中,提供了一种存储介质,其上存储有指令或代码,指令或代码被处理器执行时实现以下步骤:
160.获取评价指标,根据评价指标确定待评分的初始基因,并确定初始基因所在的染色体为初始染色体;
161.为初始染色体上每个基因所在位置设置预设变异率,并增大初始基因所在位置对应的预设变异率,得到初始基因所在位置对应的目标变异率;
162.利用遗传算法根据预设交叉率、预设变异率以及目标变异率对初始染色体进行遗传模拟,得到目标染色体;
163.将目标染色体的基因编码输入预设神经网络模型;
164.在预设神经网络模型中,根据基因编码对应的蛋白质的性质和/或作用、以及蛋白
质在生物信号通路中的作用,确定目标染色体的评价分数;
165.若评价分数高于预设阈值,则确定评价分数对应的基因编码为优质基因。
166.需要说明的是,上述关于存储介质或电子设备所能实现的功能或步骤,可对应参阅前述方法实施例中的相关描述,为避免重复,这里不再一一描述。
167.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过指令或代码来指令相关的硬件来完成,所述的指令或代码可存储于一非易失性可读取存储介质中,该指令或代码在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
168.所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
169.本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的单元或流程并不一定是实施本技术所必须的。本领域技术人员可以理解实施场景中的系统中的单元可以按照实施场景描述进行分布于实施场景的系统中,也可以进行相应变化位于不同于本实施场景的一个或多个系统中。上述实施场景的单元可以合并为一个单元,也可以进一步拆分成多个子单元。
170.以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

技术特征:
1.一种基于遗传算法的动植物评价方法,其特征在于,所述方法包括:获取评价指标,根据所述评价指标确定待评分的初始基因,并确定所述初始基因所在的染色体为初始染色体;为所述初始染色体上每个基因所在位置设置预设变异率,并增大所述初始基因所在位置对应的预设变异率,得到所述初始基因所在位置对应的目标变异率;利用遗传算法根据预设交叉率、所述预设变异率以及所述目标变异率对所述初始染色体进行遗传模拟,得到目标染色体;将所述目标染色体的基因编码输入预设神经网络模型;在所述预设神经网络模型中,根据所述基因编码对应的蛋白质的性质和/或作用、以及所述蛋白质在生物信号通路中的作用,确定所述目标染色体的评价分数;若所述评价分数高于预设阈值,则确定所述评价分数对应的基因编码为优质基因。2.根据权利要求1所述的方法,其特征在于,所述根据所述基因编码对应的蛋白质的性质和/或作用、以及所述蛋白质在生物信号通路中的作用,确定所述目标染色体的评价分数,包括:确定所述基因编码对应的蛋白质的性质和/或作用为第一预测值;根据所述蛋白质在生物信号通路中的作用构建知识图谱网络,并将所述知识网络图谱作为第二预测值;根据所述第一预测值以及所述第二预测值,确定所述目标染色体的评价分数。3.根据权利要求2所述的方法,其特征在于,所述确定所述基因编码对应的蛋白质的性质以及作用为第一预测值,包括:确定所述基因编码对应的蛋白质与其他蛋白质之间的相互作用关系为预测作用;确定所述基因编码对应的蛋白质与预设药物之间的结合关系为第一预测性质;确定所述基因编码对应的蛋白质对蛋白质受体的亲和力为第二预测性质;将所述预测作用、所述第一预测性质以及所述第二预测性质中的一个作为所述第一预测值;或,对所述预测作用、所述第一预测性质以及所述第二预测性质中的至少两个进行加权求和,得到所述第一预测值;所述根据所述蛋白质在生物信号通路中的作用构建知识图谱网络,包括:以多个基因编码对应的蛋白质作为节点,以每两个基因编码对应的蛋白质之间的相互作用关系为边,构建所述知识图谱网络。4.根据权利要求2所述的方法,其特征在于,所述利用遗传算法根据预设交叉率、所述预设变异率以及所述目标变异率对所述初始染色体进行遗传模拟,得到目标染色体,包括:构建所述初始染色体对应的初始种群,并将所述初始种群作为迭代种群,所述初始种群中的染色体作为迭代染色体;根据预设适应度函数分别计算每个所述迭代染色体的适应度;根据所述适应度、所述预设交叉率、所述预设变异率以及所述目标变异率,对所述迭代染色体进行交叉操作以及变异操作,得到子代染色体;将所述子代染色体作为新的迭代染色体,形成新的迭代种群,并返回至所述根据预设适应度函数分别计算每个所述迭代染色体的适应度的步骤,直至满足预设终止条件;在所述迭代种群中的迭代染色体中确定所述目标染色体。
5.根据权利要求3所述的方法,其特征在于,所述根据所述适应度、所述预设交叉率、所述预设变异率以及所述目标变异率,对所述迭代染色体进行交叉操作以及变异操作,得到子代染色体,包括:根据所述适应度以及预设交叉率,在所述迭代染色体中随机选择至少一对待交叉基因,并交换所述一对待交叉基因的位置,得到所述子代染色体;根据所述适应度、所述预设变异率以及所述目标变异率,在所述迭代染色体中确定至少一个所述待变异基因,并将所述待变异基因改变成为与所述目标变异方向对应的目标基因,得到所述子代染色体。6.根据权利要求5所述的方法,其特征在于,所述预设终止条件与所述评价指标相对应;相应地,所述在所述迭代种群中的迭代染色体中确定所述目标染色体,包括:在所述迭代种群中,确定与所述预设终止条件对应的迭代染色体为所述目标染色体。7.根据权利要求2所述的方法,其特征在于,在所述将所述目标染色体的基因编码,输入预设神经网络模型之前,所述方法还包括:获取现有基因并将所述现有基因作为模型输入;获取所述现有基因的蛋白质对应的性能和/或功能并作为第一输出;根据所述现有基因的蛋白质在生物信号通路中的作用构建知识图谱网络,并作为第二输出;利用所述模型输入、所述第一输出以及所述第二输出训练所述预设神经网络模型。8.一种基于遗传算法的动植物评价装置,其特征在于,所述装置包括:初始化模块,用于评价指标,根据所述评价指标确定获取待评分的初始基因,并确定所述初始基因所在的染色体为初始染色体;迭代模块,用于为所述初始染色体上每个基因所在位置设置预设变异率,并增大所述初始基因所在位置对应的预设变异率,得到所述初始基因所在位置对应的目标变异率;以及,利用遗传算法根据预设交叉率、所述预设变异率以及所述目标变异率对所述初始染色体进行遗传模拟,得到目标染色体;评价模块,用于将所述目标染色体的基因编码输入预设神经网络模型;以及,在所述预设神经网络模型中,根据所述基因编码对应的蛋白质的性质和/或作用,以及所述蛋白质在生物信号通路中的作用,确定所述目标染色体的评价分数;以及,若所述评价分数高于预设阈值,则确定所述评价分数对应的基因编码为优质基因。9.一种存储介质,其上存储有程序或指令,其特征在于,所述程序或指令被处理器执行时实现如权利要求1至7中任一项所述的方法。10.一种电子设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7中任一项所述的方法。

技术总结
本申请公开了一种基于遗传算法的动植物评价方法,方法包括:根据评价指标确定待评分的初始基因,并确定初始基因所在的染色体为初始染色体;为初始染色体上每个基因所在位置设置预设变异率,并增大初始基因所在位置对应的预设变异率,得到目标变异率;根据预设交叉率、预设变异率以及目标变异率对初始染色体进行遗传模拟,得到目标染色体;将目标染色体的基因编码输入预设神经网络模型;在预设神经网络模型中,确定目标染色体的评价分数;若评价分数高于预设阈值,则确定评价分数对应的基因编码为优质基因。本申请的方法根据目标变异方向进行有方向性地遗传模拟,解决了现有方案迭代次数过多且目标解不够优质的问题。次数过多且目标解不够优质的问题。次数过多且目标解不够优质的问题。


技术研发人员:郭建影
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2023.06.19
技术公布日:2023/9/20
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐