特征融合模型的训练、癌症用户的分类方法及装置、介质与流程

未命名 07-23 阅读:97 评论:0


1.本公开实施例涉及机器学习技术领域,具体而言,涉及一种特征融合模型的训练方法、特征融合模型的训练装置、癌症用户的分类方法、计算机可读存储介质以及电子设备。


背景技术:

2.现有的方法中,可以结合用户定义的先验生物信息,实现了来自不同组学数据集的变量的非线性组合。但是,其无法对组学数据以及领域知识进行融合。
3.需要说明的是,在上述背景技术部分发明的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现要素:

4.本公开的目的在于提供一种特征融合模型的训练方法、特征融合模型的训练装置、癌症用户的分类方法、计算机可读存储介质以及电子设备,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的无法对组学数据以及领域知识进行融合的问题。
5.根据本公开的一个方面,提供一种特征融合模型的训练方法,包括:
6.获取历史用户的历史患者样本数据,并从所述历史患者样本数据中提取所述历史用户的第一基因点的第一组学数据;
7.获取领域知识,并基于所述第一基因点、第一组学数据以及所述领域知识,构建异构网络;
8.根据所述异构网络,对待训练的网络模型进行训练,得到特征融合模型;其中,所述特征融合模型用于基于领域知识对第一组学数据进行特征融合并基于融合特征进行数据预测。
9.在本公开的一种示例性实施例中,所述领域知识包括生物信号通路以及所述生物信号通路中包括的当前基因点;
10.所述第一组学数据包括dna甲基化数据、基因突变snv数据、拷贝数变异cnv数据以及基因表达数据中的一种或多种。
11.在本公开的一种示例性实施例中,所述异构网络包括第一异构网络和/或第二异构网络;
12.其中,所述第一异构网络为以第一基因点为第一子节点、以第一基因点的第一组学数据为第一子节点的节点特征、以生物信号通路中的当前基因点之间的第一连接关系作为第一连接边,并以由第一基因点构成的第一基因对之间的第二连接关系作为第二连接边的异构网络;
13.所述第二异构网络为以第一基因点为第一子节点、以第一基因点的第一组学数据为第二子节点、以生物信号通路中的当前基因点之间的第一连接关系为第一连接边、以由第一基因点构成的第一基因对之间的第二连接关系作为第二连接边,并以第一子节点以及
第二子节点之间的第三连接关系作为第三连接边的异构网络。
14.在本公开的一种示例性实施例中,所述第一异构网络用于反应同一组学数据内的数据之间的关联关系,以及多组学数据间的关联关系;
15.所述第二异构网络用于反应同一组学数据内的数据之间的关联关系,以及多组学数据间的关联关系。
16.在本公开的一种示例性实施例中,所述待训练的网络模型包括待训练的第一网络模型和/或待训练的第二网络模型;
17.所述待训练的第一网络模型包括图网络模型以及第一分类器,所述待训练的第二网络模型包括自动编码模型以及第二分类器;
18.所述图网络模型包括关系图卷积网络模型和/或图注意力网络模型。
19.在本公开的一种示例性实施例中,基于所述第一基因点、第一组学数据以及所述领域知识,构建异构网络,包括:
20.根据第一基因点构建第一子节点集合,并根据第一基因点的第一组学数据,构建第一节点特征集合;
21.根据所述领域知识中包括的生物信号通路以及所述生物信号通路中包括的当前基因点,确定第一基因点之间的第一连接关系,并根据第一连接关系构建第一连接边集合;
22.计算由第一基因点构成的第一基因对之间的第一相关系数,并根据第一相关系数确定第一基因点之间的第二连接关系;
23.根据第二连接关系构建第二连接边集合,并根据第一子节点集合、第一节点特征集合、第一连接边集合、第二连接边集合,构建第一异构网络。
24.在本公开的一种示例性实施例中,基于所述第一基因点、第一组学数据以及所述领域知识,构建异构网络,还包括:
25.根据第一基因点构建第一子节点集合,并根据第一基因点的第一组学数据,构建第二子节点集合;
26.根据所述领域知识中包括的生物信号通路以及所述生物信号通路中包括的当前基因点,确定第一基因点之间的第一连接关系,并根据第一连接关系构建第一连接边集合;
27.计算由第一基因点构成的第一基因对之间的第一相关系数,并根据第一相关系数确定第一基因点之间的第二连接关系;
28.根据第二连接关系构建第二连接边集合,并根据第一基因点以及第一组学数据之间的第三连接关系,构建第三连接边集合;
29.根据第一子节点集合、第二子节点集合、第一连接边集合、第二连接边集合以及第三连接边集合,构建第二异构网络。
30.在本公开的一种示例性实施例中,在所述由第一基因点构成的第一基因对中,包括第一子基因点以及第二子基因点;
31.其中,计算由第一基因点构成的第一基因对之间的第一相关系数,包括:
32.获取由第一基因点构成的第一基因对中第一子基因点的第一子组学数据,以及第二子基因点的第二子组学数据;
33.从第一子组学数据中提取第一子基因表达数据,并从第二子组学数据中提取第二子基因表达数据;
34.基于第一子基因表达数据以及第二子基因表达数据,计算所述第一相关系数。
35.在本公开的一种示例性实施例中,根据所述异构网络,对待训练的网络模型进行训练,得到特征融合模型,包括:
36.根据第一异构网络,对待训练的第一网络模型进行训练,得到第一特征融合模型;和/或
37.根据第二异构网络,对待训练的第二网络模型进行训练,得到第二特征融合模型。
38.在本公开的一种示例性实施例中,根据第一异构网络,对待训练的第一网络模型进行训练,得到第一特征融合模型,包括:
39.将第一异构网络输入至待训练的第一网络模型中的图网络模型中,得到与第一异构网络对应的第一特征表示,并将第一特征表示输入至待训练的第一网络模型中的第一分类器中,得到第一预测标签;
40.根据所述历史用户所具有的真实用户标签以及所述第一预测标签,构建第一目标损失函数,并根据所述第一目标损失函数对所述待训练的第一网络模型进行训练,得到第一特征融合模型。
41.在本公开的一种示例性实施例中,根据第二异构网络,对待训练的第二网络模型进行训练,得到第二特征融合模型,包括:
42.对所述第二异构网络进行表示学习,得到与第二异构网络对应的第二特征表示,并将第一基因点的第一组学数据输入至待训练的第二网络模型中的编码模块,得到与第一组学数据对应的第一重构数据;
43.根据第一组学数据、第一重构数据以及第二特征表示构建第二目标损失函数,并根据第二目标函数对待训练的第二网络模型中的自动编码模型进行训练,得到训练完成的编码模型;
44.将所述第一组学数据输入至训练完成的编码模型中的编码模块,得到第二重构数据,并将第二重构数据输入至待训练的第二网络模型中的第二分类器,得到第二预测标签;
45.基于第二预测标签以及所述历史用户所具有的真实用户标签,对第二分类器进行训练,得到第二特征融合模型。
46.在本公开的一种示例性实施例中,将第一基因点的第一组学数据输入至待训练的第二网络模型中的编码模块,得到与第一组学数据对应的第一重构数据,包括:
47.通过待训练的第二网络模型中的编码模块中的第一非线性函数对所述第一组学数据进行映射处理,得到中间变量;
48.通过待训练的第二网络模型中的编码模块中的第二非线性函数对中间变量进行映射处理,得到与第一组学数据对应的第一重构数据;其中,所述第一重构数据的数据表达形式与所述第一组学数据的数据表达形式一致。
49.在本公开的一种示例性实施例中,根据第一组学数据、第一重构数据以及第二特征表示构建第二目标损失函数,包括:
50.将第一重构数据输入至待训练的第二网络模型中的解码模块,得到与第二异构网络对应的第三特征表示,并根据第一组学数据以及第一重构数据构建第一子损失函数;
51.根据第二特征表示以及第三特征表示构建第二子损失函数,并根据第一子损失函数以及第二子损失函数构建第二目标函数。
52.在本公开的一种示例性实施例中,根据第一组学数据以及第一重构数据构建第一子损失函数,包括:
53.计算第一组学数据以及第一重构数据之间的第一差值的绝对值,并对所述第一差值的绝对值进行平方运算,得到第一平方计算结果;
54.对第一平方计算结果进行求和,得到第一子损失函数。
55.在本公开的一种示例性实施例中,根据第二特征表示以及第三特征表示构建第二子损失函数,包括:
56.获取第二特征表示中包括的第一基因对中的第一子基因点的第一子向量表示以及第二子基因点的第二子向量表示,并根据第一子向量表示以及第二子向量表示,计算第一基因对的第一相似度;
57.获取第三特征表示中包括的所述第一基因对中的第一子基因点的第三子向量表示以及第二子基因点的第四子向量表示,并根据第三子向量表示以及第四子向量表示,计算第一基因对的第二相似度;
58.计算第一相似度以及第二相似度之间的第二差值的绝对值,并对第二差值的绝对值进行求和,得到第二子损失函数。
59.根据本公开的一个方面,提供一种癌症用户的分类方法,包括:
60.获取当前用户的当前样本数据,并从当前样本数据中提取所述当前用户的第二基因点的第二组学数据;
61.将所述第二基因点的第二组学数据输入至特征融合模型中,得到数据预测结果;其中,所述特征融合模型是基于上述任意一项所述的特征融合模型的训练方法进行训练得到的;
62.根据所述数据预测结果,确定所述当前用户所属的用户类别。
63.在本公开的一种示例性实施例中,将所述第二基因点的第二组学数据输入至特征融合模型中,得到数据预测结果,包括:
64.将所述第二基因点的第二组学数据输入至第一特征融合模型中的图网络模型中,得到包括降维后的第二组学数据以及领域知识的第一用户特征表示,并将第一用户特征表示输入至第一特征融合模型中的第一分类器,得到数据预测结果;和/或
65.将所述第二基因点的第二组学数据输入至第二特征融合模型中的自动编码模型中的编码模块,得到包括降维后的第二组学数据以及领域知识的第二用户特征表示,并将第二用户特征表示输入至第二特征融合模型中的第二分类器,得到数据预测结果。
66.根据本公开的一个方面,提供一种特征融合模型的训练装置,包括:
67.第一组学数据提取模块,用于获取历史用户的历史患者样本数据,并从所述历史患者样本数据中提取所述历史用户的第一基因点的第一组学数据;
68.异构网络构建模块,用于获取领域知识,并基于所述第一基因点、第一组学数据以及所述领域知识,构建异构网络;
69.模型训练模块,用于根据所述异构网络,对待训练的网络模型进行训练,得到特征融合模型;其中,所述特征融合模型用于基于领域知识对第一组学数据进行特征融合并基于融合特征进行数据预测。
70.根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,
所述计算机程序被处理器执行时实现上述任意一项所述的特征融合模型的训练方法,以及上述任意一项所述的癌症用户的分类方法。
71.根据本公开的一个方面,提供一种电子设备,包括:
72.处理器;以及
73.存储器,用于存储所述处理器的可执行指令;
74.其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的特征融合模型的训练方法,以及上述任意一项所述的癌症用户的分类方法。
75.本公开实施例提供的一种特征融合模型的训练方法,一方面,通过获取历史用户的历史患者样本数据,并从历史患者样本数据中提取历史用户的第一基因点的第一组学数据;然后获取领域知识,并基于第一基因点、第一组学数据以及领域知识,构建异构网络;进而根据异构网络,对待训练的网络模型进行训练,得到特征融合模型;同时,该特征融合模型用于对领域知识以及第一组学数据进行特征融合并基于融合特征进行数据预测;也即,该特征融合模型实现了组学数据以及领域知识的融合,解决了现有技术中无法对组学数据以及领域知识进行融合的问题;另一方面,由于可以对组学数据以及领域知识进行融合进而基于融合特征进行数据预测,进而提高了数据预测结果的准确率。
76.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
77.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
78.图1示意性示出一种基于整合多组学数据的生存周期预测算法deepomix的结构示例图。
79.图2示意性示出根据本公开示例实施例的一种特征融合模型的训练方法的流程示例图。
80.图3示意性示出根据本公开示例实施例的一种第一异构网络的结构示例图。
81.图4示意性示出根据本公开示例实施例的一种第二异构网络的结构示例图。
82.图5示意性示出根据本公开示例实施例的一种待训练的第一网络模型的结构图。
83.图6示意性示出根据本公开示例实施例的一种待训练的第二网络模型的结构图。
84.图7示意性示出根据本公开示例实施例的一种对待训练的第一网络模型进行训练的场景示例图。
85.图8示意性示出根据本公开示例实施例的一种根据第二异构网络,对待训练的第二网络模型进行训练,得到第二特征融合模型的方法流程图。
86.图9示意性示出根据本公开示例实施例的一种对待训练的第二网络模型进行训练的场景示例图。
87.图10示意性示出根据本公开示例实施例的一种癌症用户的分类方法的流程图。
88.图11示意性示出根据本公开示例实施例的一种特征融合模型的训练装置的框图。
89.图12示意性示出根据本公开示例实施例的一种用于实现上述特征融合模型的训练和/或癌症用户的分类方法的电子设备。
具体实施方式
90.现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
91.此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
92.在一些医学事件的分析方法中,可以通过如下方式实现:首先,对多组学数据和相互作用数据进行分析,获得医学事件的分析结果;然后,在数据处理阶段,可以先将多组学数据转换至同一多维数据空间中,进而基于相互作用数据对转换至多维空间中的多组学数据进行更新,最后将更新后的多组学数据和转换至多维空间的多组学数据进行特征融合;最后,将融合后的特征用于医学事件分析。
93.在上述所记载的方案中,其所记载的相互作用数据特指分子间相互作用网络,即蛋白质相互作用网络、基因调控网络、基因共表达网络和代谢网络等等;进一步的,在上述所记载的方案中,将领域知识与多组学数据进行融合是通过如下方式实现的:首先,基于相互作用数据对多组学数据进行更新,更新方法为通过图卷积神经网络将相互作用数据与转换至多维数据空间中的多组学数据进行融合,从而实现多组学数据的更新,然后,在后面把这种更新后的多组学数据特征与原始多组学数据的特征通过加权求和的方式合并到一起进而得到融合特征。但是,该方案同时提取了组学数据与更新后组学数据的特征,将两种特征加权求和后作为下游任务的输入,相当于除了多组学数据的特征外,引入了更多的特征,并不能解决多组学数据的高维度特点带来的过拟合问题。
94.在另一种方案中,deepomix(基于整合多组学数据的生存周期预测算法)搭建了一个框架,结合用户定义的先验生物信息,实现了来自不同组学数据集的变量的非线性组合;具体的,deepomix框架具体可以参考图1所示,其被设计为一个前馈神经网络,由五层构成组学数据输入层101、第一功能模块层102、第一隐藏层103、第二隐藏层104以及生存时间输出层105组成;其中,第一输入层由归一化的四种不同组学数据(蛋白质相互作用网络、基因调控网络、基因共表达网络和代谢网络)组成;进一步的,第二层代表基因功能模块(第一功能模块层),其中节点的数量是功能模块的数量(即信号通路);同时,基因层(第一输入层)和功能层(第一功能模块层)之间的连接是基于通路基因集的领域知识构建的;在实际应用
的过程中,如果基因属于通路,则在第g个基因和第p个通路之间添加一条边;更进一步的,通过非全连接网络的基因层的编码器构建通路层的特征;最后,通路特征被转换到接下来的两个隐藏层(第一隐藏层以及第二隐藏层),最后到达生存数据的输出层(生存时间输出层)。其中,该核心原理是通过集成多组学数据和用户定义的功能模块来学习模块的表示,每个模块都由其包含的多个组学基因值的非线性函数表示;但是,该方案存在如下问题:一方面,并未学习到多组学数据间的关联关系,也未学习到同一组学数据中各基因点之间的关联关系。
95.基于此,本示例实施方式中首先提供了一种特征融合模型的训练方法,该方法可以运行于终端设备、服务器、服务器集群或云服务器等;当然,本领域技术人员也可以根据需求在其他平台运行本公开的方法,本示例性实施例中对此不做特殊限定。具体的,参考图2所示,该特征融合模型的训练方法可以包括以下步骤:
96.步骤s210.获取历史用户的历史患者样本数据,并从所述历史患者样本数据中提取所述历史用户的第一基因点的第一组学数据;
97.步骤s220.获取领域知识,并基于所述第一基因点、第一组学数据以及所述领域知识,构建异构网络;
98.步骤s230.根据所述异构网络,对待训练的网络模型进行训练,得到特征融合模型;其中,所述特征融合模型用于基于领域知识对第一组学数据进行特征融合并基于融合特征进行数据预测。
99.上述特征融合模型的训练方法中,一方面,通过获取历史用户的历史患者样本数据,并从历史患者样本数据中提取历史用户的第一基因点的第一组学数据;然后获取领域知识,并基于第一基因点、第一组学数据以及领域知识,构建异构网络;进而根据异构网络,对待训练的网络模型进行训练,得到特征融合模型,同时,该特征融合模型用于基于领域知识对第一组学数据进行特征融合并基于融合特征进行数据预测;也即,该特征融合模型实现了组学数据以及领域知识的融合,解决了现有技术中无法对组学数据以及领域知识进行融合的问题;另一方面,由于可以对组学数据以及领域知识进行融合进而基于融合特征进行数据预测,进而提高了数据预测结果的准确率。
100.以下,将结合附图对本公开示例实施例所记载的特征融合模型的训练方法进行进一步的解释以及说明。
101.首先,对本公开示例实施例的应用场景以及发明目的进行解释以及说明。具体的,本公开示例实施例所提供的一种特征融合模型的训练方法,通过对领域知识以及多组学数据进行融合,进而实现了多组学数据的整合;在实际应用的过程中,可以通过如下方式实现:首先,获取多组学数据并进行整理和预处理;然后,获取领域知识,基于领域知识构建以组学数据为节点特征的异构网络;紧接着,结合领域知识来进行多组学数据整合,得到融合领域知识和多组学数据的节点表示(也即融合特征);进一步的,当得到融合特征以后,还可以将融合领域知识的多组学数据特征(融合特征)应用到下游任务(也即数据预测);基于该方法,可以多组学数据整合过程中难以融合领域知识的问题,还可以解决多组学数据高维度特点带来的过拟合问题。
102.其次,本公开示例实施例记载了两种将领域知识与多组学数据融合的方法;第一种融合方法为:先基于领域知识构建以多组学数据为节点特征的异构网络,再通过图神经
网络进行异构网络表示学习,从而将具有关联信息的领域知识和多组学数据融合到一起;第二种融合方法为:先基于领域知识构建包含组学数据节点的异构网络,通过表示学习得到具有关联信息的组学数据节点表示,然后将此带有关联信息的表示作为自动编码器训练过程的监督信息,从而将关联信息融入到多组学数据的特征中;进一步的,通过设计两种方案将具有关联信息的领域知识与组学数据融合到一起,并将具有关联信息的多组学数据特征应用到下游任务中,可以改善没有关联信息时多组学数据的高维度特点带来的过拟合问题。
103.进一步的,本公开示例实施例所记载的特征融合模型的训练方法,还可以解决如下问题:一方面,多组学数据普遍存在维度高、样本少的问题;另一方面,多个组学之间的数据以及同一组学内的数据之间并不是孤立的,而是具有一定的关联,但这些关联信息较为抽象,难以直接进行人为特征提取与使用的问题;再一方面,已有研究较少考虑组学间的关联关系,容易形成维度灾难,从而导致过拟合问题;进一步的,由于细胞中的基因是以信号通路为单位进行工作的,同一通路中的基因负责同一个功能模块,因此在本公开示例实施例所记载的方案中,可以利用信号通路进行多组学数据间关联信息的挖掘,达到降低多组学数据的冗余的目的。
104.更进一步的,对本公开示例实施例中所涉及到的领域知识进行解释以及说明。具体的,在日常应用中,领域知识从结构特点上划分,可以分为如下几种形式:一种是,以知识库、知识图谱、词等节点嵌入向量为代表的关系型领域知识;另一种是,以一阶逻辑、马尔可夫逻辑网络、贝叶斯网络等为代表的逻辑型领域知识;还有一种是,以偏微分方程为代表的科学型领域知识;其中,关系型领域知识提供了事物间的关系信息。此处需要说明的是,本公开示例实施例所涉及到的生物信号通路等领域知识即为关系型领域知识,所以考虑将其转化为图网络进行表示学习,然后与多组学数据相融合。
105.以下,将对本公开示例实施例中所记载的异构网络进行解释以及说明。具体的,本公开示例实施例所涉及到的异构网络,可以包括第一异构网络以及第二异构网络;其中,所述第一异构网络为以第一基因点为第一子节点、以第一基因点的第一组学数据为第一子节点的节点特征、以生物信号通路中的当前基因点之间的第一连接关系作为第一连接边,并以由第一基因点构成的第一基因对之间的第二连接关系作为第二连接边的异构网络;所述第一异构网络用于反应同一组学数据内的数据之间的关联关系,以及多组学数据间的关联关系;同时,第一异构网络的具体结构示例图,可以参考图3所示;进一步的,所述第二异构网络为以第一基因点为第一子节点、以第一基因点的第一组学数据为第二子节点、以生物信号通路中的当前基因点之间的第一连接关系为第一连接边、以由第一基因点构成的第一基因对之间的第二连接关系作为第二连接边,并以第一子节点以及第二子节点之间的第三连接关系作为第三连接边的异构网络;该第二异构网络用于反应同一组学数据内的数据之间的关联关系,以及多组学数据间的关联关系;同时,该第二异构网络的具体结构示例图,可以参考图4所示。
106.此处需要补充说明的是,第一异构网络与第二异构网络的区别为:第一异构网络中,节点仅包括基因点,边包括基因点之间的生物信号通路以及皮尔逊系数大于预设阈值时,基因对之间的连线;同时,各基因点的组学数据以编码的形式作为节点特征配置于基因点所在的位置;进一步的,第二异构网络中,节点不仅包括基因点,还包括各基因点的组学
数据;也即,各基因点的组学数据是以单独节点的形式与各基因点进行连接的;同时,第二异构网络中所包括的边,不仅包括基因点之间的生物信号通路以及皮尔逊系数大于预设阈值时,基因对之间的连线,还包括各基因点以及与基因点对应的组学数据之间的连线。
107.以下,将对本示例实施例中所记载的待训练的网络模型进行解释以及说明。具体的,本公开示例实施例所记载的待训练的网络模型,可以包括待训练的第一网络模型以及待训练的第二网络模型,其中,待训练的第一网络模型可以包括图网络模型以及第一分类器;其中,具体的结构示例图可以参考图5所示;待训练的第二网络模型可以包括自动编码模型以及第二分类器;其中,具体的结构示例图可以参考图6所示。在实际应用的过程中,上述所记载的图网络模型,可以包括关系图卷积网络模型或者图注意力网络模型等等。
108.具体的,在图5所示出的待训练的第一网络模型中,可以包括第一输入层501、图网络模型502、第一分类器503以及第一输出层504;其中,第一输入层、图网络模型、第一分类器以及第一输出层依次连接;同时,各模块和/或各模型的具体作用会在后文一一列举,此处不再进行进一步的赘述;进一步的,在图6所示出的待训练的第二网络模型中,可以包括第二输入层601、自动编码模型602、第二分类器603以及第二输出层604;其中,第二输入层、自动编码模型、第二分类器以及第二输出层依次连接;同时,同时,各模块和/或各模型的具体作用会在后文一一列举,此处不再进行进一步的赘述。此处需要补充说明的是,图5中所示出的图网络模型,也可以被称为是编码器;也即,待训练的第一网络模型以及待训练的第二网络模型,在结构上大体类似,但是其中所使用的编码器的类型存在偏差,且具体的训练方法也不一致,但是最终所得到的输出数据是类似的。
109.以下,将结合图2-图6对图2中所示出的特征融合模型的训练方法进行进一步的解释以及说明。具体的:
110.在步骤s210中,获取历史用户的历史患者样本数据,并从所述历史患者样本数据中提取所述历史用户的第一基因点的第一组学数据。
111.具体的,此处所记载的第一组学数据,可以包括dna(deoxyribonucleic acid,脱氧核糖核酸)甲基化数据、基因突变snv(single nucleotide variation,单核苷酸变异)数据、拷贝数变异cnv(copy number variant)数据以及基因表达数据;在实际应用的过程中,首先,可以在tcga数据库中基于相应的下载工具(例如可以是gdc-client,gdc客户端)完成历史用户的历史患者样本数据的下载;其中,此处所记载的历史患者样本数据,可以包括相应的第一组学数据以及metadata.json文件;同时,此处所记载的metadata.json文件为描述数据的数据,其描述了组学数据属性的信息,主要用来对下载的组学数据进行整理;例如,对于某个癌症(历史患者样本数据)来说,其所有n个样本的信息都记录在这个metadata.json文件中,两个样本之间通过右花括号“}”以及左花括号“{”进行分割;
112.其次,完成数据下载以后,即可对下载的数据进行整理;其中,由于tcga数据库中的患者样本数据(历史患者样本数据)对应的不同类型的数据可以以独立形式保存,通常一个样本中某种类型的数据为一个独立的文件,因此必须先对这些数据进行整理才能使用;基于此,首先,将各数据文件从文件夹中统一提取出来,将压缩状态的文件进行解压缩处理;然后,从metadata.json中提取数据文件的关键属性信息,包括每个数据文件的文件名称(file_name)、数据组学类型(data_category)、数据文件对应的tcga-barcode(entity_submitter_id)等等;进一步的,使用每个数据文件对应的tcga-barcode,获得每个样本对
应的多个组学数据文件和真实样本标签;
113.进一步的,对数据进行预处理,其中,此处所记载的预处理可以包括缺失值处理与数据标准化处理。具体的,可以通过如下方式实现:首先,将不足4种组学数据的样本删除,并通过python将样本对应的多组学数据从对应数据文件中提取出来整理成矩阵;其中,具体的生成过程为:比如,假设某癌症有n个样本(历史患者样本数据),假设dna甲基化组的数据维度为d1、基因突变组的数据维度为d2、拷贝数变异组的数据维度为d3、基因表达组的数据维度为d4,则各组学数据依次可以被整理成n*d1、n*d2、n*d3、n*d4的矩阵;然后,将多个组学的数据进行标准化进而得到第一组学数据;其中,标准化的处理过程就是将不同量级的多组学数据的取值范围转化为同一个量级,是为了让不同维度的组学数据在数值上具有一定可比性;在实际应用过程中,本公开示例实施例使用零均值标准化方法(z-score)处理数据,其计算公式如下公式(1)所示:
[0114][0115]
其中,x为样本数据初始值,x'为样本数据标准化后的值,μ为样本数据的均值,σ为样本数据的标准差;最终,即可得到第一基因点的第一组学数据。
[0116]
在步骤s220中,获取领域知识,并基于所述第一基因点、第一组学数据以及所述领域知识,构建异构网络。
[0117]
具体的,此处所记载的领域知识,可以包括生物信号通路以及所述生物信号通路中包括的当前基因点;当然,还可以包括由当前基因点中任意两个基因点构成的基因对之间的相关系数以及分子间相互作用网络等等。同时,在实际应用的过程中,可以通过数据库获取生物信号通路这一具有关联信息的领域知识;其中,本公开示例实施例中所记载的生物信号通路,可以kegg以及reactome数据库中获取;当然,还可以通过查询数据库获取相应分子间相互作用网络,然后将分子互作关系作为边添加到异构网络中即可。
[0118]
其次,当获取到领域知识以后,即可基于第一基因点、第一组学数据以及领域知识,构建异构网络。其中,由于异构网络可以包括第一异构网络以及第二异构网络,因此,在实际应用的过程中,异构网络的具体构建过程,可以通过如下方式实现:
[0119]
第一种实现方式为:基于所述第一基因点、第一组学数据以及所述领域知识,构建第一异构网络,可以通过如下方式实现:首先,根据第一基因点构建第一子节点集合,并根据第一基因点的第一组学数据,构建第一节点特征集合;其次,根据所述领域知识中包括的生物信号通路以及所述生物信号通路中包括的当前基因点,确定第一基因点之间的第一连接关系,并根据第一连接关系构建第一连接边集合;然后,计算由第一基因点构成的第一基因对之间的第一相关系数,并根据第一相关系数确定第一基因点之间的第二连接关系;最后,根据第二连接关系构建第二连接边集合,并根据第一子节点集合、第一节点特征集合、第一连接边集合、第二连接边集合,构建第一异构网络。
[0120]
在一种示例实施例中,在所述由第一基因点构成的第一基因对中,包括第一子基因点以及第二子基因点;其中,上述所记载的计算由第一基因点构成的第一基因对之间的第一相关系数,可以通过如下方式实现:首先,获取由第一基因点构成的第一基因对中第一子基因点的第一子组学数据,以及第二子基因点的第二子组学数据;其次,从第一子组学数据中提取第一子基因表达数据,并从第二子组学数据中提取第二子基因表达数据;然后,基
于第一子基因表达数据以及第二子基因表达数据,计算所述第一相关系数。
[0121]
以下,将对第一异构网络的具体构建过程进行进一步的解释以及说明。具体的,首先,将第一基因点作为子节点,构建第一子节点结合v;其次,对第一基因点对应的第一组学数据(基因表达数据、snv数据、甲基化数据、cnv数据)进行编码,得到第一基因点的节点特征表示;然后,基于生物信号通路以及生物信号通路中包括的当前基因点,判断第一基因点之间是否具有第一连接关系;若具有第一连接关系,则基于该第一连接关系构建第一连接边集合;其中,该第一连接边集合中包括具有第一连接关系的第一基因点;紧接着,计算第一基因点之间的第一相关系数;其中,此处所记载的第一相关系数,可以是皮尔逊相关系数,也可以是皮尔斯曼相关系数,本示例对此不做特殊限制;进一步的,判断第一相关系数是否大于预设阈值(例如该预设阈值可以是pth,具体取值大小可以根据实际需要来确定,本示例对此不做特殊限制);若第一相关系数大于等于预设阈值,则确定第一基因对之间存在第二连接关系;若第一相关系数小于预设阈值,则确定第一基因对之间不存在连接关系;最后,基于第二连接关系构建第二连接边集合,再基于第一子节点集合、第一节点特征集合、第一连接边集合、第二连接边集合,构建第一异构网络;其中,该第二连接边集合中包括具有第二连接关系的第一基因点。
[0122]
在一种示例实施例中,第一基因对应的基因表达的皮尔逊相关系数(第一相关系数)具体地计算方法为:以基第一基因对中包括的第一子基因点为基因点a、第二子基因点为进店b为例对第一相关系数的具体计算过程进行解释以及说明。具体的,首先,获取基因a在n个样本中的n个基因表达数据,表示为a_e=(m1,m2,m3,

,mn),同理基因b在n个样本的基因表达数据为b_e=(n1,n2,n3,

,nn);然后,再将a_e和b_e两个数据序列带入皮尔逊相关系数计算公式,得到a_e和b_e两个数据序列的第一相关系数;其中,皮尔逊相关系数计算公式具体可以如下公式(2)所示:
[0123][0124]
其中,r为第一相关系数,xi为基因点a的序列数据,yi为基因点b的序列数据,为基因点a的平均值,为基因点b的平均值,n为样本数量。此处需要补充说明的是,本公开示例实施例之所以选取皮尔逊相关系数作为第一相关系数,其目的是:由于斯皮尔曼相关系数不关心两个数据集是否线性相关,而是关心是否单调相关,它是基于每个变量的排名值,而不是原始数据;简单来讲就是,皮尔逊相关系数处理变量的数据原始值,而斯皮尔曼处理数据排序值;因此,皮尔逊相关系数的统计效力比斯皮尔曼要高;在实际应用的过程中,具体需要选取那一种相关系数作为第一相关系数,可以通过如下方式来选取:一种方式为,根据目的,比如只想分析两个基因间的调控关系,那只需要假设两个基因表达水平单调相关即可,使用斯皮尔曼即可,如果想分析的更加具体,则使用皮尔森相关系数;另一种方式为,由于基因间调控方式、相互关系非常复杂,加上实验误差、检测误差等因素的干扰,并不能直观地决定哪一种相关性计算方式更好;进一步的,根据实际调研可以得知,文献中较多使用皮尔森相关系数计算基因间相关性,所以本公开示例实施例选择使用皮尔森相关系数作为第一相关系数。
[0125]
第二种实现方式为:基于所述第一基因点、第一组学数据以及所述领域知识,构建第二异构网络,可以通过如下方式实现:首先,根据第一基因点构建第一子节点集合,并根据第一基因点的第一组学数据,构建第二子节点集合;其次,根据所述领域知识中包括的生物信号通路以及所述生物信号通路中包括的当前基因点,确定第一基因点之间的第一连接关系,并根据第一连接关系构建第一连接边集合;然后,计算由第一基因点构成的第一基因对之间的第一相关系数,并根据第一相关系数确定第一基因点之间的第二连接关系;进一步的,根据第二连接关系构建第二连接边集合,并根据第一基因点以及第一组学数据之间的第三连接关系,构建第三连接边集合;最后,根据第一子节点集合、第二子节点集合、第一连接边集合、第二连接边集合以及第三连接边集合,构建第二异构网络。
[0126]
以下,将对第二异构网络的具体构建过程进行进一步的解释以及说明。具体的,首先,将第一基因点作为子节点,构建第一子节点结合v;其次,对第一基因点对应的第一组学数据(基因表达数据、snv数据、甲基化数据、cnv数据)进行抽象处理,得到第二子节点结合;然后,基于生物信号通路以及生物信号通路中包括的当前基因点,判断第一基因点之间是否具有第一连接关系;若具有第一连接关系,则基于该第一连接关系构建第一连接边集合;其中,该第一连接边集合中包括具有第一连接关系的第一基因点;紧接着,计算第一基因点之间的第一相关系数;其中,此处所记载的第一相关系数,可以是皮尔逊相关系数,也可以是皮尔斯曼相关系数,本示例对此不做特殊限制;进一步的,判断第一相关系数是否大于预设阈值(例如该预设阈值可以是pth,具体取值大小可以根据实际需要来确定,本示例对此不做特殊限制);若第一相关系数大于等于预设阈值,则确定第一基因对之间存在第二连接关系;若第一相关系数小于预设阈值,则确定第一基因对之间不存在连接关系;进一步的,基于第二连接关系构建第二连接边集合,其中,第二边连接集合中包括具有第二连接关系的第一基因点;更进一步的,建立第一基因点以及与第一基因点对应的第一组学数据之间的第三连接关系,并基于第三连接关系构建第三边连接集合;最后,再基于第一子节点集合、第二子节点集合、第一连接边集合、第二连接边集合以及第三连接边集合,构建一个反应多组学数据间拓扑关系的第二异构网络。
[0127]
在步骤s230中,根据所述异构网络,对待训练的网络模型进行训练,得到特征融合模型;其中,所述特征融合模型用于基于领域知识对第一组学数据进行特征融合并基于融合特征进行数据预测。
[0128]
具体的,由于此处所记载的待训练的网络模型可以包括待训练的第一网络模型以及待训练的第二网络模型;因此,根据异构网络,对待训练的网络模型进行训练进而得到特征融合模型,可以通过如下两种方式来实现:第一种实现方式为,根据第一异构网络,对待训练的第一网络模型进行训练,得到第一特征融合模型;第二种实现方式为,根据第二异构网络,对待训练的第二网络模型进行训练,得到第二特征融合模型。
[0129]
在一种示例实施例中,根据第一异构网络,对待训练的第一网络模型进行训练,得到第一特征融合模型,可以通过如下方式实现:首先,将第一异构网络输入至待训练的第一网络模型中的图网络模型中,得到与第一异构网络对应的第一特征表示,并将第一特征表示输入至待训练的第一网络模型中的第一分类器中,得到第一预测标签;其次,根据所述历史用户所具有的真实用户标签以及所述第一预测标签,构建第一目标损失函数,并根据所述第一目标损失函数对所述待训练的第一网络模型进行训练,得到第一特征融合模型。
[0130]
以下,将结合图7对本公开示例实施例所记载的第一特征融合模型的具体训练过程进行进一步的解释以及说明。具体的,在实际应用的过程中,本公开示例实施例通过基于图神经网络(图网络模型)的异构网络分类任务,来得到异构网络的向量表示;其中,基于图神经网络的异构网络分类任务,就是利用类别标签已知的异构网络对模型进行训练,然后利用训练好的模型来预测未知异构网络的类别,同时在训练过程中可以得到各个异构网络的表示;其中,该向量空间中的节点表示是领域知识中多组学数据间的关联信息与多组学数据自身的有效融合。
[0131]
在一种示例实施例中,以图神经网络(图网络模型)关系图卷积网络(rgcn,relational graph convolutional network)模型来进行举例说明。具体的,rgcn是一种对异构图进行研究的模型,它在图卷积神经网络(gcn,graph convolutional network)的基础上考虑了不同边对节点的影响;在实际应用的过程中,构建图卷积算子的方法主要有谱方法和空间方法两类,rgcn采用的是空间方法,即从节点邻域的角度出发定义图卷积;其中,在rgcn中节点i的更新方式如下公式(3)所示:
[0132][0133]
其中,hi为节点i的向量表示,上角标l表示所处的图神经网络的层数;表示节点i的自接连,即节点的每一次更新除了考虑邻居节点的信息也要考虑自身信息;表示节点i的邻居节点里面类型为r的邻居节点的集合;r表示当前边类型r的集合;c
i,r
是归一化项,为节点i的邻域节点里面类型为r的节点数量;表示不同边类型有自己的参数;σ为激活函数,可以为relu。具体的,代入到本示例实施例中,首先,对于各样本,分别得到以第一基因点为子节点以相应多组学数据为节点特征的异构网络g1、g2、...、gn,以及对应的真实用户标签y1、y2、...、yn,这些就是模型的训练数据;然后,将各异构网络输入到rgcn模型,得到各异构网络的表示hg(第一特征表示);最后,将异构网络的表示(第一特征表示)输入到第一分类器c,得到各异构网络的输出标签(第一预测标签)yi'。其中,具体的场景示例图可以参考图7所示。
[0134]
在一种示例实施例中,本公开示例实施例所采用的第一目标损失函数可以是交叉熵损失函数。也即,可以基于交叉熵损失函数对待训练的第一网络模型进行模型训练,训练完成后,既可以得到已知各异构网络的表示(图网络模型),又可以利用训练好的rgcn模型与分类器c(第一分类器)对未知的异构网络进行表示和分类。其中,第一目标损失函数具体可以参考如公式(4)所示:
[0135][0136]
其中,yi'为第i个样本的第一预测标签,yi为第i个样本的真实用户标签。
[0137]
至此,第一特征融合模型的具体训练过程已经全部实现。以下,将结合图8以及图9对第二特征融合模型的具体训练过程进行解释以及说明。
[0138]
在一种示例实施例中,参考图8所示,根据第二异构网络,对待训练的第二网络模型进行训练,得到第二特征融合模型,可以通过如下方式实现:
[0139]
步骤s810,对所述第二异构网络进行表示学习,得到与第二异构网络对应的第二特征表示,并将第一基因点的第一组学数据输入至待训练的第二网络模型中的编码模块,得到与第一组学数据对应的第一重构数据。
[0140]
在一种示例实施例中,将第一基因点的第一组学数据输入至待训练的第二网络模型中的编码模块,得到与第一组学数据对应的第一重构数据,可以通过如下方式实现:首先,通过待训练的第二网络模型中的编码模块中的第一非线性函数对所述第一组学数据进行映射处理,得到中间变量;其次,通过待训练的第二网络模型中的编码模块中的第二非线性函数对中间变量进行映射处理,得到与第一组学数据对应的第一重构数据;其中,所述第一重构数据的数据表达形式与所述第一组学数据的数据表达形式一致。
[0141]
步骤s820,根据第一组学数据、第一重构数据以及第二特征表示构建第二目标损失函数,并根据第二目标函数对待训练的第二网络模型中的自动编码模型进行训练,得到训练完成的编码模型。
[0142]
在一种示例实施例中,根据第一组学数据、第一重构数据以及第二特征表示构建第二目标损失函数,可以通过如下方式实现:首先,将第一重构数据输入至待训练的第二网络模型中的解码模块,得到与第二异构网络对应的第三特征表示,并根据第一组学数据以及第一重构数据构建第一子损失函数;其次,根据第二特征表示以及第三特征表示构建第二子损失函数,并根据第一子损失函数以及第二子损失函数构建第二目标函数。
[0143]
在一种示例实施例中,根据第一组学数据以及第一重构数据构建第一子损失函数,可以通过如下方式实现:首先,计算第一组学数据以及第一重构数据之间的第一差值的绝对值,并对所述第一差值的绝对值进行平方运算,得到第一平方计算结果;其次,对第一平方计算结果进行求和,得到第一子损失函数。
[0144]
在一种示例实施例中,根据第二特征表示以及第三特征表示构建第二子损失函数,可以通过如下方式实现:首先,获取第二特征表示中包括的第一基因对中的第一子基因点的第一子向量表示以及第二子基因点的第二子向量表示,并根据第一子向量表示以及第二子向量表示,计算第一基因对的第一相似度;其次,获取第三特征表示中包括的所述第一基因对中的第一子基因点的第三子向量表示以及第二子基因点的第四子向量表示,并根据第三子向量表示以及第四子向量表示,计算第一基因对的第二相似度;然后,计算第一相似度以及第二相似度之间的第二差值的绝对值,并对第二差值的绝对值进行求和,得到第二子损失函数。
[0145]
步骤s830,将所述第一组学数据输入至训练完成的编码模型中的编码模块,得到第二重构数据,并将第二重构数据输入至待训练的第二网络模型中的第二分类器,得到第二预测标签。
[0146]
步骤s840,基于第二预测标签以及所述历史用户所具有的真实用户标签,对第二分类器进行训练,得到第二特征融合模型。
[0147]
以下,将结合图9对第二特征融合模型的具体训练过程进行进一步的解释以及说明。具体的,在实际应用的过程中,首先,对反应多种组学数据间拓扑关系的异构网络(第二异构网络)进行表示学习,得到具有组学数据关联信息的节点表示(第二特征表示);其中,在本公开示例实施例所记载的异构网络进行表示学习中,可以通过如下模型来实现:metapath2vec(异质网络)模型、metagraph2vec(异构图表示学习)模型、hin2vec(异构信息
网络表示学习)模型、rgcn(rgcn,relational graph convolutional network,关系图卷积网络)模型、han(heterogeneous graph attention network,分层注意力网络)模型、gatne(general attributed multiplex heterogeneous network embedding,大规模多元异构属性网络)模型等,本发明对此不做限制;也即,可以将上述第二异构网络输入至上述列举的模型中,进而得到第二特征表示;其中,此处可以将所得到的第二特征表示记为e1;其中,该第二特征表示可以用于反映节点间的关联关系;当然,还可以通过矩阵分解、主成分分析等方式来得到第二特征表示,本示例对此不做特殊限制;
[0148]
其次,将将反应多组学数据间关联信息的表示作为多组学数据特征提取过程的监督信息,从而将领域知识中隐含的关联信息融合到多组学数据的特征中。在实际应用的过程中,首先,使用自动编码器模型进行特征提取进而得到第一重构数据;其中,具体的实现过程为:将多组学数据输入到自动编码器,该自动编码器(编码模块)部分的输入为第一基因点的第一组学数据,该自动编码器(编码模块)的输出为提取到的多组学数据的特征(第一组学数据的特征,也即中间变量);同时,该解码模块的输入为中奖变量,输出为第一重构数据;其中,第一重构数据的参数矩阵中每一列代表一个原始特征的表示,并将该第一重构数据的表示空间记为e2;同时,该空间中的表示反映的是数据本身的信息。
[0149]
然后,使用e1空间中向量对的相似度与e2空间中的对应向量对的相似度做差并求绝对值之和,来达到使用具有关联信息的领域知识监督多组学数据特征提取过程的目的;于是,具有监督信息的自编码器的第二目标损失函数可以如下公式(5)所示:
[0150][0151]
其中,加号前面为自动编码模型的重构任务的损失函数,加号后面为引入领域知识任务的损失,即e1和e2中所有对应相应对的相似度损失函数,实现了领域知识对自动编码器的监督作用;同时,自编码模型的重构任务的损失函数为m个组学数据的平方差损失函数之和,具体的取值可以是m=4;其中,x是输入的各组学数据(第一组学数据),z是自编码器重构的与x形状相同的输入(第一重构数据),y=f(wx+b)表示自动编码器通过非线性函数f将输入x映射成y,z=g(w
t
y+b')表示自动编码器通过另一个非线性函数g将嵌入的y映射回与x形状相同的重构z(第一重构输入);进一步的,引入领域知识任务的损失函数为e1和e2空间中的所有对应向量对的相似度作差并求绝对值之和,p为向量对总个数;其中,具体的实现流程可以参考图9所示;此处需要补充说明的是,使用第二目标损失函数对自动编码模型进行训练,除了自动编码模型的重构任务损失函数外,还有具有组学数据关联信息的领域知识作为自动编码模型监督信息的损失,模型使用这些损失通过反向传播对自动编码模型进行参数更新,从而将领域知识融入到多组学数据的特征中;
[0152]
进一步的,在完成自动编码模型的训练以后,还需要对第二分类器进行训练;具体的,可以将第一组学数据输入至训练完成的编码模型中的编码模块,得到第二重构数据,并将第二重构数据输入至待训练的第二网络模型中的第二分类器,得到第二预测标签;最后,基于第二预测标签以及历史用户所具有的真实用户标签,对第二分类器进行训练,得到第二特征融合模型;其中,此处所记载的第二重构数据,由于自动编码模型的训练过程中可以通过反向传播对自动编码模型进行参数更新,从而将领域知识融入到多组学数据的特征中,因此第二重构数据中可以包括领域知识以及第一组学数据,从而可以在不增加特征维
度的基础上达到特征融合目的,最终实现降维的目的。
[0153]
至此,第二特征融合模型的具体训练过程也已经全部完成。基于上述记载的内容可以得知,本公开示例实施例所记载的特征融合模型的训练方法,可以实现领域知识以及组学数据的融合;同时,通过前述记载的内容可以得知,本公开示例实施例解决了多组学数据整合任务中难以引入领域知识的问题。
[0154]
以下,将对本公开所得到的融合特征的具体应用进行解释以及说明。具体的,通过本公开示例实施例所记载的方法所得到的融合特征,可以应用于下游任务,进而达到改善没有关联信息时多组学数据的高维度特点带来的过拟合问题。同时,具体的下游任务可以包括但不限于癌症分类、生存预测、药物反应预测等;同时,这些特征表示应用到新的下游任务中时,可以固定不变,也可以随着任务进行重新训练,本示例对此不做特殊限制。以下,将结合具体的示例实施例对具体的应用过程进行解释以及说明。
[0155]
首先,本公开示例实施例提供了一种癌症用户的分类方法。具体的,该方法可以运行于终端设备、服务器、服务器集群或云服务器等;当然,本领域技术人员也可以根据需求在其他平台运行本公开的方法,本示例性实施例中对此不做特殊限定。进一步的,参考图10所示,该癌症用户的分类方法可以包括以下步骤:
[0156]
步骤s1010,获取当前用户的当前样本数据,并从当前样本数据中提取所述当前用户的第二基因点的第二组学数据;
[0157]
步骤s1020,将所述第二基因点的第二组学数据输入至特征融合模型中,得到数据预测结果;其中,所述特征融合模型是基于上述任意一项所述的特征融合模型的训练方法进行训练得到的;
[0158]
步骤s1030,根据所述数据预测结果,确定所述当前用户所属的用户类别。
[0159]
在一种示例实施例中,将所述第二基因点的第二组学数据输入至特征融合模型中,得到数据预测结果,可以通过如下方式实现:将所述第二基因点的第二组学数据输入至第一特征融合模型中的图网络模型中,得到包括降维后的第二组学数据以及领域知识的第一用户特征表示,并将第一用户特征表示输入至第一特征融合模型中的第一分类器,得到数据预测结果;和/或将所述第二基因点的第二组学数据输入至第二特征融合模型中的自动编码模型中的编码模块,得到包括降维后的第二组学数据以及领域知识的第二用户特征表示,并将第二用户特征表示输入至第二特征融合模型中的第二分类器,得到数据预测结果。也即,在实际应用的过程中,可以将患者的样本数据中包括的第二基因点的第二组学数据输入至第一特征融合模型中,进而得到包括第二组学数据以及领域知识的第一用户特征表示,再基于第一用户特征表示对该患者是否属于癌症患者进行分类;又或者,可以将患者的样本数据中包括的第二基因点的第二组学数据输入至第二特征融合模型中,进而得到包括降维后的第二组学数据以及领域知识的第二用户特征表示(也可以称为是包括第二组学数据以及领域知识的重构数据),在基于第二用户特征表示对患者是否属于癌症患者进行分类。
[0160]
上述癌症用户的分类方法中,一方面,通过由于特征融合模型实现了组学数据以及领域知识的融合,解决了现有技术中无法对组学数据以及领域知识进行融合的问题;另一方面,由于可以对组学数据以及领域知识进行融合进而基于融合特征进行数据预测,进而提高了癌症用户的分类结果的准确率。
[0161]
此处需要进一步补充说明的是,在生存预测以及药物反应预测场景下,具体的预测过程与癌症用户的分类过程大体相似,此处不再进行进一步的赘述。
[0162]
至此,本公开示例实施例所记载的方法已经全部实现。基于前述记载的内容可以得知,本公开示例实施例所记载的方法,至少具有以下优点:一方面,创造性的提出了一种将领域知识与多组学数据转换成图结构数据的方法,将通路中基因作为节点、将基因的多组学数据作为节点的特征、将领域知识作为节点间的边搭建异构网络,为多组学数据中融入领域知识奠定基础;同时,还可以通过图神经网络对结合领域知识与多组学数据的异构网络进行表示学习,从而实现领域知识与多组学数据的融合;并且,还可以通过将领域知识作为多组学特征提取器训练过程的监督信息,从而将领域知识中的关联信息融合到多组学数据的特征中;另一方面,本公开示例实施例还设计了一种将领域知识与多组学数据进行融合的异构网络,将领域知识与多组学数据转换成图结构的数据,将多组学数据作为节点的特征,解决了多组学数据整合任务中领域知识难以引入的问题;再一方面,本公开示例实施例通过异构网络表示学习,既能挖掘同一个组学内数据间的关联信息,也能挖掘不同组学间数据间的关联信息;同时,通过领域知识与多组学数据的融合,能减少多组学数据的冗余,改善已有研究中多组学数据高维度特点带来的过拟合问题。
[0163]
本公开示例实施例还提供了一种特种融合模型的训练装置。具体的,参考图11所示,该特征融合模型的训练装置可以包括第一组学数据提取模块1110、异构网络构建模块1120以及模型训练模块1130。其中:
[0164]
第一组学数据提取模块1110,可以用于获取历史用户的历史患者样本数据,并从所述历史患者样本数据中提取所述历史用户的第一基因点的第一组学数据;
[0165]
异构网络构建模块1120,可以用于获取领域知识,并基于所述第一基因点、第一组学数据以及所述领域知识,构建异构网络;
[0166]
模型训练模块1130,可以用于根据所述异构网络,对待训练的网络模型进行训练,得到特征融合模型;其中,所述特征融合模型用于基于领域知识对第一组学数据进行特征融合并基于融合特征进行数据预测。
[0167]
在本公开的一种示例性实施例中,所述领域知识包括生物信号通路以及所述生物信号通路中包括的当前基因点;所述第一组学数据包括dna甲基化数据、基因突变snv数据、拷贝数变异cnv数据以及基因表达数据中的一种或多种。
[0168]
在本公开的一种示例性实施例中,所述异构网络包括第一异构网络和/或第二异构网络;其中,所述第一异构网络为以第一基因点为第一子节点、以第一基因点的第一组学数据为第一子节点的节点特征、以生物信号通路中的当前基因点之间的第一连接关系作为第一连接边,并以由第一基因点构成的第一基因对之间的第二连接关系作为第二连接边的异构网络;所述第二异构网络为以第一基因点为第一子节点、以第一基因点的第一组学数据为第二子节点、以生物信号通路中的当前基因点之间的第一连接关系为第一连接边、以由第一基因点构成的第一基因对之间的第二连接关系作为第二连接边,并以第一子节点以及第二子节点之间的第三连接关系作为第三连接边的异构网络。
[0169]
在本公开的一种示例性实施例中,所述第一异构网络用于反应同一组学数据内的数据之间的关联关系,以及多组学数据间的关联关系;所述第二异构网络用于反应同一组学数据内的数据之间的关联关系,以及多组学数据间的关联关系。
[0170]
在本公开的一种示例性实施例中,所述待训练的网络模型包括待训练的第一网络模型和/或待训练的第二网络模型;所述待训练的第一网络模型包括图网络模型以及第一分类器,所述待训练的第二网络模型包括自动编码模型以及第二分类器;所述图网络模型包括关系图卷积网络模型和/或图注意力网络模型。
[0171]
在本公开的一种示例性实施例中,基于所述第一基因点、第一组学数据以及所述领域知识,构建异构网络,包括:根据第一基因点构建第一子节点集合,并根据第一基因点的第一组学数据,构建第一节点特征集合;根据所述领域知识中包括的生物信号通路以及所述生物信号通路中包括的当前基因点,确定第一基因点之间的第一连接关系,并根据第一连接关系构建第一连接边集合;计算由第一基因点构成的第一基因对之间的第一相关系数,并根据第一相关系数确定第一基因点之间的第二连接关系;根据第二连接关系构建第二连接边集合,并根据第一子节点集合、第一节点特征集合、第一连接边集合、第二连接边集合,构建第一异构网络。
[0172]
在本公开的一种示例性实施例中,基于所述第一基因点、第一组学数据以及所述领域知识,构建异构网络,还包括:根据第一基因点构建第一子节点集合,并根据第一基因点的第一组学数据,构建第二子节点集合;根据所述领域知识中包括的生物信号通路以及所述生物信号通路中包括的当前基因点,确定第一基因点之间的第一连接关系,并根据第一连接关系构建第一连接边集合;计算由第一基因点构成的第一基因对之间的第一相关系数,并根据第一相关系数确定第一基因点之间的第二连接关系;根据第二连接关系构建第二连接边集合,并根据第一基因点以及第一组学数据之间的第三连接关系,构建第三连接边集合;并根据第一子节点集合、第二子节点集合、第一连接边集合、第二连接边集合以及第三连接边集合,构建第二异构网络。
[0173]
在本公开的一种示例性实施例中,在所述由第一基因点构成的第一基因对中,包括第一子基因点以及第二子基因点;其中,计算由第一基因点构成的第一基因对之间的第一相关系数,包括:获取由第一基因点构成的第一基因对中第一子基因点的第一子组学数据,以及第二子基因点的第二子组学数据;从第一子组学数据中提取第一子基因表达数据,并从第二子组学数据中提取第二子基因表达数据;基于第一子基因表达数据以及第二子基因表达数据,计算所述第一相关系数。
[0174]
在本公开的一种示例性实施例中,根据所述异构网络,对待训练的网络模型进行训练,得到特征融合模型,包括:根据第一异构网络,对待训练的第一网络模型进行训练,得到第一特征融合模型;和/或根据第二异构网络,对待训练的第二网络模型进行训练,得到第二特征融合模型。
[0175]
在本公开的一种示例性实施例中,根据第一异构网络,对待训练的第一网络模型进行训练,得到第一特征融合模型,包括:将第一异构网络输入至待训练的第一网络模型中的图网络模型中,得到与第一异构网络对应的第一特征表示,并将第一特征表示输入至待训练的第一网络模型中的第一分类器中,得到第一预测标签;根据所述历史用户所具有的真实用户标签以及所述第一预测标签,构建第一目标损失函数,并根据所述第一目标损失函数对所述待训练的第一网络模型进行训练,得到第一特征融合模型。
[0176]
在本公开的一种示例性实施例中,根据第二异构网络,对待训练的第二网络模型进行训练,得到第二特征融合模型,包括:对所述第二异构网络进行表示学习,得到与第二
异构网络对应的第二特征表示,并将第一基因点的第一组学数据输入至待训练的第二网络模型中的编码模块,得到与第一组学数据对应的第一重构数据;根据第一组学数据、第一重构数据以及第二特征表示构建第二目标损失函数,并根据第二目标函数对待训练的第二网络模型中的自动编码模型进行训练,得到训练完成的编码模型;将所述第一组学数据输入至训练完成的编码模型中的编码模块,得到第二重构数据,并将第二重构数据输入至待训练的第二网络模型中的第二分类器,得到第二预测标签;基于第二预测标签以及所述历史用户所具有的真实用户标签,对第二分类器进行训练,得到第二特征融合模型。
[0177]
在本公开的一种示例性实施例中,将第一基因点的第一组学数据输入至待训练的第二网络模型中的编码模块,得到与第一组学数据对应的第一重构数据,包括:通过待训练的第二网络模型中的编码模块中的第一非线性函数对所述第一组学数据进行映射处理,得到中间变量;通过待训练的第二网络模型中的编码模块中的第二非线性函数对中间变量进行映射处理,得到与第一组学数据对应的第一重构数据;其中,所述第一重构数据的数据表达形式与所述第一组学数据的数据表达形式一致。
[0178]
在本公开的一种示例性实施例中,根据第一组学数据、第一重构数据以及第二特征表示构建第二目标损失函数,包括:将第一重构数据输入至待训练的第二网络模型中的解码模块,得到与第二异构网络对应的第三特征表示,并根据第一组学数据以及第一重构数据构建第一子损失函数;根据第二特征表示以及第三特征表示构建第二子损失函数,并根据第一子损失函数以及第二子损失函数构建第二目标函数。
[0179]
在本公开的一种示例性实施例中,根据第一组学数据以及第一重构数据构建第一子损失函数,包括:计算第一组学数据以及第一重构数据之间的第一差值的绝对值,并对所述第一差值的绝对值进行平方运算,得到第一平方计算结果;对第一平方计算结果进行求和,得到第一子损失函数。
[0180]
在本公开的一种示例性实施例中,根据第二特征表示以及第三特征表示构建第二子损失函数,包括:获取第二特征表示中包括的第一基因对中的第一子基因点的第一子向量表示以及第二子基因点的第二子向量表示,并根据第一子向量表示以及第二子向量表示,计算第一基因对的第一相似度;获取第三特征表示中包括的所述第一基因对中的第一子基因点的第三子向量表示以及第二子基因点的第四子向量表示,并根据第三子向量表示以及第四子向量表示,计算第一基因对的第二相似度;计算第一相似度以及第二相似度之间的第二差值的绝对值,并对第二差值的绝对值进行求和,得到第二子损失函数。
[0181]
本公开示例实施例还提供了一种癌症用户的分类装置。具体的,该癌症用户的分类装置可以包括第二组学数据提取模块、数据预测结果获取模块以及用户类别确定模块。其中:
[0182]
第二组学数据提取模块,可以用于获取当前用户的当前样本数据,并从当前样本数据中提取所述当前用户的第二基因点的第二组学数据;
[0183]
数据预测结果获取模块,可以用于将所述第二基因点的第二组学数据输入至特征融合模型中,得到数据预测结果;其中,所述特征融合模型是基于上述任意一项所述的特征融合模型的训练方法进行训练得到的;
[0184]
用户类别确定模块,可以用于根据所述数据预测结果,确定所述当前用户所属的用户类别。
[0185]
在本公开的一种示例性实施例中,将所述第二基因点的第二组学数据输入至特征融合模型中,得到数据预测结果,包括:将所述第二基因点的第二组学数据输入至第一特征融合模型中的图网络模型中,得到包括降维后的第二组学数据以及领域知识的第一用户特征表示,并将第一用户特征表示输入至第一特征融合模型中的第一分类器,得到数据预测结果;和/或将所述第二基因点的第二组学数据输入至第二特征融合模型中的自动编码模型中的编码模块,得到包括降维后的第二组学数据以及领域知识的第二用户特征表示,并将第二用户特征表示输入至第二特征融合模型中的第二分类器,得到数据预测结果。
[0186]
上述特种融合模型的训练装置以及癌症用户的分类装置中各模块的具体细节已经在对应的特征融合模型的训练方法以及癌症用户的分类方法中进行了详细的描述,因此此处不再赘述。
[0187]
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
[0188]
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
[0189]
在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
[0190]
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
[0191]
下面参照图12来描述根据本公开的这种实施方式的电子设备1200。图12显示的电子设备1200仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何的限制。
[0192]
如图12所示,电子设备1200以通用计算设备的形式表现。电子设备1200的组件可以包括但不限于:上述至少一个处理单元1210、上述至少一个存储单元1220、连接不同系统组件(包括存储单元1220和处理单元1210)的总线1230以及显示单元1240。
[0193]
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元1210执行,使得所述处理单元1210执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元1210可以执行如图2中所示的步骤s210:获取历史用户的历史患者样本数据,并从所述历史患者样本数据中提取所述历史用户的第一基因点的第一组学数据;步骤s220:获取领域知识,并基于所述第一基因点、第一组学数据以及所述领域知识,构建异构网络;步骤s230:根据所述异构网络,对待训练的网络模型进行训练,得到特征融合模型;其中,所述特征融合模型用于基于领域知识对第一组学数据进行特征融合并基于融合特征进行数据预测。
[0194]
又例如,所述处理单元1210可以执行如图10中所示的步骤s1010:获取当前用户的当前样本数据,并从当前样本数据中提取所述当前用户的第二基因点的第二组学数据;步骤s1020:将所述第二基因点的第二组学数据输入至特征融合模型中,得到数据预测结果;
其中,所述特征融合模型是基于上述任意一项所述的特征融合模型的训练方法进行训练得到的;步骤s1030:根据所述数据预测结果,确定所述当前用户所属的用户类别。
[0195]
存储单元1220可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)12201和/或高速缓存存储单元12202,还可以进一步包括只读存储单元(rom)12203。同时,存储单元1220还可以包括具有一组(至少一个)程序模块12205的程序/实用工具12204,这样的程序模块12205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
[0196]
总线1230可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
[0197]
电子设备1200也可以与一个或多个外部设备1300(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备1200交互的设备通信,和/或与使得该电子设备1200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口1250进行。并且,电子设备1200还可以通过网络适配器1260与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器1260通过总线1230与电子设备1200的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备1200使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
[0198]
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
[0199]
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
[0200]
根据本公开的实施方式的用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0201]
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器
(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0202]
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0203]
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。
[0204]
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0205]
此外,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
[0206]
本领域技术人员在考虑说明书及实践这里发明的发明后,将容易想到本公开的其他实施例。本技术旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。

技术特征:
1.一种特征融合模型的训练方法,其特征在于,包括:获取历史用户的历史患者样本数据,并从所述历史患者样本数据中提取所述历史用户的第一基因点的第一组学数据;获取领域知识,并基于所述第一基因点、第一组学数据以及所述领域知识,构建异构网络;根据所述异构网络,对待训练的网络模型进行训练,得到特征融合模型;其中,所述特征融合模型用于基于领域知识对第一组学数据进行特征融合并基于融合特征进行数据预测。2.根据权利要求1所述的特征融合模型的训练方法,其特征在于,所述领域知识包括生物信号通路以及所述生物信号通路中包括的当前基因点;所述第一组学数据包括dna甲基化数据、基因突变snv数据、拷贝数变异cnv数据以及基因表达数据中的一种或多种。3.根据权利要求1所述的特征融合模型的训练方法,其特征在于,所述异构网络包括第一异构网络和/或第二异构网络;其中,所述第一异构网络为以第一基因点为第一子节点、以第一基因点的第一组学数据为第一子节点的节点特征、以生物信号通路中的当前基因点之间的第一连接关系作为第一连接边,并以由第一基因点构成的第一基因对之间的第二连接关系作为第二连接边的异构网络;所述第二异构网络为以第一基因点为第一子节点、以第一基因点的第一组学数据为第二子节点、以生物信号通路中的当前基因点之间的第一连接关系为第一连接边、以由第一基因点构成的第一基因对之间的第二连接关系作为第二连接边,并以第一子节点以及第二子节点之间的第三连接关系作为第三连接边的异构网络。4.根据权利要求3所述的特征融合模型的训练方法,其特征在于,所述第一异构网络用于反应同一组学数据内的数据之间的关联关系,以及多组学数据间的关联关系;所述第二异构网络用于反应同一组学数据内的数据之间的关联关系,以及多组学数据间的关联关系。5.根据权利要求1所述的特征融合模型的训练方法,其特征在于,所述待训练的网络模型包括待训练的第一网络模型和/或待训练的第二网络模型;所述待训练的第一网络模型包括图网络模型以及第一分类器,所述待训练的第二网络模型包括自动编码模型以及第二分类器;所述图网络模型包括关系图卷积网络模型和/或图注意力网络模型。6.根据权利要求1所述的特征融合模型的训练方法,其特征在于,基于所述第一基因点、第一组学数据以及所述领域知识,构建异构网络,包括:根据第一基因点构建第一子节点集合,并根据第一基因点的第一组学数据,构建第一节点特征集合;根据所述领域知识中包括的生物信号通路以及所述生物信号通路中包括的当前基因点,确定第一基因点之间的第一连接关系,并根据第一连接关系构建第一连接边集合;计算由第一基因点构成的第一基因对之间的第一相关系数,并根据第一相关系数确定第一基因点之间的第二连接关系;
根据第二连接关系构建第二连接边集合,并根据第一子节点集合、第一节点特征集合、第一连接边集合、第二连接边集合,构建第一异构网络。7.根据权利要求1所述的特征融合模型的训练方法,其特征在于,基于所述第一基因点、第一组学数据以及所述领域知识,构建异构网络,还包括:根据第一基因点构建第一子节点集合,并根据第一基因点的第一组学数据,构建第二子节点集合;根据所述领域知识中包括的生物信号通路以及所述生物信号通路中包括的当前基因点,确定第一基因点之间的第一连接关系,并根据第一连接关系构建第一连接边集合;计算由第一基因点构成的第一基因对之间的第一相关系数,并根据第一相关系数确定第一基因点之间的第二连接关系;根据第二连接关系构建第二连接边集合,并根据第一基因点以及第一组学数据之间的第三连接关系,构建第三连接边集合;根据第一子节点集合、第二子节点集合、第一连接边集合、第二连接边集合以及第三连接边集合,构建第二异构网络。8.根据权利要求6或7所述的特征融合模型的训练方法,其特征在于,在所述由第一基因点构成的第一基因对中,包括第一子基因点以及第二子基因点;其中,计算由第一基因点构成的第一基因对之间的第一相关系数,包括:获取由第一基因点构成的第一基因对中第一子基因点的第一子组学数据,以及第二子基因点的第二子组学数据;从第一子组学数据中提取第一子基因表达数据,并从第二子组学数据中提取第二子基因表达数据;基于第一子基因表达数据以及第二子基因表达数据,计算所述第一相关系数。9.根据权利要求1所述的特征融合模型的训练方法,其特征在于,根据所述异构网络,对待训练的网络模型进行训练,得到特征融合模型,包括:根据第一异构网络,对待训练的第一网络模型进行训练,得到第一特征融合模型;和/或根据第二异构网络,对待训练的第二网络模型进行训练,得到第二特征融合模型。10.根据权利要求9所述的特征融合模型的训练方法,其特征在于,根据第一异构网络,对待训练的第一网络模型进行训练,得到第一特征融合模型,包括:将第一异构网络输入至待训练的第一网络模型中的图网络模型中,得到与第一异构网络对应的第一特征表示,并将第一特征表示输入至待训练的第一网络模型中的第一分类器中,得到第一预测标签;根据所述历史用户所具有的真实用户标签以及所述第一预测标签,构建第一目标损失函数,并根据所述第一目标损失函数对所述待训练的第一网络模型进行训练,得到第一特征融合模型。11.根据权利要求9所述的特征融合模型的训练方法,其特征在于,根据第二异构网络,对待训练的第二网络模型进行训练,得到第二特征融合模型,包括:对所述第二异构网络进行表示学习,得到与第二异构网络对应的第二特征表示,并将第一基因点的第一组学数据输入至待训练的第二网络模型中的编码模块,得到与第一组学
数据对应的第一重构数据;根据第一组学数据、第一重构数据以及第二特征表示构建第二目标损失函数,并根据第二目标函数对待训练的第二网络模型中的自动编码模型进行训练,得到训练完成的编码模型;将所述第一组学数据输入至训练完成的编码模型中的编码模块,得到第二重构数据,并将第二重构数据输入至待训练的第二网络模型中的第二分类器,得到第二预测标签;基于第二预测标签以及所述历史用户所具有的真实用户标签,对第二分类器进行训练,得到第二特征融合模型。12.根据权利要求11所述的特征融合模型的训练方法,其特征在于,将第一基因点的第一组学数据输入至待训练的第二网络模型中的编码模块,得到与第一组学数据对应的第一重构数据,包括:通过待训练的第二网络模型中的编码模块中的第一非线性函数对所述第一组学数据进行映射处理,得到中间变量;通过待训练的第二网络模型中的编码模块中的第二非线性函数对中间变量进行映射处理,得到与第一组学数据对应的第一重构数据;其中,所述第一重构数据的数据表达形式与所述第一组学数据的数据表达形式一致。13.根据权利要求11所述的特征融合模型的训练方法,其特征在于,根据第一组学数据、第一重构数据以及第二特征表示构建第二目标损失函数,包括:将第一重构数据输入至待训练的第二网络模型中的解码模块,得到与第二异构网络对应的第三特征表示,并根据第一组学数据以及第一重构数据构建第一子损失函数;根据第二特征表示以及第三特征表示构建第二子损失函数,并根据第一子损失函数以及第二子损失函数构建第二目标函数。14.根据权利要求13所述的特征融合模型的训练方法,其特征在于,根据第一组学数据以及第一重构数据构建第一子损失函数,包括:计算第一组学数据以及第一重构数据之间的第一差值的绝对值,并对所述第一差值的绝对值进行平方运算,得到第一平方计算结果;对第一平方计算结果进行求和,得到第一子损失函数。15.根据权利要求13所述的特征融合模型的训练方法,其特征在于,根据第二特征表示以及第三特征表示构建第二子损失函数,包括:获取第二特征表示中包括的第一基因对中的第一子基因点的第一子向量表示以及第二子基因点的第二子向量表示,并根据第一子向量表示以及第二子向量表示,计算第一基因对的第一相似度;获取第三特征表示中包括的所述第一基因对中的第一子基因点的第三子向量表示以及第二子基因点的第四子向量表示,并根据第三子向量表示以及第四子向量表示,计算第一基因对的第二相似度;计算第一相似度以及第二相似度之间的第二差值的绝对值,并对第二差值的绝对值进行求和,得到第二子损失函数。16.一种癌症用户的分类方法,其特征在于,包括:获取当前用户的当前样本数据,并从当前样本数据中提取所述当前用户的第二基因点
的第二组学数据;将所述第二基因点的第二组学数据输入至特征融合模型中,得到数据预测结果;其中,所述特征融合模型是基于权利要求1-15任一项所述的特征融合模型的训练方法进行训练得到的;根据所述数据预测结果,确定所述当前用户所属的用户类别。17.根据权利要求16所述的癌症用户的分类方法,其特征在于,将所述第二基因点的第二组学数据输入至特征融合模型中,得到数据预测结果,包括:将所述第二基因点的第二组学数据输入至第一特征融合模型中的图网络模型中,得到包括降维后的第二组学数据以及领域知识的第一用户特征表示,并将第一用户特征表示输入至第一特征融合模型中的第一分类器,得到数据预测结果;和/或将所述第二基因点的第二组学数据输入至第二特征融合模型中的自动编码模型中的编码模块,得到包括降维后的第二组学数据以及领域知识的第二用户特征表示,并将第二用户特征表示输入至第二特征融合模型中的第二分类器,得到数据预测结果。18.一种特征融合模型的训练装置,其特征在于,包括:第一组学数据提取模块,用于获取历史用户的历史患者样本数据,并从所述历史患者样本数据中提取所述历史用户的第一基因点的第一组学数据;异构网络构建模块,用于获取领域知识,并基于所述第一基因点、第一组学数据以及所述领域知识,构建异构网络;模型训练模块,用于根据所述异构网络,对待训练的网络模型进行训练,得到特征融合模型;其中,所述特征融合模型用于基于领域知识对第一组学数据进行特征融合并基于融合特征进行数据预测。19.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-15任一项所述的特征融合模型的训练方法,以及权利要求16或17所述的癌症用户的分类方法。20.一种电子设备,其特征在于,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-15任一项所述的特征融合模型的训练方法,以及权利要求16或17所述的癌症用户的分类方法。

技术总结
本公开是关于一种特征融合模型的训练、癌症用户的分类方法及装置、介质,涉及机器学习技术领域,该方法包括:获取历史用户的历史患者样本数据,并从所述历史患者样本数据中提取所述历史用户的第一基因点的第一组学数据;获取领域知识,并基于所述第一基因点、第一组学数据以及所述领域知识,构建异构网络;根据所述异构网络,对待训练的网络模型进行训练,得到特征融合模型;其中,特征融合模型用于基于领域知识对第一组学数据进行特征融合并基于融合特征进行数据预测。本公开实现了组学数据与领域知识的融合。与领域知识的融合。与领域知识的融合。


技术研发人员:张春会
受保护的技术使用者:京东方科技集团股份有限公司
技术研发日:2023.04.14
技术公布日:2023/7/21
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐