一种基于图结构数据特征的生物信息学分类模型

未命名 07-15 阅读:186 评论:0


1.本发明涉及数据处理技术领域,特别涉及一种基于图结构数据特征的生物信息学分类模型。


背景技术:

2.在现实生活中,存在大量复杂网络数据,如社交网络、知识图谱、蛋白质、病毒、购物网络、分子化合物等,这些数据可以被抽象为一个图。与传统的数据类型相比,图结构数据具有更为复杂的结构和更高的维度,因此对图结构数据的分析和处理也具有更高的挑战性。而深度学习在处理图结构数据方面也表现出了强大的学习能力,因此近年来,越来越多的研究者将深度学习应用于图结构数据分析和处理的领域,如推荐系统、链路预测、图分类、节点分类等领域。
3.图分类任务主要应用于生物信息学分类,包括药物发现,病毒分析、蛋白质分析和分子化合物分析等领域。与图像分类不同,这些复杂网络数据存在大量拓扑结构信息,这些拓扑结构信息对生成整个图的图级表示具有很大影响。但在图分类任务建模的过程中,如何同时捕获图数据的特征信息,生成图级表示,依旧是建模研究的核心问题。在以往的图分类模型建模的过程中,要么集中在图结构的拓扑结构信息建模上,要么集中在图特征信息的建模上,很大程度上忽略了图结构数据中各种信息的融合建模,从而无法获得更好的图的特征表示,影响了生物信息学分类的准确度。


技术实现要素:

4.本发明要解决的技术问题,在于提供一种基于图结构数据特征的生物信息学分类模型,为基于特征融合的图神经网络模型,可以同时捕获图的局部拓扑结构信息、全局拓扑结构信息以及长距离节点的依赖信息,将多种图特征信息融合在一起,更好的生成整个图的特征表示。
5.第一方面,本发明提供了一种基于图结构数据特征的生物信息学分类模型,包括若干个逐级堆叠的特征提取层、若干个读出层以及一个全连接层;任一所述特征提取层包括一图卷积层和一图池化层,所述图卷积层通过所述图池化层对应连接一所述读出层,所述读出层均连接所述全连接层;所述图池化层包括一个三通道池化模块和一个特征融合模块,所述三通道池化模块包括图卷积池化通道、微分池化通道和transformer池化通道,分别用于学习图结构数据的局部拓扑结构信息、全局拓扑结构信息以及节点间特征的依赖信息,所述特征融合模块对所述局部拓扑结构信息、全局拓扑结构信息以及节点间特征的依赖信息进行融合,得到一池化图;前一级所述特征提取层所得的池化图再输入后一级所述特征提取层的图卷积层,任一前级的所述特征提取层所得的池化图由对应的所述读出层提取图特征表示后与最后一级所述特征提取层经由对应的所述读出层提取的图特征表示构成残差连接,再由所述全
连接层输出生物信息学分类的预测结果。
6.本发明实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:提供一种基于图结构数据特征的生物信息学分类模型,模型包括若干个逐级堆叠的特征提取层、若干个读出层以及一个全连接层;任一所述特征提取层包括一图卷积层和一图池化层,其中每个图池化层由一个三通道池化模块以及一个特征融合模块构成,三通道池化模块包括图卷积池化通道、微分池化通道和transformer池化通道,分别用于学习图结构数据的局部拓扑结构信息、全局拓扑结构信息以及节点间特征的依赖信息,从而使构建的模型在图分类任务中具有较好性能表达,从而能更为准确地对图结构数据特征的生物信息学进行分类。
7.上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
8.下面参照附图结合实施例对本发明作进一步的说明。
9.图1为本发明生物信息学分类模型的结构示意图;图2为本发明图池化层的处理原理流程图。
具体实施方式
10.本技术实施例通过提供一种基于图结构数据特征的生物信息学分类模型,为基于特征融合的图神经网络模型,可以同时捕获图的局部拓扑结构信息、全局拓扑结构信息以及长距离节点的依赖信息,将多种图特征信息融合在一起,更好的生成整个图的特征表示。
11.本技术实施例中的技术方案,总体思路如下:提供一种基于图结构数据特征的生物信息学分类模型,模型包括若干个逐级堆叠的特征提取层、若干个读出层以及一个全连接层;任一所述特征提取层包括一图卷积层和一图池化层,其中每个图池化层由一个三通道池化模块以及一个特征融合模块构成,三通道池化模块包括图卷积池化通道、微分池化通道和transformer池化通道,分别用于学习图结构数据的局部拓扑结构信息、全局拓扑结构信息以及节点间特征的依赖信息,从而使构建的模型在图分类任务中具有较好性能表达,以获得图结构数据中各种信息进行融合建模,大大提高了生物信息学的分类准确度。
12.关于图结构数据,对于药物发现,病毒分析、蛋白质分析和分子化合物分析等领域而言,图结构数据对应生物信息学的分子结构,包括原子和原子间的化学键,原子即为节点,化学键即为连接边。因此,图结构数据的特征信息包括节点的特征信息和节点间特征的依赖信息。
13.如图1所示,本实施例提供一种基于图结构数据特征的生物信息学分类模型,包括若干个逐级堆叠的特征提取层、若干个读出层以及一个全连接层;任一所述特征提取层包括一图卷积层和一图池化层,所述图卷积层通过所述图池化层对应连接一所述读出层,所述读出层均连接所述全连接层;所述图池化层包括一个三通道池化模块和一个特征融合模块,所述三通道池化模块包括图卷积池化通道、微分池化通道和transformer池化通道,分别用于学习图结构数据
的局部拓扑结构信息、全局拓扑结构信息以及节点间特征的依赖信息,所述特征融合模块对所述局部拓扑结构信息、全局拓扑结构信息以及节点间特征的依赖信息进行融合,得到一池化图;前一级所述特征提取层所得的池化图再输入后一级所述特征提取层的图卷积层,任一前级的所述特征提取层所得的池化图由对应的所述读出层提取图特征表示后与最后一级所述特征提取层经由对应的所述读出层提取的图特征表示构成残差连接,再由所述全连接层输出生物信息学分类的预测结果。
14.下面对基于图结构数据特征的生物信息学分类模型的各个组成部分进行具体的描述。
15.所述特征提取层,用于提取图结构数据的特征信息和拓扑结构信息并进行特征融合。生物信息学分类模型具有若干个特征提取层逐级堆叠,任一所述特征提取层包括一图卷积层和一图池化层。所谓逐级堆叠即前一级特征提取层中的图池化层连接后一级特征提取层中的图卷积层。
16.图卷积层:用于聚合节点自身以及周围邻居节点的特征信息。对于每个节点而言,要考虑该节点受其所有周围邻居节点及其自身的影响。而图卷积神经网络可以聚合节点自身以及周围邻居节点的特征信息,其传播公式如下:
17.图池化层:用于捕获图特征信息。图特征信息的捕获是图分类任务的关键任务。图池化层可以有效捕获图结构数据的拓扑结构、深层节点特征等信息。如图2所示,本发明的图池化层为一种端到端的三通道池化图神经网络模型,其主要由一个三通道池化模块和一个特征融合模块组成,其中,三通道池化模块包括图卷积池化通道、微分池化通道和transformer池化通道;特征融合模块又由跨通道卷积模块和聚合模块组成。
18.三通道池化模块:通道一,即所述transformer池化通道,是基于top-k的池化模型来捕获节点间特征的依赖信息,即节点长距离依赖信息,top-k的池化模型的得分计算方式是由transformer将图进行转换后得出,计算公式如下:
19.是经过transformer模块之后由节点特征x变换得到的特征矩阵,该特征矩阵作为特征进行计算;是一个可学习参数矩阵,用于学习节点每一个特征维度对节点总体特征的影响,表示实数矩阵,表示节点特征维度;
是图结构数据的所有节点的得分,是图结构数据每个节点的得分,表示实数矩阵,表示原始节点数量;会根据基于节点长距离依赖信息计算的得分对节点进行排序,排序后,会取出得分最高的个节点的,作为保留节点,保留节点被视为图结构数据中重要的节点,其余节点被丢弃;在其余节点被丢弃后,将被丢弃节点的特征信息按照一定比例汇聚到了保留节点上,具体公式如下:式中:是被丢弃节点的;是被丢弃节点的特征信息的聚合矩阵,被丢弃节点的特征信息是沿图结构数据的边进行聚合到保留节点特征信息上面的,表示实数矩阵,表示保留节点数量,表示原始节点数量;经过transformer池化通道后生成的节点特征矩阵。
20.通道二,即所述微分池化通道,用于捕获全局拓扑结构信息,并生成一个粗化后的子图。本发明设计了一种图聚类算法,使用图卷积神经网络学习软分配矩阵用于生成粗化图,分配矩阵由以下公式生成:
21.式中:表示转置符号。
22.通道三,即所述图卷积池化通道,用于捕获图中的局部拓扑结构信息,本发明的图卷积池化通道是基于图卷积神经网络的节点投票型图池化方法,这种节点投票型图池化方法是利用图卷积神经网络来捕获图结构数据中节点间的局部拓扑结构信息,其节点得分计算方式如下:
23.式中:是一个可学习参数,用于学习图结构数据的节点的每一个特征对节点总体特征的影响,表示实数矩阵,表示节点特征维度;是图结构数据所有节点的得分,是图结构数据所有节点的得分,是图结构数据所有节点的得分,是图结构数据每个节点在所述图卷积池化通道的得分,表示实数矩阵,表示原始节点数量;
会根据基于节点长距离依赖信息计算的得分对节点进行排序,排序后,会取出得分最高的个节点个节点的,作为保留节点的,保留节点被视为图结构数据中重要的节点,而其余节点被丢弃;在丢弃节点后,将被丢弃节点的特征信息按照一定比例汇聚到了保留节点上,具体公式如下:
24.式中:是被丢弃节点的 ;是被丢弃节点的特征信息的聚合矩阵,表示实数矩阵,表示原始节点数量,表示原始节点数量;是经过图卷积池化通道后生成的节点特征矩阵。
25.特征融合模块:包括跨通道卷积模块和聚合模块;所述跨通道卷积模块是采用跨通道卷积方法将所述transformer池化通道的节点间特征的依赖信息和所述微分池化通道的全局拓扑结构信息融合到一起,以及将所述图卷积池化通道的局部拓扑结构信息和所述微分池化通道的全局拓扑结构信息融合到一起,从而得到两张跨通道聚合池化图,跨通道卷积方法的公式为:式中:包括和,为所述transformer池化通道中保留节点经跨通道卷积之后生成的节点特征矩阵;为所述图卷积池化通道中保留节点经跨通道卷积之后生成的节点特征矩阵;包括和,是经过transformer池化通道后生成的节点特征矩阵,是经过图卷积池化通道后生成的节点特征矩阵;是经过所述微分池化通道之后生成的节点特征矩阵;表示的是向进行转换的转换矩阵,其中表示实数矩阵,代表所述transformer池化通道或所述图卷积池化通道中生成的图结构数据的节点数量,代表所述微分池化通道生成的图结构数据的节点数量;其中是微分池化通道中通过图神经网络学习到的软分配矩阵;通过上述操作之后,就拥有了两张跨通道聚合池化图,为了聚合这两张跨通道聚合池化图的信息,本发明设计了一个聚合模块。
26.所述聚合模块将transformer池化通道中保留节点的索引表示为,所述图卷积池化通道中保留节点索引表示为;将transformer池化通道与图卷积池化通道中都存在的节点特征的平均值作为新节点的特征,将仅存在于transformer池化通道或者图卷积池化通道中的节点的特征作为新节点的特征;所谓的新节点即为聚合模块处理后的图结构数
据的节点,具体公式如下:
[0027] 通过索引提取由原始图结构数据的最具代表性节点组成的子图,其邻接矩阵表示为:
[0028] 读出层,使用读出函数提取每个所述池化图的图特征表示,所述读出函数为:其中表示所述池化图的特征表示,表示节点特征维度,表示所述池化图的节点数目。
[0029]
每一特征提取层的图池化层均连接一读出层,任一前级的所述特征提取层所得的池化图由对应的所述读出层提取图特征表示后与最后一级所述特征提取层经由对应的所述读出层提取的图特征表示构成残差连接,可以缓解模型的过平滑和过拟合现象。
[0030]
全连接层,包含全连接层与激活函数,采用多层感知机作为分类器,对输入的图特征表示进行分类,其公式如下:
[0031]
其中是图结构数据预测的生物信息学类别。
[0032]
基于图结构数据特征的生物信息学分类模型最终经全连接层得到最终的输出预测结果。
[0033]
下现举例说明基于图结构数据特征的生物信息学分类模型的实现过程,其包括如下步骤:s1、图数据预处理:选取公共蛋白质数据集dd和生物医药数据集nci1用于模型验证使用,按照7:1.5:1.5的比例把数据集划分为训练集、验证集、测试集三个部分,并统一进行标准化处理。
[0034]
s2、图神经网络模型的建立,为了完成提取图数据的特征和拓扑结构信息,实现蛋白质属性的预测任务,本发明在模型结构上采用分层池化结构,即将图结构数据分层采样,每层降低节点数目,并对每一层的节点特征进行汇聚,最终得到一个整体的特征向量表示。
[0035]
fipool模型由若干个特征提取层堆叠而成,特征提取层包含图卷积层和图池化
层,以进行图数据的特征提取和融合。为提取图结构数据的特征信息和拓扑结构信息,fipool模型设计了三通道图池化层,以有效地学习图结构数据的局部拓扑结构信息、全局拓扑结构信息以及节点间特征的依赖信息;图池化层还包含特征融合模块可以通过不同通道之间进行卷积计算的方式,有效聚合不同通道的特征信息。
[0036]
特征提取层除最后一个外都经读出层与最后输出构成残差连接,全连接层用于输出分类预测结果。
[0037]
s3、模型训练及参数调优:对于输入的图结构数据的序列经过s1后,输入到s2构建的模型当中,通过模型的最后一个全连接层,最后输出分类预测结果。在整个模型训练的过程中,通过调整损失函数、优化器函数、可学习的超参数最后寻找使得模型在测试数据集上表现性能最佳的超参数组合,建立模型。
[0038]
s4、图神经网络模型性能分析与评价:将所建立的模型与一些基准模型以设定的评价指标为标准进行对比分析,用于验证评价模型的性能。
[0039]
本技术实施例提供的方法、装置、系统、设备及介质,至少具有如下技术效果或优点:供一种基于图结构数据特征的生物信息学分类模型,模型包括若干个逐级堆叠的特征提取层、若干个读出层以及一个全连接层;任一所述特征提取层包括一图卷积层和一图池化层,其中每个图池化层由一个三通道池化模块以及一个特征融合模块构成,三通道池化模块包括图卷积池化通道、微分池化通道和transformer池化通道,分别用于学习图结构数据的局部拓扑结构信息、全局拓扑结构信息以及节点间特征的依赖信息,从而使构建的模型在图分类任务中具有较好性能表达,从而能更为准确地对图结构数据特征的生物信息学进行分类。
[0040]
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。

技术特征:
1.一种基于图结构数据特征的生物信息学分类模型,其特征在于:包括若干个逐级堆叠的特征提取层、若干个读出层以及一个全连接层;任一所述特征提取层包括一图卷积层和一图池化层,所述图卷积层通过所述图池化层对应连接一所述读出层,所述读出层均连接所述全连接层;所述图池化层包括一个三通道池化模块和一个特征融合模块,所述三通道池化模块包括图卷积池化通道、微分池化通道和transformer池化通道,分别用于学习图结构数据的局部拓扑结构信息、全局拓扑结构信息以及节点间特征的依赖信息,所述特征融合模块对所述局部拓扑结构信息、全局拓扑结构信息以及节点间特征的依赖信息进行融合,得到一池化图;前一级所述特征提取层所得的池化图再输入后一级所述特征提取层的图卷积层,任一前级的所述特征提取层所得的池化图由对应的所述读出层提取图特征表示后与最后一级所述特征提取层经由对应的所述读出层提取的图特征表示构成残差连接,再由所述全连接层输出生物信息学分类的预测结果。2.根据权利要求1所述的一种基于图结构数据特征的生物信息学分类模型,其特征在于:所述transformer池化通道是基于top-k的池化模型来捕获节点间特征的依赖信息,top-k的池化模型的得分计算方式是由transformer将图进行转换后得出,计算公式如下:式中:是经过transformer模块之后由节点特征x变换得到的特征矩阵,该特征矩阵作为特征进行计算;是一个可学习参数矩阵,用于学习节点每一个特征维度对节点总体特征的影响,表示实数矩阵,表示节点特征维度;是图结构数据的所有节点的得分,是图结构数据每个节点的得分,表示实数矩阵,表示原始节点数量;会根据基于节点长距离依赖信息计算的得分对节点进行排序,排序后,会取出得分最高的个节点的,作为保留节点,保留节点被视为图结构数据中重要的节点,其余节点被丢弃;在其余节点被丢弃后,将被丢弃节点的特征信息按照一定比例汇聚到了保留节点上,具体公式如下:式中:是被丢弃节点的;是被丢弃节点的特征信息的聚合矩阵,被丢弃节点的特征信息是沿图结构数据的边进行聚合到保留节点特征信息上面的,表示实数矩阵,表示保留节点数
量,表示原始节点数量;是经过transformer池化通道后生成的节点特征矩阵。3.根据权利要求1所述的一种基于图结构数据特征的生物信息学分类模型,其特征在于:所述微分池化通道使用图卷积神经网络学习软分配矩阵用于生成粗化图,分配矩阵由以下公式生成:式中:表示邻接矩阵;表示节点特征矩阵;在得到分配矩阵之后,粗化图的特征矩阵与邻接矩阵由如下公式生成:式中:表示转置的数学符号。4.根据权利要求1所述的一种基于图结构数据特征的生物信息学分类模型,其特征在于:所述图卷积池化通道是基于图卷积神经网络的节点投票型图池化方法,这种节点投票型图池化方法是利用图卷积神经网络来捕获图结构数据中节点间的局部拓扑结构信息,其节点得分计算方式如下:式中:是一个可学习参数,用于学习图结构数据的节点的每一个特征对节点总体特征的影响,表示实数矩阵,表示节点特征维度;是图结构数据所有节点的得分,是图结构数据每个节点在所述图卷积池化通道的得分,表示实数矩阵,表示原始节点数量;会根据基于节点长距离依赖信息计算的得分对节点进行排序,排序后,会取出得分最高的个节点个节点的,作为保留节点的,保留节点被视为图结构数据中重要的节点,而其余节点被丢弃;在丢弃节点后,将被丢弃节点的特征信息按照一定比例汇聚到了保留节点上,具体公式如下:式中:是被丢弃节点的;是被丢弃节点的特征信息的聚合矩阵,表示实数矩阵,表示原始节点数量,表示保留节点数量;是经过图卷积池化通道后生成的节点特征矩阵。5.根据权利要求1所述的一种基于图结构数据特征的生物信息学分类模型,其特征在于:所述特征融合模块包括跨通道卷积模块和聚合模块;所述跨通道卷积模块是采用跨通道卷积方法将所述transformer池化通道的节点间特征的依赖信息和所述微分池化通道的全局拓扑结构信息融合到一起,以及将所述图卷积池化通道的局部拓扑结构信息和所述微分池化通道的全局拓扑结构信息融合到一起,从而得到两张跨通道聚合池化图,跨通道卷积方法的公式为:式中:
包括和,为所述transformer池化通道中保留节点经跨通道卷积之后生成的节点特征矩阵;为所述图卷积池化通道中保留节点经跨通道卷积之后生成的节点特征矩阵;表示激活函数;包括和,是经过transformer池化通道后生成的节点特征矩阵,是经过图卷积池化通道后生成的节点特征矩阵;是经过所述微分池化通道之后生成的节点特征矩阵;表示的是向进行转换的转换矩阵,其中表示实数矩阵,代表所述transformer池化通道或所述图卷积池化通道中生成的图结构数据的节点数量,代表所述微分池化通道生成的图结构数据的节点数量;其中是微分池化通道中通过图神经网络学习到的软分配矩阵;所述聚合模块将transformer池化通道中保留节点的索引表示为,所述图卷积池化通道中保留节点索引表示为;将transformer池化通道与图卷积池化通道中都存在的节点特征的平均值作为新节点的特征,将仅存在于transformer池化通道或者图卷积池化通道中的节点的特征作为新节点的特征;具体公式如下:通过索引提取由原始图结构数据的最具代表性节点组成的子图,其邻接矩阵表示为:其中:表示通过索引提取由原始图结构数据的最具代表性节点组成的子图的邻接矩阵;表示要保留的节点的数量;是原始图结构数据中节点总数;然后使用下面两个公式生成所述池化图:其中其中是聚合后图结构数据的节点特征,是聚合后图结构数据的邻接矩阵。6.根据权利要求1所述的一种基于图结构数据特征的生物信息学分类模型,其特征在于:所述读出层使用读出函数提取每个所述池化图的图特征表示,所述读出函数为:其中表示所述池化图的特征表示,表示节点特征维度,表示所述池化图的节点数目。7.根据权利要求1所述的一种基于图结构数据特征的生物信息学分类模型,其特征在于:所述全连接层采用多层感知机作为分类器,对输入的图特征表示进行分类,其公式
其中是图结构数据预测的生物信息学类别。

技术总结
本发明提供一种基于图结构数据特征的生物信息学分类模型,包括若干个逐级堆叠的特征提取层;任一特征提取层包括一图卷积层和一图池化层;图池化层包括一个三通道池化模块和一个特征融合模块,三通道池化模块包括图卷积池化通道、微分池化通道和Transformer池化通道,分别用于学习图结构数据的局部拓扑结构信息、全局拓扑结构信息以及节点间特征的依赖信息并进行融合;任一前级的特征提取层所得的池化图由对应的读出层提取图特征表示后与最后一级特征提取层经由对应的读出层提取的图特征表示构成残差连接,再由全连接层输出生物信息学分类的预测结果。由于本发明能将多种图特征信息融合在一起,能更好的生成整个图的特征表示,使分类更为准确。使分类更为准确。使分类更为准确。


技术研发人员:魏玉锌 王翔
受保护的技术使用者:福建工程学院
技术研发日:2023.06.06
技术公布日:2023/7/12
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐