一种企业数据库系统合标性评价方法
未命名
07-15
阅读:163
评论:0
1.本发明涉及数据库领域,具体为一种企业数据库系统合标性评价方法。
背景技术:
2.随着互联网和信息技术的发展,企业数据呈海量式增长,并呈现多源异构的特征。企业数据描述源以数据标准文档和数据库系统为主。在企业数据库系统构建和不断迭代更新过程中,可能已出现数据标准文档和数据库系统不匹配的情况,如数据库系统实际构建和迭代更新时所删除的不再具有业务应用需求的部分业务字段,未及时在数据标准文档中予以同步。又或数据库系统为适应具体应用场景更新而新增加的业务字段,以及基于项目实际应用场景所进行的使用性优化如字段冗余设计等,且未及时同步至数据标准文档中,都会造成二者的不匹配问题。鉴于数据标准文档中记录的数据字段,不同业务人员在数据库中的具体实现时可能采用了不同的命名形式,也给不同数据描述源中数据字段的匹配参照,以及异常业务字段的获取造成了较大障碍。因此针对企业,如何进行高效全面的企业数据库系统合标性评价,通过系统合标性评价来把握数据标准文档和数据库系统的匹配度成为一项重要的问题。
3.企业数据库系统合标性评价方法,目前的方法集中在以下几个方面:(1)基于人工对齐的方法:这种方法相对来说最为准确,但需要耗费大量人力和时间成本,且随着信息化时代下数据的爆炸式增长,更是难以商业化。(2)基于深度学习的方法:基于深度学习的信息获取,目前效果最好,但是需要大量人工标注的样本,训练成本很高。
技术实现要素:
4.本发明提供一种企业数据库系统合标性评价方法,包括:关系集定义,知识图谱构建,实体对齐,异常业务字段筛选,系统合标性评价;所述关系集定义,根据企业的不同数据描述源进行对应关系集的定义,分别建立数据标准文档关系集和数据库系统关系集,对业务字段间的关系进行定义和表示;所述知识图谱构建,基于定义的关系集,分别基于数据标准文档和数据库系统提取对应的三元组,并分别构建数据标准文档知识图谱和数据库系统知识图谱;所述实体对齐,将企业数据标准文档知识图谱和数据库系统知识图谱进行图谱对齐,即实体对齐;所述异常业务字段筛选,基于图谱实体对齐结果,结合训练过程中实体相似度衡量,筛选出异常业务字段;所述系统合标性评价,定义企业数据库系统合标性评价指标,并基于实体对齐结果及异常业务字段筛选结果,计算系统合标性评价。
5.进一步地,所述实体对齐包括以下子步骤:s31.定义数据标准文档知识图谱g1=(e1,r1,t1)和数据库系统知识图谱g2=(e2,r2,t2),其中,e表示实体、r表示关系、t表示知识图谱的三元组;s32.神经网络设计,针对企业数据描述源中的多类关系,将其视为不同视图,并采用共有视图嵌入和特有视图嵌入来共同得到实体的最终表示;s33.基于两个知识图谱实体间的距离进行实体对齐。
6.进一步地,所述共有视图嵌入采用gcn,并结合高速门控机制,来提取不区分关系
类型下的实体全局结构信息,作为共有视图特征,其中节点vi的特征更新计算过程为:h
(l+1)
=t(h
(l)
)
·h(l+1)
+(1-t(h
(l)
))
·
h(l),其中,h
(l)
为gcn第l层的输出,作为第l+1层的输入,σ为sigmoid激活函数,
)wt(l)
、b
t(l)
分别为转换门t(h
(l)
)的权重矩阵和偏差向量。
7.进一步地,所述特有视图嵌入采用翻译策略来对不同类型关系信息分别建模,以补充共有视图特征缺失的不同类型关系信息,得到特有视图特征,其关系转换的表示方法如下:w
(h,t)
=σ([h;t]w1+b1),r
final
=r1+r2,其中,w
(h,t)
为基于头尾实体向量经过线性层压缩变换所得的超平面范数向量,r1为关系r进行映射变换得到的嵌入,r2为基于关系r所相关的整体实体信息得到的嵌入,和分别为关系r相关的所有头实体和尾实体的平均嵌入,w1和w2为权重矩阵,b1和b2为偏置项。
[0008]
进一步地,所述实体间距离的计算公式为:f(ei,vj)=||x-y||1,其中,f(x,y)=||x-y||1为第一范式。
[0009]
进一步地,所述异常业务字段筛选包括以下子步骤:s41.取实体对齐模型对训练集正常预测对齐实体时的相似度最小值作为threshold,基于此进行数据标准文档和数据库系统中异常业务字段的筛选;s42.对于数据标准文档业务字段实体到数据库系统业务字段实体的对齐,若其与预测对齐结果的相似度低于threshold,则认为其不存在对齐实体,为废弃业务字段;s43.对于数据库系统业务字段实体到数据标准文档业务字段实体的对齐,若其与预测对齐结果的相似度低于threshold,则认为其不存在对齐实体,为新增业务字段。
[0010]
进一步地,所述系统合标性评价中系统合标性的评价指标包括:实现率(realization_ratio)、冗余率(redundacy_ratio)、滞更率(rag_ratio),其计算方式如下:(realization_ratio)、冗余率(redundacy_ratio)、滞更率(rag_ratio),其计算方式如下:其中,doc_entity_cnt、db_entity_cnt分别表示数据标准文档知识图谱和数据库系统知识图谱的业务字段实体数量,match_entity_cnt为数据标准文档知识图谱和数据库系统知识图谱对齐实体的个数,doc_mismatch_entity_cnt为在数据文档出现而数据库系统中不存在对应匹配的实体个数,即废弃业务字段数量,db_mismatch_entity_cnt为在数据库系统出现而数据文档中不存在对应匹配的实体个数,即新增业务字段数量。
[0011]
本发明提供一种企业数据库系统合标性评价方法,采用了基于深度学习的实体对齐、异常业务字段筛选和系统合标性评价相结合的方法,对于企业数据库系统的合标性评价,即企业数据库系统和数据标准文档的匹配度情况的衡量,具有较好的准确性和全面性,且能够极大地降低时间成本和人力成本。
附图说明
[0012]
图1为本发明提供一种企业数据库系统合标性评价方法的流程图。
具体实施方式
[0013]
以下结合附图对本发明的实施方法进行详细说明,所描述的仅为部分实施例,并非全部实施例,为了清楚的目的,在附图及说明中省略了与本发明无关的表示及描述。
[0014]
如图1所示,本发明提供一种企业数据库系统合标性评价方法,包括:关系集定义,知识图谱构建,实体对齐,异常业务字段筛选,系统合标性评价;所述关系集定义,根据企业的不同数据描述源进行对应关系集的定义,分别建立数据标准文档关系集和数据库系统关系集,对业务字段间的关系进行定义和表示;所述知识图谱构建,基于定义的关系集,分别基于数据标准文档和数据库系统提取对应的三元组,并分别构建数据标准文档知识图谱和数据库系统知识图谱;所述实体对齐,将企业数据标准文档知识图谱和数据库系统知识图谱进行图谱对齐,即实体对齐;所述异常业务字段筛选,基于图谱实体对齐结果,结合训练过程中实体相似度衡量,筛选出异常业务字段;所述系统合标性评价,定义企业数据库系统合标性评价指标,并基于实体对齐结果及异常业务字段筛选结果,计算系统合标性评价。
[0015]
其中,实体对齐包括以下子步骤:s31.定义数据标准文档知识图谱g1=(e1,r1,t1)和数据库系统知识图谱g2=(e2,r2,t2),其中,e表示实体、r表示关系、t表示知识图谱的三元组,同时表名列名均相同的业务字段作为实体对齐种子,实体对齐任务目的在于利用已知实体对齐种子信息来寻找新的对齐实体;s32.神经网络设计,针对企业数据描述源中的多类关系,将其视为不同视图,并采用共有视图嵌入和特有视图嵌入来共同得到实体的最终表示;s33.基于两个知识图谱实体间的距离进行实体对齐。
[0016]
其中,共有视图嵌入采用gcn,并结合高速门控机制,来提取不区分关系类型下的实体全局结构信息,作为共有视图特征,其中节点vi的特征更新计算过程为:h
(l+1)
=t(h
(l)
)
·h(l+1)
+(1-t(h
(l)
))
·
h(l),其中,h
(l)
为gcn第l层的输出,作为第l+1层的输入,σ为sigmoid激活函数,w
t(l)
、b
t(l)
分别为转换门t(h
(l)
)的权重矩阵和偏差向量。
[0017]
特有视图嵌入采用翻译策略来对不同类型关系信息分别建模,以补充共有视图特征缺失的不同类型关系信息,得到特有视图特征,其关系转换的表示方法如下:w
(h,t)
=σ([h;t]w1+b1),r
final
=r1+r2,其中,w
(h,t)
为基于头尾实体向量经过线性层压缩变换所得的超平面范数向量,r1为关系r进行映射变换得到的嵌入,r2为基于关系r所相关的整体实体信息得到的嵌入,和分别为关系r相关的所有头实体和尾实体的平均嵌入,w1和w2为权重矩阵,b1和b2为偏置项。
[0018]
为将不同类型的关系信息集成到实体嵌入当中,以得到更完善的实体表示,本文设置了对齐损失la(align loss)作为实体对齐部分的目标函数,同时设置了三元组损失函数l
t
(triple loss)作为关系转换部分的目标函数。最终目标函数为la,l
t
的结合。通过不断优化最终的目标函数,模型能够不断隐式集成不同类型的关系信息,生成更完善的实体表示:;其中,β为权重系数,s是实体对齐种子集合,s
′
是负实体对齐集,通过用kg1或kg2中随机选择的实体替换对齐种子集合s中实体对的某一实体所得,t是三元组集合,t
′
则是负三元组集合,通过用kg1或
kg2中随机选择的实体替换三元组集合t中三元组的某一实体所得,dist(ei,ej)函数表示实体ei和实体ej的距离,即l1范式,f(h,r,t)=||h+r
final-t||是评估三元组合理性的评分函数,γ1和γ2是边缘超参数。
[0019]
实体间距离的计算公式为:f(ei,vj)=||x-y||1,其中,f(x,y)=||x-y||1为第一范式,其作为实体表示的距离度量,若距离越小,则两实体对齐的概率就越大。
[0020]
实体对齐结果输出的是源实体与所有目标实体的匹配相似度,并根据相似度输出排序最靠前的结果作为对齐结果。但实际上,对于数据标准文档和数据库系统所各自存在的异常业务字段而言,其作为不同数据描述源的特有字段,与对侧实体差异较大且在对侧实体集中没有对齐字段实体,不应参与匹配。
[0021]
异常业务字段筛选包括以下子步骤:s41.取实体对齐模型对训练集正常预测对齐实体时的相似度最小值作为threshold,基于此进行数据标准文档和数据库系统中异常业务字段的筛选;s42.对于数据标准文档业务字段实体到数据库系统业务字段实体的对齐,若其与预测对齐结果的相似度低于threshold,则认为其不存在对齐实体,为废弃业务字段,通常是数据库系统实际构建或更新时所删除的不再具有业务应用需求的部分业务字段,且未在数据标准文档中予以同步所造成的;s43.对于数据库系统业务字段实体到数据标准文档业务字段实体的对齐,若其与预测对齐结果的相似度低于threshold,则认为其不存在对齐实体,为新增业务字段,通常是数据库系统为适应具体应用场景更新而新增加的业务字段,或是基于项目实际场景进行使用性优化的“字段冗余设计”而新增加的业务字段,因未及时同步至数据标准文档所造成的。
[0022]
系统合标性评价中系统合标性的评价指标包括:实现率(realization_ratio)、冗余率(redundacy_ratio)、滞更率(rag_ratio),其计算方式如下:余率(redundacy_ratio)、滞更率(rag_ratio),其计算方式如下:其中,doc_entity_cnt、db_entity_cnt分别表示数据标准文档知识图谱和数据库系统知识图谱的业务字段实体数量,match_entity_cnt为数据标准文档知识图谱和数据库系统知识图谱对齐实体的个数,doc_mismatch_entity_cnt为在数据文档出现而数据库系统中不存在对应匹配的实体个数,即废弃业务字段数量,db_mismatch_entity_cnt为在数据库系统出现而数据文档中不存在对应匹配的实体个数,即新增业务字段数量。
[0023]
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
技术特征:
1.一种企业数据库系统合标性评价方法,其特征在于,包括:关系集定义,知识图谱构建,实体对齐,异常业务字段筛选,系统合标性评价;所述关系集定义,根据企业的不同数据描述源进行对应关系集的定义,分别建立数据标准文档关系集和数据库系统关系集,对业务字段间的关系进行定义和表示;所述知识图谱构建,基于定义的关系集,分别基于数据标准文档和数据库系统提取对应的三元组,并分别构建数据标准文档知识图谱和数据库系统知识图谱;所述实体对齐,将企业数据标准文档知识图谱和数据库系统知识图谱进行图谱对齐,即实体对齐;所述异常业务字段筛选,基于图谱实体对齐结果,结合训练过程中实体相似度衡量,筛选出异常业务字段;所述系统合标性评价,定义企业数据库系统合标性评价指标,并基于实体对齐结果及异常业务字段筛选结果,计算系统合标性评价。2.根据权利要求1所述的一种企业数据库系统合标性评价方法,其特征在于,所述实体对齐包括以下子步骤:s31.定义数据标准文档知识图谱g1=(e1,r1,t1)和数据库系统知识图谱g2=(e2,r2,t2),其中,e表示实体、r表示关系、t表示知识图谱的三元组;s32.神经网络设计,针对企业数据描述源中的多类关系,将其视为不同视图,并采用共有视图嵌入和特有视图嵌入来共同得到实体的最终表示;s33.基于两个知识图谱实体间的距离进行实体对齐。3.根据权利要求2所述的一种企业数据库系统合标性评价方法,其特征在于,所述共有视图嵌入采用gcn,并结合高速门控机制,来提取不区分关系类型下的实体全局结构信息,作为共有视图特征,其中节点v
i
的特征更新计算过程为:h
(l+1)
=t(h
(l)
)
·
h
(l+1)
+(1-t(h
(l)
))
·
h(l),其中,h
(1)
为gcn第1层的输出,作为第1+1层的输入,σ为sigmoid激活函数,w
t(1)
、b
t(1)
分别为转换门t(h
(1)
)的权重矩阵和偏差向量。4.根据权利要求2所述的一种企业数据库系统合标性评价方法,其特征在于,所述特有视图嵌入采用翻译策略来对不同类型关系信息分别建模,以补充共有视图特征缺失的不同类型关系信息,得到特有视图特征,其关系转换的表示方法如下:w
(h,t)
=σ([h;t]w1+b1),),r
final
=r1+r2,其中,w
(ht)
为基于头尾实体向量经过线性层压缩变换所得的超平面范数向量,r1为关系r进行映射变换得到的嵌入,r2为基于关系r所相关的整体实体信息得到的嵌入,和分别为关系r相关的所有头实体和尾实体的平均嵌入,w1和w2为权重矩阵,b1和b2为偏置项。5.根据权利要求2所述的一种企业数据库系统合标性评价方法,其特征在于,所述实体间距离的计算公式为:f(e
i
,v
j
)=||x-y||1,其中,f(x,y)=||x-y||1为第一范式。6.根据权利要求1所述的一种企业数据库系统合标性评价方法,其特征在于,所述异常业务字段筛选包括以下子步骤:s41.取实体对齐模型对训练集正常预测对齐实体时的相似度最小值作为threshold,基于此进行数据标准文档和数据库系统中异常业务字段的筛选;s42.对于数据标准文档业务字段实体到数据库系统业务字段实体的对齐,若其与预测对齐结果的相似度低于threshold,则认为其不存在对齐实体,为废弃业务字段;s43.对于数据库系统业务字段实体到数据标准文档业务字段实体的对齐,若其与预测对齐结果的相似度
低于threshold,则认为其不存在对齐实体,为新增业务字段。7.根据权利要求1所述的一种企业数据库系统合标性评价方法,其特征在于,所述系统合标性评价中系统合标性的评价指标包括:实现率(realization_ratio)、冗余率(redundacy_ratio)、滞更率(rag_ratio),其计算方式如下:(redundacy_ratio)、滞更率(rag_ratio),其计算方式如下:其中,doc_entity_cnt、db_entity_cnt分别表示数据标准文档知识图谱和数据库系统知识图谱的业务字段实体数量,match_entity_cnt为数据标准文档知识图谱和数据库系统知识图谱对齐实体的个数,doc_mismatch_entity_cnt为在数据文档出现而数据库系统中不存在对应匹配的实体个数,即废弃业务字段数量,db_mismatch_entity_cnt为在数据库系统出现而数据文档中不存在对应匹配的实体个数,即新增业务字段数量。
技术总结
本发明公开了一种企业数据库系统合标性评价方法,包括:1.根据企业的不同数据描述源进行对应关系集的定义,分别建立数据标准文档关系集和数据库系统关系集,对业务字段间的关系进行定义和表示;2.分别基于数据标准文档关系集和数据库系统关系集提取对应的三元组,并分别构建数据标准文档知识图谱和数据库系统知识图谱;3.将企业数据标准文档知识图谱和数据库系统知识图谱进行图谱对齐;4.基于图谱实体对齐结果,结合训练过程中实体相似度衡量,筛选出异常业务字段;5.定义企业数据库系统合标性评价指标,并基于实体对齐结果及异常业务字段筛选结果,计算系统合标性评价。具有较好的准确性和全面性,有效地降低了时间成本和人力成本。力成本。力成本。
技术研发人员:林劼 曾祥雨 胡飘 梁玉龙 白毅
受保护的技术使用者:电子科技大学
技术研发日:2023.04.24
技术公布日:2023/7/12
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
