用于知识图谱的数据分析方法、装置、设备及存储介质与流程
未命名
08-14
阅读:255
评论:0
1.本发明的实施方式涉及人工智能技术领域。更具体地,本发明的实施方式涉及用于知识图谱的数据分析方法、数据分析装置、电子设备及存储介质。
背景技术:
2.本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念,但不一定是之前已经想到或者已经探究的概念。因此,除非在此指出,否则在本部分中描述的内容对于本技术的说明书和权利要求书而言不是现有技术,并且并不因为包括在本部分中就承认是现有技术。
3.随着信息技术的快速发展,企业和组织产生大量的内部业务数据,如何高效地分析和利用这些业务数据是提升企业和组织业务管理能力的重要课题,同时也是将业务数据转化成具有商业价值的数据资产,实现数据驱动业务增长的重要途径。
4.由于业务种类和子系统繁多、业务逻辑复杂以及业务数据量庞大等原因,传统的数据分析方法通常需要专业的数据分析师和复杂的数据分析工具,借助人力的数据分析方式不仅对于技术人员的专业性要求较高,且分析人效较低,还会给企业带来了较高的成本和操作难度。
5.有鉴于此,提供一种高效的基于垂直业务领域的数据分析方案,成为了当前业务数据分析场景下的迫切需求。
技术实现要素:
6.在现有技术中,借助专业数据分析师和数据分析工具来完成海量业务数据管理,不仅人效较低,还会耗费大量的时间和人力成本,这是非常令人烦恼的过程。
7.因此,非常需要一种改进的高效数据分析方案,以将人工智能强大的自然语言处理能力应用至业务数据的分析和处理场景下,从而提供一种基于垂直领域的交互式数据分析方案,降低业务数据使用门槛,帮助数据分析人员快速生成复杂的取数逻辑与结果,提升分析人效,实现更便捷的数据分析方案,进而降低企业成本和数据管理难度。
8.在本上下文中,本发明的实施方式期望提供一种用于知识图谱的数据分析方法、装置、设备及存储介质。
9.在本发明实施方式的第一方面中,提供了一种用于知识图谱的数据分析方法包括:接收问题信息;根据问题信息从知识图谱中进行相似度匹配,以得到匹配结果;响应于匹配结果满足预设条件,确定问题信息的问题类型;响应于问题类型为业务场景问题,利用自然语言处理模型将匹配结果转化成自然语言形式;以及利用自然语言处理模型对自然语言形式的匹配结果进行处理,以生成分析结果并输出。
10.在本发明的一个实施例中,该业务场景问题包括业务咨询问题,其中生成分析结果包括:响应于问题类型为业务咨询问题,将自然语言形式的匹配结果中的元数据、分析过程和分析结论的一个或多个作为分析结果。
11.在本发明的另一实施例中,该业务场景问题还包括业务分析问题,该业务分析问题包括i类分析问题和/或ii类分析问题,响应于问题类型为业务分析问题,其中生成分析结果还包括:响应于业务分析问题为i类分析问题,将自然语言形式的匹配结果中的元数据、分析过程和基于问题信息转化的结构化查询sql语句的一个或多个作为分析结果;和/或响应于业务分析问题为ii类分析问题,将自然语言形式的匹配结果中的元数据和问题信息关联的人员信息的一个或多个作为分析结果。
12.在本发明的又一个实施例中,其中确定问题信息的问题类型包括:根据用户类型信息、问题信息中的关键词和/或问题信息的语义解析结果确定问题类型。
13.在本发明的再一个实施例中,其中根据用户类型信息、问题信息中的关键词和/或问题信息的语义解析结果确定问题类型包括:确定关键词和语义解析结果分别的权重值;根据关键词和语义解析结果及其分别的权重值进行加权计算;以及根据加权计算结果确定问题类型。
14.在本发明的一个实施例中,该业务场景问题包括业务分析问题,该业务分析问题包括i类分析问题和ii类分析问题,若根据加权计算结果确定问题类型为业务分析问题,则其中根据用户类型信息、问题信息中的关键词和/或问题信息的语义解析结果确定问题类型还包括:响应于用户类型信息为专业人员,确定问题类型为i类分析问题;以及响应于用户类型信息为非专业人员,确定问题类型为ii类分析问题。
15.在本发明的另一实施例中,其中根据关键词确定问题类型包括:从问题信息中摘取出关键词;关键词存在于预设关键词列表;以及以关键词在预设关键词列表中所关联的问题类型作为问题信息的问题类型。
16.在本发明的又一个实施例中,其中根据语义解析结果确定问题类型包括:对问题信息进行语义解析,得到语义解析结果;基于语义解析结果在知识图谱的历史问题中进行语义相关性匹配;以及以语义相关性最高的历史问题所属问题类型作为问题信息的问题类型。
17.在本发明的再一个实施例中,响应于业务分析问题为i类分析问题,分析结果还包括sql语句的执行结果,其中sql语句根据以下步骤执行:判断sql语句中是否含有必要限制条件;响应于sql语句中不含有必要限制条件,则设置limit子句后,获取sql语句包含的表所属的数据库连接信息;响应于sql语句中含有必要限制条件,依据必要限制条件获取sql语句包含的表所属的数据库连接信息;以及基于数据库连接信息执行sql语句,得到执行结果。
18.在本发明的一个实施例中,在接收问题信息之前,该方法还包括:构建知识图谱并将其进行向量化表示;根据问题信息进行相似度匹配包括:根据向量化后的问题信息在向量化表示的知识图谱中进行相似度匹配。
19.在本发明的另一实施例中,在向量化表示的知识图谱中,业务数据中的敏感数据与元数据通过同态化加密技术进行加密。
20.在本发明的又一个实施例中,该业务场景问题包括业务咨询问题,在得到匹配结果之后,该方法还包括:响应于业务场景问题为业务咨询问题,对匹配结果中的敏感数据与元数据进行同态化解密。
21.在本发明的再一个实施例中,该问题类型包括业务场景问题和/或通用场景问题,
该方法还包括:响应于问题类型为通用场景问题,利用自然语言处理模型分析问题信息,以生成分析结果并输出。
22.在本发明的一个实施例中,该预设条件包括匹配结果的相似度最大值小于预设相似度阈值,该方法还包括:响应于匹配结果不满足预设条件,输出相似度最大值所对应的匹配结果。
23.在本发明的另一实施例中,响应于问题类型为业务场景问题,其中利用自然语言处理模型将匹配结果转化成自然语言形式包括:按照相似度由大至小的顺序对多个匹配结果进行排序;以及利用自然语言处理模型对排名位于前n位的匹配结果进行转换,以将其转化成自然语言形式,其中n表示正整数。
24.在本发明的又一个实施例中,其中根据问题信息进行相似度匹配包括:在知识图谱中确定匹配节点或匹配文本;以及分析匹配节点的节点信息或匹配文本,以得到匹配节点的节点信息或匹配文本与问题信息之间的关系,作为匹配结果;其中节点信息包括节点属性和节点间的关系。
25.在本发明的再一个实施例中,其中构建知识图谱并将其进行向量化表示包括:收集业务数据,以构成业务数据库;对业务数据库进行预处理,得到预处理业务数据库;预处理包括以下处理中的一个或多个:数据抽取、数据清洗、数据存储和数据加密;以及对预处理业务数据库进行向量化处理,并添加标签和元数据,得到向量化表示的知识图谱。
26.在本发明实施方式的第二方面中,提供了一种数据分析装置,包括:信息交互模块,用于接收问题信息,以及将生成的分析结果输出给用户;知识图谱匹配模块,其存储有知识图谱,用于根据问题信息从知识图谱中进行相似度匹配,以得到匹配结果;匹配结果判断模块,用于判断匹配结果是否满足预设条件,并在匹配结果满足预设条件时,将问题信息发送至问题类型确定模块;问题类型确定模块,用于确定问题信息的问题类型;以及自然语言处理模块,其搭载有自然语言处理模型,用于响应于问题类型为业务场景问题,利用自然语言处理模型将匹配结果转化成自然语言形式;以及利用自然语言处理模型对自然语言形式的匹配结果进行处理,以生成分析结果。
27.在本发明实施方式的第三方面中,提供了一种电子设备包括:处理器;以及存储器,其上存储有可执行代码,当可执行代码被处理器执行时,使处理器执行如第一方面的方法。
28.在本发明实施方式的第四方面中,提供了一种非暂时性计算机可读存储介质,其上存储有可执行代码,当可执行代码被电子设备的处理器执行时,使处理器执行如第一方面的方法。
29.根据本发明实施方式的数据分析方法,可以在确定问题信息为业务场景问题后,利用自然语言处理模型的自然语言能力实现用户与系统之间的自然语言交互。通过这样的方式,本发明的方案可以更好更高效地理解问题信息,并结合知识图谱查询技术精准地检索出匹配结果,并以自然语言形式进行匹配结果的描述与传达。当同时利用自然语言处理模型的ai能力,对该自然语言形式的匹配结果进行准确、智能的数据分析时,本发明的方案可以显著地降低业务数据分析的门槛,并且提高了数据分析的效率。由此,本发明的方案也减少了业务数据管理的时间和成本,为用户带来了更好的体验。
附图说明
30.通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
31.图1示意性地示出了适于实现本发明实施方式的示例性计算系统100的框图;
32.图2示意性地示出了根据本发明实施例的数据分析方法200的流程图;
33.图3示意性地示出了根据本发明一些实施例的sql语句执行方法300的流程图;
34.图4示意性地示出了根据本发明一些实施例的问题类型确定方法400的流程图;
35.图5示意性地示出了根据本发明另一些实施例的问题类型确定方法500的流程图;
36.图6示意性地示出了根据本发明又一些实施例的问题类型确定方法600的流程图;
37.图7示意性地示出了根据本发明另一些实施例的数据分析方法700的流程图;
38.图8示意性地示出了根据本发明一些实施例的知识图谱构建方法800的流程图;
39.图9示意性地示出了根据本发明一些实施例的数据分析装置900的框图;
40.图10示意性地示出了根据本发明一些实施例的电子设备1000的框图;
41.在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
42.下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
43.图1示出了适于实现本发明实施方式的示例性计算系统100的框图。如图1所示,计算系统100可以包括:中央处理单元(cpu)101、随机存取存储器(ram)102、只读存储器(rom)103、系统总线104、硬盘控制器105、键盘控制器106、串行接口控制器107、并行接口控制器108、显示控制器109、硬盘110、键盘111、串行外部设备112、并行外部设备113和显示器114。这些设备中,与系统总线104耦合的有cpu 101、ram 102、rom 103、硬盘控制器105、键盘控制器106、串行控制器107、并行控制器108和显示控制器109。硬盘110与硬盘控制器105耦合,键盘111与键盘控制器106耦合,串行外部设备112与串行接口控制器107耦合,并行外部设备113与并行接口控制器108耦合,以及显示器114与显示控制器109耦合。应当理解,图1所述的结构框图仅仅是为了示例的目的,而不是对本发明范围的限制。在某些情况下,可以根据具体情况增加或减少某些设备。
44.本领域技术技术人员知道,本发明的实施方式可以实现为一种系统、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
45.可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是,但不限于,电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读
存储介质的更具体的例子(非穷举示例)例如可以包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
46.计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
47.计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、rf等等,或者上述的任意合适的组合。
48.可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络(包括局域网(lan)或广域网(wan))连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
49.下面将参照本发明实施例的方法的流程图和设备(或系统)的框图描述本发明的实施方式。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,这些计算机程序指令通过计算机或其它可编程数据处理装置执行,产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。
50.也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置的产品。
51.也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
52.根据本发明的实施方式,提出了一种用于知识图谱的数据分析方法和设备。
53.在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
54.下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。发明概述
55.本发明人发现,传统的数据分析往往对数据分析师具有较高的专业度要求,必要
属性-值(subject-predicate-object),例如可以用一条三元组《浙江大学,位于,杭州》来描述一条知识,一条三元组代表关于客观世界的逻辑描述或客观事实,多个三元组头尾相互连接,就形成了一个rdf图。
67.在基于图的符号化知识表示的基础上,还可以通过学习图的特征,为知识图谱中的每一个实体和关系得到一个向量表示。利用向量、矩阵或张量之间的计算可以实现高效的知识推理计算。
68.在本实施例中,可以将知识图谱进行向量化表示,通过嵌入将知识图谱中的实体和关系投射到一个低维的连续向量空间,可以为每一个实体和关系学习出一个低维度的向量表示。这种基于连续向量的知识表示可以实现通过数值运算来发现新事实和新关系,并能更有效发现更多的隐形知识和潜在假设,以便于采用统计或者神经网络的方法进行推理,进而对知识图谱中的实体关系进行预测。
69.基于向量化表示的知识图谱,步骤s202则可以根据向量化后的问题信息在向量化表示的知识图谱中进行相似度匹配,从而得到匹配结果。该过程中,可以借助openai将问题信息转换成向量表示形式。
70.示例性地,相似度匹配的过程包括如下步骤:
71.在知识图谱中确定匹配节点或匹配文本;
72.分析匹配节点的节点信息或匹配文本,以得到匹配节点的节点信息或匹配文本与问题信息之间的关系,作为匹配结果。
73.其中节点信息包括节点属性和节点间的关系。在知识图谱中,每个节点为一个实体或概念,对应业务数据中的一个文档或代码等等,节点之间的边表示节点间的关系,即文档或代码之间的关系。
74.在一些实施例中,可以使用余弦相似度等方法进行相似度计算,从而在知识图谱中得到匹配节点或匹配文本。
75.在步骤s203中,响应于匹配结果满足预设条件,确定问题信息的问题类型。在本实施例中,其中一种可识别的问题类型为业务场景问题,业务场景问题可以理解为需要运用知识图谱中的知识来进行解答的一类问题,例如,关于报表中某一列数据的业务含义以及某一应用软件的日活分析等等。
76.与之相对地,在一些实施例中,另一种可识别的问题类型为通用场景问题,此类问题往往不涉及知识图谱中的数据,利用自然语言处理模型直接分析改问题信息,即可生成分析结果并输出。
77.示例性地,通用场景问题可以理解为基于互联网公开信息即可进行解答的问题,例如有关通用概念的解释。
78.在步骤s204中,响应于问题类型为业务场景问题,利用自然语言处理模型将匹配结果转化成自然语言形式。
79.示例性地,步骤s204的执行过程如下:
80.通过相似度匹配,可以从知识图谱中获取到一个或多个匹配结果,针对这些匹配结果,按照相似度由大至小的顺序进行排序,利用自然语言处理模型对排名位于前n位的匹配结果进行转换,以将其转化成自然语言形式,其中n表示正整数。
81.步骤s204利用了自然语言处理模型的自然语言生成能力,将使用机器语言进行描
述的数据转换为自然语言的描述结果。
82.在步骤s205中,利用自然语言处理模型对自然语言形式的匹配结果进行处理,以生成分析结果并输出。
83.进一步地,以自然语言形式的匹配结果为依据,利用自然语言处理模型具备的学习推理能力,对得到的匹配结果进行统计和分析,生成以自然语言描述的分析结果后将其传达给用户。
84.上述数据分析方法支持用户与系统之间使用自然语言进行交互,利用自然语言处理模型的自然语言能力帮助机器更好地理解问题信息,有助于对知识图谱进行精准检索和分析,以及实现分析结果的高效传达,不仅提高了数据分析的效率,还降低了业务数据分析的门槛。
85.进一步地,还可以对业务场景问题进行细分,其中一种业务场景问题为业务咨询问题,此类业务场景问题包括对知识图谱中实体、概念及其关系的查询问题等等,例如业务咨询问题可以用于帮助用户查找表。
86.响应于问题类型为业务咨询问题,自然语言处理模型所生成的分析结果包括自然语言形式的匹配结果中的元数据、分析过程和分析结论的一个或多个。
87.在另一些实施例中,另一种业务场景问题可以为业务分析问题,区别于业务咨询问题,业务分析问题需要基于知识图谱中实体、概念及其关系进行进一步的数据整理和计算,从而得到新事实和新关系作为解答。
88.业务分析问题也可以进一步细分,具体地,业务分析问题包括i类分析问题和/或ii类分析问题。
89.具体地,i类分析问题和ii类分析问题可以根据用户类型信息进行区分,i类分析问题为专业人员提出的问题信息,ii类分析问题为非专业人员提出的问题信息。
90.需要说明的是,在步骤s205中,响应于业务分析问题为i类分析问题,自然语言处理模型所生成的分析结果包括自然语言形式的匹配结果中的元数据、分析过程和基于问题信息转化的结构化查询sql语句的一个或多个。
91.进一步地,响应于业务分析问题为i类分析问题,分析结果还可以包括系统功能信息,该系统功能信息指向业务域的某一个系统的某一项功能,该功能能够解决当前提出的问题。
92.在一些实施例中,执行该基于问题信息转化的sql语句,能够调用数据库链接以查询到相应的结果,并可以将结果转化成图表或其他形式。假设sql语句不可执行,则可以将sql报错的详细信息作为结果输出,例如提醒用户检查问题是否正确的提示,以及返回一个问题信息的样例作为参考。
93.更进一步地,响应于业务分析问题为i类分析问题,自然语言处理模型所生成的分析结果还可以包括sql语句的执行结果。
94.需要进一步说明的是,在步骤s205中,响应于业务分析问题为ii类分析问题,自然语言处理模型所生成的分析结果包括自然语言形式的匹配结果中的元数据和问题信息关联的人员信息的一个或多个。
95.通过问题信息关联的人员信息,非专业人员可以寻找到专业人员以获取帮助,更好地获取所需的分析结果。
96.进一步地,响应于业务分析问题为ii类分析问题,分析结果还可以包括系统功能链接,该系统功能链接指向业务域的某一个系统的某一项功能,该功能能够解决当前提出的问题,并且通过该系统功能链接还可以直接跳转至该功能界面,以获取功能服务。
97.基于此,本发明还提供了一种sql语句执行方法,该方法适用于本发明提供的任一种数据分析方法。图3示意性地示出了根据本发明一些实施例的sql语句执行方法300的流程图。
98.如图3所示,在步骤s301中,判断sql语句中是否含有必要限制条件。
99.若是,则执行步骤s302后执行步骤s304;
100.若否,则执行步骤s303后执行步骤s304。
101.在本实施例中,必要限制条件的设置是为了确保基于sql语句的查表动作具有结束条件,防止sql语句执行出错。例如,对于数据量较大的数据表,必要限制条件限制了其分区范围。
102.在步骤s302中,依据必要限制条件获取sql语句包含的表所属的数据库连接信息。
103.在步骤s302的执行过程中,若sql中有多个表,且这些表不属于同一个数据库,则可以将详细的报错信息作为结果返回。
104.在步骤s303中,设置limit子句后,获取sql语句包含的表所属的数据库连接信息。
105.在本实施例中,limit子句用来限制返回记录的数量,在sql语句中不含有必要限制条件的情况下,通过设置一个limit子句来防止sql语句查询陷入死循环。
106.在步骤s304中,基于数据库连接信息执行sql语句,得到执行结果。
107.在实际应用时,执行结果可以为多种形式。例如,若sql有日期信息和聚合信息,则可以以日期为x轴,以聚合信息为y轴,将结果转化成柱状图进行显示。又例如,假定用户指定了x轴列、y轴列以及展示形式,且x轴列和y轴列在sql中存在,则以用户指定列为x轴和y轴,将结果转化成用户指定的图表格式。
108.步骤s304的执行结果可以包括sql语句本身、sql结果列表、sql结果图表和sql经过特殊处理的表现形式中的一种或多种。
109.进一步地,在依据必要限制条件获取sql语句包含的表所属的数据库连接信息时,若用户不具备该sql语句查询的数据的访问权限,sql语句的查询结果可以直接设置为提示无访问权限的报错信息,从而保障数据安全性。
110.以上数据分析方法针对不同的问题类型,输出不同类型的分析结果。
111.针对上述数据分析过程中确定问题类型的步骤,本发明还提供了一种问题类型确定方法。该方法根据用户类型信息、问题信息中的关键词和问题信息的语义解析结果中的一个或多个参数组合来确定问题类型。
112.图4示意性地示出了根据本发明一些实施例的问题类型确定方法400的流程图。图4示出的方法利用多个参数组合来确定问题类型。
113.如图4所示,在步骤s401中,确定关键词和语义解析结果分别的权重值。
114.在本实施例中,权重值为预先为每一参数设置好的数值,在实际应用时,可以根据实际情况对该数值进行调整,调整时需要保持二者的权重值之和为1.例如,可以将关键词的权重值设置为0.4,语义解析结果的权重值设置为0.6。
115.在步骤s402中,根据关键词和语义解析结果及其分别的权重值进行加权计算。
116.示例性地,根据关键词可以进行一次问题类型的判断,并计算出问题信息为不同问题类型的概率,类似地,根据语义解析结果可以进行另一次问题类型的判断,并计算出问题信息为不同问题类型的概率,接着,基于步骤s401中确定的权重值对每一问题类型的概率进行加权计算,从而得到问题信息为每一问题类型的加权概率。
117.在步骤s403中,根据加权计算结果确定问题类型。
118.步骤s403将会取其中加权概率最大的问题类型,作为确定的问题类型。
119.为了便于理解,下面以关键词的权重值为0.4,语义解析结果的权重值为0.6的情况为例,说明加权计算的过程。
120.假设根据关键词判断出问题信息为业务咨询问题的概率为40%,问题信息为业务分析问题的概率为60%,根据语义解析结果判断出问题信息为业务咨询问题的概率为80%,问题信息为业务分析问题的概率为20%,则根据关键词和语义解析结果及其分别的权重值,计算出问题信息为业务咨询问题的加权概率40%*0.4+80%*0.6=64%,根据关键词和语义解析结果及其分别的权重值,计算出问题信息为业务分析问题的加权概率60%*0.4+20%*0.6=36%,由此可以确定加权概率最高的业务咨询问题为当前问题信息的问题类型。
121.进一步地,图4示出的方法还可以包括步骤s404,若根据加权计算结果确定问题类型为业务分析问题,则根据用户类型信息确定问题类型为i类分析问题或ii类分析问题。
122.具体地,若用户类型信息为专业人员,则确定问题类型为i类分析问题;
123.若用户类型信息为非专业人员,则确定问题类型为ii类分析问题。
124.在实际应用时,可以设置一个用户类型信息的标签与业务系统的用户账户进行绑定,在用户使用用户账户登入业务系统时,系统可以直接通过用户账号确定用户类型信息。
125.图5示意性地示出了根据本发明另一些实施例的问题类型确定方法500的流程图。图5示出的方法利用问题信息中的关键词来确定问题类型。
126.如图5所示,在步骤s501中,从问题信息中摘取出关键词。
127.步骤s501摘取的关键词存在于预设关键词列表,该预设关键词列表中存有关键词与问题类型的关联关系。
128.在步骤s502中,以关键词在预设关键词列表中所关联的问题类型作为问题信息的问题类型。
129.根据预设关键词列表中的关联关系可以根据摘取到的关键词查询到其所关联的问题类型。例如,针对问题信息中的“字段”和“业务含义”等关键字,其关联的问题类型可以为业务咨询问题,针对问题信息中的“用户画像”和“日活”等关键字,其关联的问题类型可以为业务分析问题。
130.进一步地,在实际应用时,问题信息中可以包含有多个关键词,且多个关键词所关联的问题类型不同,针对这类情况,可以在预设关键词列表中为关键词设置优先级,以优先级最高的关键词所关联的问题类型为确定的问题类型。
131.在另一实施例中,也可以根据关键词的数量来确定问题类型。例如,步骤s501摘取到2个关联业务咨询问题的关键词以及5个关联业务分析问题的关键词,由于关联业务分析问题的关键词数量大于关联另一问题类型的关键词数量,则认定当前问题信息为业务分析问题。
132.再进一步地,根据关键词数量的占比还可以计算出每一问题类型的概率,仍以摘取到2个关联业务咨询问题的关键词以及5个关联业务分析问题的关键词的情况为例,此时问题类型为业务咨询问题的概率为2/(2+5)=28.57%,问题类型为业务分析问题的概率为5/(2+5)=71.43%。
133.图6示意性地示出了根据本发明又一些实施例的问题类型确定方法600的流程图。图6示出的方法利用问题信息的语义解析结果来确定问题类型。
134.如图6所示,在步骤s601中,对问题信息进行语义解析,得到语义解析结果。
135.在步骤s602中,基于语义解析结果在知识图谱的历史问题中进行语义相关性匹配。
136.在步骤s603中,以语义相关性最高的历史问题所属问题类型作为问题信息的问题类型。
137.在本实施例中,可以通过对问题信息进行语义解析,从而将问题信息转换为语义向量,以作为语义解析结果,再结合向量化表示的知识图谱以及该语义向量进行相关性匹配,得到若干个匹配的历史问题,根据该些历史问题所述的问题类型可以推测出当前问题信息的问题类型。
138.在一些实施例中,可以将这些历史问题按照相关性由高至低的顺序排序,其中相关性最高的历史问题所属的问题类型即可作为当前问题信息的问题类型。更进一步地,该相关性的数值可以视作当前问题信息为该问题类型的概率。
139.在另一些实施例中,也可以参考匹配的若干历史问题来确定当前问题信息的问题类型,例如,当前问题信息为“请求最近30天某平台日活问题”,假设匹配的历史问题中,95%的历史问题为业务分析问题,则可以认定当前问题信息的问题类型为业务分析问题。更进一步地,还可以判断当前问题信息的问题类型为业务分析问题的概率为95%。
140.在实际使用前文任一实施例提供的数据分析方法时,相似度匹配步骤中可能出现直接匹配到问题答案的情况,针对这种情况则直接将匹配结果输出。
141.针对上述情况,本发明的一些实施例则设置了一个预设条件,并基于该预设条件提供了另一种数据分析方法。
142.图7示意性地示出了根据本发明另一些实施例的数据分析方法700的流程图。在图7示出的数据分析方法中,预设条件用于判断能否将匹配结果直接输出。
143.如图7所示,在步骤s701中,接收问题信息。
144.在步骤s702中,根据问题信息从知识图谱中进行相似度匹配,以得到匹配结果。
145.在本实施例中,步骤s701至步骤s702的内容与前文实施例中的步骤s201至步骤s202一致,此处不再展开赘述。
146.在步骤s703中,判断匹配结果是否满足预设条件。
147.若是,则执行步骤s704;
148.若否,则执行步骤s712。
149.其中预设条件包括匹配结果的相似度最大值小于预设相似度阈值。若匹配结果中的相似度最大值仍小于预设相似度阈值,说明匹配程度较弱,匹配结果中并不满足直接输出匹配结果的要求,需要对问题信息的问题类型进行判断,从而输出更为匹配的分析结果。只有当相似度匹配步骤中出现一个相似度符合要求的匹配结果时,方才直接输出与问题信
息直接匹配的问题答案。
150.在步骤s704中,判断问题信息的问题类型是否为通用场景问题。
151.若是,则执行步骤s705;
152.若否,则执行步骤s706。
153.在本实施例中,问题类型分为通用场景问题和业务场景问题,若判断出问题类型非通用场景问题时,即可确定问题类型为业务场景问题,业务场景问题需要通过自然语言处理模型进行自然语言技术处理,从而得到基于垂直领域的业务知识的定制化分析结果。
154.在步骤s705中,利用自然语言处理模型分析问题信息,以生成分析结果并输出。
155.在本实施例中,通用场景问题不涉及私域知识图谱中的业务知识,其仅涉及如“中国的首都是北京”等通用知识,因此,仅需利用自然语言处理模型分析问题信息,即可生成分析结果并输出,该过程无需结合私域知识图谱中的业务数据。
156.在步骤s706中,判断问题类型是否为业务咨询问题。
157.若是,则执行步骤s708和步骤s711;
158.若否,则执行步骤s707。
159.在本实施例中,业务场景问题分为业务咨询问题和业务分析问题,业务分析问题又可以进一步分为i类分析问题和ii类分析问题。
160.在步骤s707中,判断问题类型是否为i类分析问题。
161.若是,则执行步骤s708和步骤s709;
162.若否,则执行步骤s708和步骤s710。
163.在步骤s708中,利用自然语言处理模型将匹配结果转化成自然语言形式。
164.在步骤s709中,将自然语言形式的匹配结果中的元数据、分析过程和基于问题信息转化的结构化查询sql语句的一个或多个作为分析结果并输出。
165.在步骤s710中,将自然语言形式的匹配结果中的元数据和问题信息关联的人员信息的一个或多个作为分析结果并输出。
166.在步骤s711中,将自然语言形式的匹配结果中的元数据、分析过程和分析结论的一个或多个作为分析结果并输出。
167.在步骤s712中,输出相似度最大值所对应的匹配结果。
168.此步骤将相似度最大值所对应的匹配结果作为与问题信息直接匹配的问题答案。
169.在另一些实施例中,还可以将相似度大于或等于预设相似度阈值的匹配结果均输出。
170.需要说明的是,上述步骤s709、步骤s710和步骤s711的内容已经在前文实施例中进行了详尽说明,此处不再展开赘述。
171.根据前文实施例所描述的内容,鉴于向量化表示的知识图谱可以实现通过数值运算来发现新事实和新关系,并能更有效发现更多的隐形知识和潜在假设,有利于自然语言处理模型采用统计或者神经网络的方法进行推理,能够有效释放自然语言处理模型的性能,本发明的一些实施例在进行数据分析之前,构建知识图谱并将其进行向量化表示。
172.图8示意性地示出了根据本发明一些实施例的知识图谱构建方法800的流程图。
173.如图8所示,在步骤s801中,收集业务数据,以构成业务数据库。
174.在本实施例中,业务数据包括文档、代码、数据血缘以及元数据等形式的业务私有
信息,这些业务私有信息可以从业务系统的文档库、代码库、任务血缘以及系统内运行中的看板、大盘任务和分析任务等渠道获得。
175.在步骤s802中,对业务数据库进行预处理,得到预处理业务数据库。
176.其中,预处理包括以下处理中的一个或多个:数据抽取、数据清洗、数据存储和数据加密。
177.具体地,数据抽取旨在从文档中摘取关键字、实体和属性等信息,数据清洗旨在去除停用词,以及提取词干以减少冗余信息,数据存储则是将清洗后数据转化为结构化数据并进行存储,数据加密旨在对业务数据中的敏感数据进行加密,例如个人身份认证信息以及涉及商业机密的信息等等。
178.关于文档库的预处理过程,具体可以包括:全量扫描文档库,根据自定义的筛选规则滤出业务价值和准确性高的业务数据,例如表结构、系统任务元数据、审核通过的产品文档以及通过试用的q&a文档等等,并将老旧、未经审核以及与业务系统关联弱的文档剔除。
179.关于代码库的预处理过程,则具体可以包括:进行代码筛选,以筛选出高频业务、核心业务和公共业务所涉及的代码;对筛选出的代码文件进行解析,生成抽象语法树,并对解析后的代码进行包括符号表构建、数据流分析和控制流分析在内的分析处理,以获取代码之间的关系。
180.关于数据血缘的预处理过程,则需要收集任务血缘信息,包括任务输入、输出以及依赖关系。
181.在步骤s803中,对预处理业务数据库进行向量化处理,并添加标签和元数据,得到向量化表示的知识图谱。
182.在本实施例中,可以通过word2vec模型将预处理业务数据库中的业务数据表示为向量形式,通过计算向量之间的相似度即可衡量文档、代码和数据之间的相似度。知识图谱的向量化表示就是将实体和关系表示为向量形式,通过计算向量之间的相似度完成知识图谱的相似度匹配。
183.目前存在多种文本向量化方法,例如词袋(bag of word)模型和神经网络语言模型(nnlm,neural network language model)等等,此处为了便于理解,以词袋模型为例,对向量化过程进行示例性说明。
184.以词组“中国”、“美国”和“英国”为例,根据以上词组可以构建出一个字典{“中”:1,“美”:2,“英”:3,“国”:4},该字典中包含4个字,每个字都有唯一索引,并且字的出现顺序是没有关联的,根据这个字典和字的索引,可以将上述词组分别表达为三个向量,其中“中国”对应向量[1,0,0,1],“美国”对应向量[0,1,0,1],“英国”对应向量[0,0,1,1]。
[0185]
可以理解的是,此时这些词组的向量表示是在一个四维的向量空间中形成的,“中国”的词向量是一个四维向量。
[0186]
以上介绍的是仅仅是词向量表示,接下来从词向量表示过渡到知识图谱的向量表示。在知识图谱中,实体可以采用上述方式转换成向量化的表示形式,但是假如对这类实体的词向量做一些计算,就会发现计算结果比较接近,例如“北京位于中国”和“纽约位于美国”这两条知识中,实体词向量“北京”和“中国”之间的向量差与“纽约”和“美国”之间的向量差是十分接近的,因为两组词向量都存在“位于”这一地理位置关系。这种隐含的语义在分布式的词向量中无法有效表示,但利用三元组结构来学习知识图谱中实体和关系的向量
表示,就像可以利用句子中词的上下文共现关系来表现这种隐含语义。
[0187]
目前存在多种知识图谱向量表示学习模型可用于进行向量化处理,以其中的transe模型为例,对于一个给定的三元组《h,r,t》,其中h代表主语subject,r代表关系谓词relation,t代表宾语object,如果三元组《h,r,t》所代表的知识是客观存在的,那么h、r和t的词向量表示应该满足加法关系h+r=t。
[0188]
需要说明的是,上述仅是为了便于本领域技术人员理解本实施例所作出的示例性说明,在实际应用时,也存在其他向量化模型或向量化方法适用于本实施例的向量化表示的知识图谱的构建。
[0189]
在此过程中,知识图谱的构建可以采用图数据库等工具辅助完成。
[0190]
示例性地,知识图谱的构建过程可以包括以下若干步骤:
[0191]
分词处理,对业务数据进行分词、去除停用词、词性标注、命名实体识别、敏感数据加密等处理。这些操作可以使用python中的自然语言处理库,例如nltk和spacy等处理库完成。
[0192]
构建单词序列,将每篇文档的单词、每个代码逻辑关系和/或每条完整依赖链路血缘进行转化,按照顺序得到单词序列。
[0193]
利用word2vec模型进行向量化,对于每篇文档、每个代码文件和/或每条血缘关系,将所有单词的向量表示取平均值,得到对应的向量表示。此处使用的word2vec模型可以使用python中的gensim库来训练,通过调整模型参数和结构,提高模型的性能。
[0194]
存储知识图谱,将知识图谱存储在图数据库,其中每个文档对应一个节点,节点之间的边表示文档之间的关系。
[0195]
进一步地,还可以为每个向量添加标签和元数据,以便于后续的查询和检索。
[0196]
在一些实施例中,在该向量化表示的知识图谱中,业务数据中的敏感数据与元数据通过同态化加密技术进行加密。
[0197]
与之对应地,在图1或图7示出的数据分析方法中,在得到匹配结果之后,响应于业务场景问题为业务咨询问题和/或业务分析问题,则对匹配结果中的敏感数据与元数据进行同态化解密,以便于生成自然语言描述的分析结果。
[0198]
示例性地,一种适用于本披露的数据分析方法的同态化加密方法如下:
[0199]
选择rsa加密算法,并生成公钥和私钥;
[0200]
将敏感数据与元数据转化为整数,并使用公钥对该整数进行加密,生成密文;
[0201]
对该密文进行加减乘等运算,得到新的密文。
[0202]
同态化解密时,则使用私钥对新的密文进行解密,得到明文结果。
[0203]
需要说明的是,以上描述的仅是一种同态化加密的示例性方法,在实际应用时,也可以使用其他的同态化加密方法对敏感数据与元数据进行加密,此处不再展开说明。
[0204]
进一步地,为了保障业务数据的安全性,在一些实施例中,还可以通过限制访问的方式对知识图谱进行保护。
[0205]
具体地,对知识图谱中的资源按照敏感度进行分级,再通过限制访问权限控制用户对知识图谱中资源的访问,保证知识的安全性与隐私性。访问控制包括两个方面的内容:其一是角色访问控制,根据用户的角色或职责来控制其对系统资源的访问权限,限制其可以访问系统资源以及可执行的操作;其二是监控审计,系统对资源的访问和操作记录进行
记录和审计,并设置特定的报警策略,例如可以设置如下报警策略:当某类资源的访问量或访问操作次数达到一定阈值时,自动触发报警,然后通过分析审计日志进行审计和调查。
[0206]
知识图谱中知识的准确性有赖于业务数据库中业务数据的准确性,因此在一些实施例中,还可以通过动态微调、设置审核机制以及版本控制等方法来确保业务数据的准确性。
[0207]
示例性地,动态微调能够在生成分析结果后,将其与对应的问题信息作为一组数据,新增至知识图谱中,实现知识图谱的定时更新。
[0208]
为了保证新增数据的质量,可以设置审核机制,例如定时人工审核新增数据的准确度和可靠性,通过审核的数据方能够新增至知识图谱中。
[0209]
版本控制则是使用数据版本控制工具,记录每次数据更新的内容和时间,从而确保数据更新的可追溯性。
[0210]
为了避免知识图谱中的敏感数据泄露,本发明实施例还通过敏感数据剔除、敏感数据加密化处理、访问限制和/或设置审核机制等方式对知识图谱中的数据进行预处理,最大程度上的保证数据安全。示例性设备
[0211]
在介绍了本发明示例性实施方式的方法之后,接下来,参考图9对本发明示例性实施方式的数据分析装置进行说明。
[0212]
图9示意性地示出了根据本发明一些实施例的数据分析装置900的框图。
[0213]
如图9所示,数据分析装置900包括以下模块:
[0214]
信息交互模块901,用于接收问题信息,以及将生成的分析结果输出给用户;
[0215]
知识图谱匹配模块902,其存储有知识图谱,用于根据所述问题信息从所述知识图谱中进行相似度匹配,以得到匹配结果;
[0216]
匹配结果判断模块903,用于判断所述匹配结果是否满足预设条件,并在所述匹配结果满足所述预设条件时,将所述问题信息发送至问题类型确定模块;
[0217]
问题类型确定模块904,用于确定所述问题信息的问题类型;以及
[0218]
自然语言处理模块905,其搭载有自然语言处理模型,用于响应于所述问题类型为业务场景问题,利用所述自然语言处理模型将所述匹配结果转化成自然语言形式;以及利用所述自然语言处理模型对自然语言形式的匹配结果进行处理,以生成分析结果。
[0219]
其中,信息交互模块901可以进一步包括以下子模块:
[0220]
聊天框输入子模块,提供了便于交互的人机互动界面,方便获取外部传达的问题信息,聊天框输入子模块支持文本和语音的输入形式,若问题信息为语音形式,则该子模块使用诸如google cloud speech-to-text和amazon transcribe等语音识别api,将其转化成文本;以及
[0221]
聊天框输出子模块,提供了便于交互的人机互动界面,方便向外部传达分析结果,其支持以文本、表单、图表和/或链接等形式输出分析结果,聊天框输出子模块的具体输出内容已经在前文功能实施例中进行了详尽的描述,此处不再展开赘述。
[0222]
聊天框的聊天类型可以分为私聊模式和群聊模式,在群聊场景下,本发明所构建的数据分析系统可以以小助手形式存在于电子设备中。
[0223]
其中,自然语言处理模块905可以进一步包括以下子模块:
[0224]
问题分析子模块,其利用openai进行对获取的问题信息进行向量化处理,并将其传输给问题类型确定模块904;以及
[0225]
数据计算子模块,其用于对匹配结果进行自然语言化处理,并生成分析结果。
[0226]
其中,知识图谱匹配模块902可以进一步包括以下子模块:
[0227]
知识图谱管理子模块,其用于构建并存储知识图谱以及实现知识图谱动态调整,在构建知识图谱,该知识图谱管理子模块还可以用于执行数据抽取、数据清洗和数据加密等数据预处理操作;以及
[0228]
相似度匹配子模块,其用于执行相似度匹配的操作,以得到若干匹配结果,并将这些匹配结果的相似度发送给匹配结果判断模块903。
[0229]
其中,问题类型确定模块904中设置有规则引擎,通过多种方式收集问题集合,对问题进行类型标注,根据已分类和标注的问题集合,来构建规则库,该规则库构成问题类型确定的依据。
[0230]
应当注意,尽管在上文详细描述中提及了设备的若干装置或子装置,但是这种划分仅仅并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之,上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。
[0231]
图10示意性地示出了根据本发明一些实施例的电子设备1000的框图。
[0232]
参见图10,电子设备1000包括存储器1010和处理器1020。
[0233]
处理器1020可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0234]
存储器1010可以包括各种类型的存储单元,例如系统内存、只读存储器(rom),和永久存储装置。其中,rom可以存储处理器1020或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器1010可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(dram,sram,sdram,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器1010可以包括可读和/或写的可移除的存储设备,例如激光唱片(cd)、只读数字多功能光盘(例如dvd-rom,双层dvd-rom)、只读蓝光光盘、超密度光盘、闪存卡(例如sd卡、min sd卡、micro-sd卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
[0235]
存储器1010上存储有可执行代码,当可执行代码被处理器1020处理时,可以使处理器1020执行上文述及的方法中的部分或全部。
[0236]
此外,根据本发明的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行前文实施例示出方法中部分或全部步骤的计算机程序代码指令。
[0237]
或者,前文实施例所示方法还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或电子设备、服务器等)的处理器执行时,使所述处理器执行根据本发明的上述方法的各个步骤的部分或全部。
[0238]
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
[0239]
申请文件中提及的动词“包括”、“包含”及其词形变化的使用不排除除了申请文件中记载的那些元素或步骤之外的元素或步骤的存在。元素前的冠词“一”或“一个”不排除多个这种元素的存在。
[0240]
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释,从而包含所有这样的修改及等同结构和功能。
技术特征:
1.一种用于知识图谱的数据分析方法,其特征在于,包括:接收问题信息;根据所述问题信息从知识图谱中进行相似度匹配,以得到匹配结果;响应于所述匹配结果满足预设条件,确定所述问题信息的问题类型;响应于所述问题类型为业务场景问题,利用自然语言处理模型将所述匹配结果转化成自然语言形式;以及利用所述自然语言处理模型对自然语言形式的匹配结果进行处理,以生成分析结果并输出。2.根据权利要求1所述的方法,其特征在于,所述业务场景问题包括业务咨询问题,其中生成分析结果包括:响应于所述问题类型为所述业务咨询问题,将所述自然语言形式的匹配结果中的元数据、分析过程和分析结论的一个或多个作为所述分析结果。3.根据权利要求2所述的方法,其特征在于,所述业务场景问题还包括业务分析问题,所述业务分析问题包括i类分析问题和/或ii类分析问题,响应于所述问题类型为所述业务分析问题,其中生成分析结果还包括:响应于所述业务分析问题为i类分析问题,将所述自然语言形式的匹配结果中的元数据、分析过程和基于所述问题信息转化的结构化查询sql语句的一个或多个作为所述分析结果;和/或响应于所述业务分析问题为ii类分析问题,将所述自然语言形式的匹配结果中的元数据和所述问题信息关联的人员信息的一个或多个作为所述分析结果。4.根据权利要求1所述的方法,其特征在于,其中确定问题信息的问题类型包括:根据用户类型信息、所述问题信息中的关键词和/或所述问题信息的语义解析结果确定所述问题类型。5.根据权利要求4所述的方法,其特征在于,其中根据用户类型信息、所述问题信息中的关键词和/或所述问题信息的语义解析结果确定所述问题类型包括:确定所述关键词和所述语义解析结果分别的权重值;根据所述关键词和所述语义解析结果及其分别的权重值进行加权计算;以及根据加权计算结果确定所述问题类型。6.根据权利要求1-5任一项所述的方法,其特征在于,在接收问题信息之前,所述方法还包括:构建知识图谱并将其进行向量化表示;根据问题信息进行相似度匹配包括:根据向量化后的问题信息在向量化表示的知识图谱中进行相似度匹配。7.根据权利要求6所述的方法,其特征在于,其中构建知识图谱并将其进行向量化表示包括:收集业务数据,以构成业务数据库;对所述业务数据库进行预处理,得到预处理业务数据库;所述预处理包括以下处理中的一个或多个:数据抽取、数据清洗、数据存储和数据加密;以及对所述预处理业务数据库进行向量化处理,并添加标签和元数据,得到向量化表示的知识图谱。
8.一种数据分析装置,其特征在于,包括:信息交互模块,用于接收问题信息,以及将生成的分析结果输出给用户;知识图谱匹配模块,其存储有知识图谱,用于根据所述问题信息从所述知识图谱中进行相似度匹配,以得到匹配结果;匹配结果判断模块,用于判断所述匹配结果是否满足预设条件,并在所述匹配结果满足所述预设条件时,将所述问题信息发送至问题类型确定模块;问题类型确定模块,用于确定所述问题信息的问题类型;以及自然语言处理模块,其搭载有自然语言处理模型,用于响应于所述问题类型为业务场景问题,利用所述自然语言处理模型将所述匹配结果转化成自然语言形式;以及利用所述自然语言处理模型对自然语言形式的匹配结果进行处理,以生成分析结果。9.一种电子设备,其特征在于,包括:处理器;以及存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1-7中任一项所述的方法。10.一种非暂时性计算机可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1-7中任一项所述的方法。
技术总结
本发明的实施方式提供了一种用于知识图谱的数据分析方法、装置、设备及存储介质。该方法包括:接收问题信息;根据问题信息从知识图谱中进行相似度匹配,以得到匹配结果;响应于匹配结果满足预设条件,确定问题信息的问题类型;响应于问题类型为业务场景问题,利用自然语言处理模型将匹配结果转化成自然语言形式;以及利用自然语言处理模型对自然语言形式的匹配结果进行处理,以生成分析结果并输出。通过本发明的方法,可以利用自然语言处理模型的AI能力,基于知识图谱进行准确、智能的数据分析,从而显著地降低了业务数据分析的门槛,并且提高了数据分析的效率,减少了业务数据管理的时间和成本,为用户带来了更好的体验。为用户带来了更好的体验。为用户带来了更好的体验。
技术研发人员:贾豆豆 闵程程
受保护的技术使用者:网易有道信息技术(北京)有限公司
技术研发日:2023.05.26
技术公布日:2023/8/13
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:一种脱酸系统的制作方法 下一篇:一种微波烧结再生建筑砖设备及其使用方法
