数据处理方法、系统、电子设备及存储介质与流程

未命名 07-28 阅读:85 评论:0


1.本技术涉及数据处理技术领域,尤其涉及一种数据处理方法、系统、电子设备及存储介质。


背景技术:

2.企业的生产运营过程中会产生大量的非结构化或半结构化数据,例如文字、图片、网页、文档等格式的数据,对非结构化数据的处理是业界的难题之一。
3.相关技术中,通常采用深度学习的方法来提取非结构化的金融文本数据,并转换成结构化的金融文本数据,但是,此类方法都需要提前制定规则,需要相关词库建立或人工打标等,这就需要大量积累行业领域内信息后,才能进行相对准确的信息抽取,耗时耗力,提高了数据处理的成本,降低了数据处理的效率。


技术实现要素:

4.本技术实施例的主要目的在于提出一种数据处理方法、系统、电子设备及存储介质,能够降低数据处理的成本,提高数据处理的效率。
5.为实现上述目的,本技术实施例的第一方面提出了一种数据处理方法,所述方法包括:获取待处理的初始金融文本数据;对所述初始金融文本数据进行编码,将所述初始金融文本数据转换成矩阵形式,得到编码后的多个编码向量,并对所述初始金融文本数据进行目标检测,得到目标内容;根据所述目标内容确定对应的用于存放所述初始金融文本数据的目标表,并根据所述目标表的存放内容确定对应的第一解码器;根据所述第一解码器对多个所述编码向量进行解码,得到解码后的多个目标解码数据;将多个所述目标解码数据存放在所述目标表中。
6.在一些实施例中,所述方法还包括:持续获取更新后的所述初始金融文本数据;对更新后的所述初始金融文本数据进行编码,将所述初始金融文本数据转换成矩阵形式,得到编码后的多个编码向量;对更新前后所述初始金融文本数据的所述编码向量进行相似性计算,得到更新前后所述初始金融文本数据之间的相似性参数;当所述相似性参数表征更新前后所述初始金融文本数据的类型相同,确定将所述更新后的所述初始金融文本数据存放在所述目标表中。
7.在一些实施例中,所述目标解码数据包括基础解码数据和扩展解码数据,所述根据所述第一解码器对多个所述编码向量进行解码,得到解码后的多个解码数据,包括:根据所述目标内容和所述目标表的存放内容之间的差异,确定额外的第二解码器;根据所述第一解码器对多个所述编码向量进行解码,得到与所述目标表的存放内容相匹配的所述基础解码数据;根据所述第二解码器对多个所述编码向量进行解码,得到用于新增在所述目标表的存放内容中的所述扩展解码数据。
8.在一些实施例中,所述将多个所述目标解码数据存放在所述目标表中之后,所述方法还包括:根据所述目标表中的所述基础解码数据和所述扩展解码数据,生成看板或报
告;对所述看板或所述报告进行可视化呈现,以展示所述基础解码数据和所述扩展解码数据。
9.在一些实施例中,所述将多个所述目标解码数据存放在所述目标表中,包括:获取所述目标解码数据在解码过程中得到的权重;若所述权重大于预设的权重阈值,将对应的所述目标解码数据存放在所述目标表中。
10.在一些实施例中,所述对所述初始金融文本数据进行编码,将所述初始金融文本数据转换成矩阵形式,得到编码后的多个编码向量,包括:对所述初始金融文本数据进行数据清洗,去除所述初始金融文本数据中与内容无关的数据,得到清洗后的所述初始金融文本数据;对清洗后的所述初始金融文本数据进行编码,将所述初始金融文本数据转换成矩阵形式,得到编码后的多个编码向量。
11.在一些实施例中,所述对所述初始金融文本数据进行编码,将所述初始金融文本数据转换成矩阵形式,得到编码后的多个编码向量,包括:根据所述初始金融文本数据的文本特征,设定文本编码的编码参数;根据所述编码参数对所述初始金融文本数据进行编码,并将所述初始金融文本数据转换成矩阵形式,得到编码后的多个编码向量。
12.为实现上述目的,本技术实施例的第二方面提出了一种数据处理系统,所述系统包括:数据获取模块,用于获取待处理的初始金融文本数据;编码模块,用于对所述初始金融文本数据进行编码,将所述初始金融文本数据转换成矩阵形式,得到编码后的多个编码向量,并对所述初始金融文本数据进行目标检测,得到目标内容;解码器选择模块,用于根据所述目标内容确定对应的用于存放所述初始金融文本数据的目标表,并根据所述目标表的存放内容确定对应的第一解码器;解码模块,用于根据所述第一解码器对多个所述编码向量进行解码,得到解码后的多个目标解码数据;数据存放模块,用于将多个所述目标解码数据存放在所述目标表中。
13.为实现上述目的,本技术实施例的第三方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面实施例所述的方法。
14.为实现上述目的,本技术实施例的第四方面提出了一种存储介质,所述存储介质为计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面实施例所述的方法。
15.本技术提出的数据处理方法、系统、电子设备及存储介质,数据处理方法可应用在数据处理系统中。通过执行数据处理方法,本技术实施例中先对初始金融文本数据进行编码,将初始金融文本数据转换成矩阵形式,得到编码后的多个编码向量,并对初始金融文本数据进行目标检测,检测出相应的目标文本,得到目标内容,目标内容可以在解码过程中确定对应的目标表和所需要的第一解码器,随后可以根据第一解码器对多个编码向量进行解码,得到解码后的多个目标解码数据,最终将多个目标解码数据存放在目标表中。本技术实施例可以根据目标表,无需建立相关词库或人工打标,将文本信息自动解码填充到目标表的规范格式,将非结构化数据转换成结构化数据,能够降低数据处理的成本,提高数据处理的效率。
附图说明
16.图1是本技术实施例提供的数据处理方法的流程图;
17.图2是本技术另一个实施例提供的数据处理方法的流程图;
18.图3是图1中的步骤s104的流程图;
19.图4是图1中的步骤s105之后的流程图;
20.图5是图1中的步骤s105之后的另一个流程图;
21.图6是图1中的步骤s102的流程图;
22.图7是图1中的步骤s102的另一个的流程图;
23.图8是本技术实施例提供的数据处理系统的功能模块示意图;
24.图9是本技术实施例提供的电子设备的硬件结构示意图。
具体实施方式
25.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本技术,并不用于限定本技术。
26.需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
27.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的,不是旨在限制本技术。
28.首先,对本技术中涉及的若干名词进行解析:
29.人工智能(artificial intelligence,ai):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
30.企业的生产运营过程中会产生大量的非结构化或半结构化数据,例如金融行业中的文字、图片、网页、文档等格式的数据。对非结构化数据的处理是业界的难题之一,这些数据往往存在难以存储和访问,不完整以及错误信息等问题。通常非结构化数据的存储和访问是通过邮件、聊天软件等工具,通过这些途径传输容易造成数据安全隐患、数据完整性等问题。
31.相关技术中的文本非结构化数据转换成结构化数据有两类方法。其中,传统方法为通过关键字,并设定规则进行抽取;还包括深度学习方法,通过实体命名识别,抽取金融文本中固定属性的信息,例如时间、地点、组织、事件、商品分类、编号等属性。但是,以上两类方法都存在需要提前制定规则,相关词库建立或人工打标等,需要大量积累行业领域内
信息后,才能进行相对准确的信息抽取,这一部分较为消耗时间人力,且对于之后的使用和扩展存在局限性,只能抽取已经存在的信息,对于新信息则无法进行识别和理解,提高了数据处理的成本,降低了数据处理的效率。
32.基于此,本技术实施例提供了一种数据处理方法、系统、电子设备及存储介质,数据处理方法可以应用在数据处理系统中。通过执行数据处理方法,本技术实施例中先对初始金融文本数据进行编码,将初始金融文本数据转换成矩阵形式,得到编码后的多个编码向量,并对初始金融文本数据进行目标检测,检测出相应的目标文本,得到目标内容,目标内容可以在解码过程中确定对应的目标表和所需要的第一解码器,随后可以根据第一解码器对多个编码向量进行解码,得到解码后的多个目标解码数据,最终将多个目标解码数据存放在目标表中。本技术实施例可以根据目标表,无需建立相关词库或人工打标,将文本信息自动解码填充到目标表的规范格式,将非结构化数据转换成结构化数据,能够降低数据处理的成本,提高数据处理的效率。
33.本技术实施例中的数据处理系统是一种文本数据自动提取和更新的系统,满足业务人员和数据库人员在日常工作的使用,可以帮助日常产生的数据定时存储和更新,同时也能使业务人员更加容易读取和查找相关信息,增强数据的流通性同时保证数据安全。
34.本技术实施例提供的数据处理方法、系统、电子设备及存储介质,具体通过如下实施例进行说明,首先描述本技术实施例中的数据处理方法。
35.本技术实施例中的数据处理方法可以通过如下实施例进行说明。
36.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
37.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
38.本技术实施例提供的数据处理方法,涉及人工智能技术领域。本技术实施例提供的数据处理方法可应用于终端中,也可应用于服务器端中,还可以是运行于终端或服务器端中的软件。在一些实施例中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等;服务器端可以配置成独立的物理服务器,也可以配置成多个物理服务器构成的服务器集群或者分布式系统,还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn以及大数据和人工智能平台等基础云计算服务的云服务器;软件可以是实现数据处理方法的应用等,但并不局限于以上形式。
39.本技术可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术,在这些分布
式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
40.需要说明的是,在本技术的各个具体实施方式中,当涉及到需要根据用户信息、用户行为数据,用户历史数据以及用户位置信息等与用户身份或特性相关的数据进行相关处理时,都会先获得用户的许可或者同意,例如,获取用户存储的数据以及用户的缓存数据访问请求时,均会先获得用户的许可或者同意。具体的,在获取初始金融文本数据时,需要先获得用户的许可或者同意。而且,对这些数据的收集、使用和处理等,都会遵守相关法律法规和标准。此外,当本技术实施例需要获取用户的敏感个人信息时,会通过弹窗或者跳转到确认页面等方式获得用户的单独许可或者单独同意,在明确获得用户的单独许可或者单独同意之后,再获取用于使本技术实施例能够正常运行的必要的用户相关数据。
41.图1是本技术实施例提供的数据处理方法的一个可选的流程图,图1中的方法可以包括但不限于包括步骤s101至步骤s105。
42.步骤s101,获取待处理的初始金融文本数据;
43.示例性的,本技术实施例中的数据处理方法可以应用在数据处理系统中,数据处理系统可以是上述实施例所描述的终端、服务器等,在此不再赘述。
44.在执行数据处理方法的过程中,本技术实施例首先获取待处理的初始金融文本数据,初始金融文本数据是一个文本数据,是一个非结构化或半结构化的数据。本技术实施例中的初始金融文本数据是表征金融行业中系统运营过程中的文本数据,是业务过程产生的,可以是保险方面的具体数据,本技术实施例中以初始金融文本数据为业务过程产生的数据为例子。示例性的,初始金融文本数据可以是金融文本中一批通讯地址的数据,如“浙江省杭州市a区b街道c路1号楼”;此外,初始金融文本数据还可以是长文本的数据,例如,是行业内的官方文书。
45.初始金融文本数据可以是数据处理系统中运行过程中产生的,或者是接收到客户端发送过来的。需要指出的是,本技术实施例中的数据处理系统可以与客户端建立通信连接,数据处理系统可以接收客户端发送过来的初始金融文本数据;此外,客户端也可以是数据处理系统的一部分,用户可以直接在数据处理系统上输入初始金融文本数据,在此不做具体限制。
46.步骤s102,对初始金融文本数据进行编码,将初始金融文本数据转换成矩阵形式,得到编码后的多个编码向量,并对初始金融文本数据进行目标检测,得到目标内容;
47.示例性的,本技术实施例中可以对初始金融文本数据进行预处理,包括对初始金融文本数据进行编码,对文本进行加密。具体的,本技术实施例中学习文本代表,将转换初始金融文本数据成矩阵形式,从而得到编码后的多个编码向量。不仅如此,在预处理的过程中,为了不需要建立相关词库或人工打标,本技术实施例中对初始金融文本数据进行目标检测,得到目标内容,目标内容是检测出来的目标文本,因此本技术实施例可以配合目标表的功能,检测出相应的目标文本。
48.步骤s103,根据目标内容确定对应的用于存放初始金融文本数据的目标表,并根据目标表的存放内容确定对应的第一解码器;
49.示例性的,本技术实施例中可以根据目标表,无需建立相关词库或人工打标,将文本信息自动解码填充到目标表的规范格式,在此之前,可以根据目标内容确定对应的用于
存放初始金融文本数据的目标表,在确定目标表后,不同的目标表将对应有不同的解码器,本技术实施例中将根据目标表的存放内容确定的解码器定义为第一解码器。
50.需要说明的是,本技术实施例中可以预先建立多个目标表,在上述目标检测后,本技术实施例中将得到初始金融文本数据的内容,即为目标内容,并根据目标内容来筛选需要的目标表,从而确定所需要的解码器。
51.步骤s104,根据第一解码器对多个编码向量进行解码,得到解码后的多个目标解码数据;
52.示例性的,本技术实施例中在根据不同的目标表时选取相对应的解码器后,根据第一解码器对多个编码向量进行解码,得到解码后的多个目标解码数据,需要说明的是,目标解码数据是当前初始金融文本数据的解码数据,不同的初始金融文本数据将具有对应的目标解码数据。
53.可以理解的是,本技术实施例中在对应不同的目标表时选取相对应的解码器作为第一解码器,相当于同一文本,编码器输出s1、s2至sn等多个编码向量,包括文本整体或局部的向量,随后第一解码器在根据目标和功能选取相对应的文本编码进行解码到相应的格式。
54.步骤s105,将多个目标解码数据存放在目标表中。
55.示例性的,在解码环节后,本技术实施例中根据目标表结构和功能的的不同,解码相对应的目标表进行存储,包括将多个目标解码数据存放在目标表中,存储为结构化的数据,使得数据更容易读取和搜索。
56.本技术实施例可以根据目标表,无需建立相关词库或人工打标,将文本信息自动解码填充到目标表的规范格式,将非结构化数据转换成结构化数据,能够降低数据处理的成本,提高数据处理的效率。
57.例如,当初始金融文本数据为金融文本中一批通讯地址的数据,具体为“浙江省杭州市a区b街道c路1号楼”,在解码后,本技术实施例可以从每条地址抽取出省、市、县、乡镇、路名等实体作为目标表的表头,因此该任务可以看作是处理短文本实体提取的任务,只需识别出文本中相对性的信息填充到目标表中即可,最终存储为结构化的数据。而当初始金融文本信息为长文本时,如法院等官方文书,其中也会涉及到具体的通讯地址,目标还是抽取出省、市、县、乡镇、路名等实体,并填充到目标表中,最终存储为结构化的数据。
58.需要说明的是,上述在获取初始金融文本数据中的通讯地址并存储到目标表中,均需要获取用户的同意,并在用户的确定下,将非结构化或半结构化的初始金融文本数据存储在目标表中,最终存储为结构化的数据,满足用户的数据存储需求,以便用户对数据的读取和搜索。
59.请参阅图2,在一些实施例中,数据处理方法还可以包括步骤s201至步骤s204:
60.步骤s201,持续获取更新后的初始金融文本数据;
61.步骤s202,对更新后的初始金融文本数据进行编码,将初始金融文本数据转换成矩阵形式,得到编码后的多个编码向量;
62.步骤s203,对更新前后初始金融文本数据的编码向量进行相似性计算,得到更新前后初始金融文本数据之间的相似性参数;
63.步骤s204,当相似性参数表征更新前后初始金融文本数据的类型相同,确定将更
新后的初始金融文本数据存放在目标表中。
64.示例性的,本技术实施例中业务过程产生的数据是动态的,因此初始金融文本数据是动态更新的,因此本技术实施例中可以持续获取更新后的初始金融文本数据,在初始金融文本数据有更新时,需要对更新后的非结构化数据转换为结构化数据,因此,同样的,本技术实施例继续对更新后的初始金融文本数据进行编码,将初始金融文本数据转换成矩阵形式,得到编码后的多个编码向量。
65.随后,本技术实施例中可以计算数据的相似性,对更新前后初始金融文本数据的编码向量进行相似性计算,得到更新前后初始金融文本数据之间的相似性参数,例如通过计算不同句向量或词向量之间的欧式距离、余弦距离、皮尔逊相关系数等参数进行比较,用来比较更新前后初始金融文本数据之间的相似性,当初始金融文本数据为文档、主题、功能时,可以比较文档、主题、功能之间的相似性。计算得到的可以用于将初始金融文本数据进行分类,当相似性参数表征更新前后初始金融文本数据的类型相同,确定将更新后的初始金融文本数据存放在之前的同一目标表中,若不相同,则将更新后的初始金融文本数据存放在另一个目标表中。
66.此外,需要说明的是,若同时某些初始金融文本数据由于时间等因素内容发生了改变,本技术实施例中也可以检索到历史记录,即根据更新前后的数据可以明确数据是否改变,做为后面阶段的差异化对比的输入。
67.在本技术实施例中,新形式的结构化数据需要添加新的主题,例如更新后的初始金融文本数据需要添加新的主题,而同一目标表的数据可以理解为同一主题,而本技术实施例中通过相似性判断,相似主题的数据可以自动存储,同时自动更新旧数据,更新目标表的内容。此外,本技术实施例中的目标表可以存放在数据库中,进一步的,可以分层存储在数据库中,数据库添加可以自我更新机制,动态追踪数据的变化,增加了自反馈机制,能够辨别出同类型、主题数据的区别,在此不做具体限制。
68.需要说明的是,编码过程在上述实施例中已有描述,在此不再赘述。
69.在一些实施例中,目标解码数据包括基础解码数据和扩展解码数据,请参阅图3,步骤s104之中还可以包括步骤s301至步骤s303:
70.步骤s301,根据目标内容和目标表的存放内容之间的差异,确定额外的第二解码器;
71.步骤s302,根据第一解码器对多个编码向量进行解码,得到与目标表的存放内容相匹配的基础解码数据;
72.步骤s303,根据第二解码器对多个编码向量进行解码,得到用于新增在目标表的存放内容中的扩展解码数据。
73.示例性的,目标解码数据包含有多种数据,包括基础解码数据和扩展解码数据,其中,基础解码数据是根据目标内容能确定得到的目标表所能存放的内容,而扩展解码数据是不包含在原先的目标表中的内容,属于新增的。
74.具体的,本技术实施例中在确定第一解码器后,第一解码器用来对目标表中所能存放的内容进行解码,本技术实施例还可以根据目标内容和目标表的存放内容之间的差异,确定额外的第二解码器。可以理解的是,上述在进行目标检测的过程中,所检测出来的目标内容可能有多个,其中就可能包含目标表中无法存放的内容,对应部分内容也是比较
重要的,因此需要将这些不存在所确定的目标表中的内容新增在目标表中,需要额外确定第二解码器来进行解码。
75.本技术实施例中在随后的解码过程中,根据第一解码器对多个编码向量进行解码,得到与目标表的存放内容相匹配的基础解码数据,根据第二解码器对多个编码向量进行解码,得到用于新增在目标表的存放内容中的扩展解码数据。
76.需要说明的是,如果初始金融文本数据是长文本数据,如法院等官方文书,其中也会涉及到通讯地址信息,本技术实施例中可以抽取出省、市、县、乡镇、路名等实体,但是会在之前的基础上另外添加段落或目标识别的处理模块,或许还存在其他的实体提取内容作为新的目标表,或者在原先的目标表中新增存放内容,目标表中所能存放的内容就是基础解码数据,新增的存放内容就是拓展解码数据。
77.示例性的,存放如时间、日期、人名等信息的拓展解码数据后,目标表的存储格式也会做相应的调整,例如,地址解读的目标表的纲要(schema)为地点(location),有关人、事件发生时间的目标表schema为人(person),因此在对应不同的目标表时选取相对应的解码器,相当于同一文本,编码器输出s1、s2至sn等多个文本编码,包括文本整体或局部,第一解码器和第二解码器在根据目标和功能选取相对应的文本编码进行解码到相应的格式。
78.请参阅图4,在一些实施例中,步骤s105之后,还可以包括步骤s401至步骤s402:
79.步骤s401,根据目标表中的基础解码数据和扩展解码数据,生成看板或报告;
80.步骤s402,对看板或报告进行可视化呈现,以展示基础解码数据和扩展解码数据。
81.示例性的,本技术实施例中可以进行数据可视化操作,并根据目标表中的基础解码数据和扩展解码数据,生成看板或报告,随后对看板或报告进行可视化呈现,以展示基础解码数据和扩展解码数据。此外,本技术实施例中还可以基于更新前后初始金融文本数据的差异,生成差异性报告,并将差异性报告可视化呈现。进一步的可视化的过程还可以根据属性信息或业务种类、方向、时间点,自动生成不同的数据对比,例如数值大小,功能点,优劣势,创新点。
82.需要说明的是,本技术实施例中基于已经存储的结构化数据,根据功能、主题等自动生成可视化看板或者报告,用户在了解一份新的文本时,往往希望了解该文本的重要的基础信息,以及和同类商品进行对比其中的差异性和优略势,因此可以通过本技术实施例中的可视化呈现解决。同时对于业务人员,本技术实施例还可以帮助他们快速了解保险产品分类、迭代以及差异性,以及快速整理提取相关的文本信息。
83.此外,本技术实施例中存储后的目标表还可以为下游软件或步骤使用。例如,基于该文本语料库系统,可以构建相关的行业语料库,以及进行预训练语言模型的训练,之后根据业务端应用场景当中,提供相关的问答平台、文本摘要,或者话术优化等结果,同时计算的结果用来丰富结构化数据的特征。
84.本技术实施例中根据功能的不同拥有不同的文本数据表示,原始数据加密生成的数据表示是为了符合结构化数据表示的功能,预训练语言模型的表示是为了自然语言处理(natural language processing,nlp)下游任务。
85.请参阅图5,在一些实施例中,步骤s105之中,还可以包括步骤s501至步骤s502:
86.步骤s501,获取目标解码数据在解码过程中得到的权重;
87.步骤s502,若权重大于预设的权重阈值,将对应的目标解码数据存放在目标表中。
88.示例性的,本技术实施例中可以预测问题的特征选择,目标表只保存对最终结果相对重要的特征和权重,因此,本技术实施例可以获取目标解码数据在解码过程中得到的权重,若权重大于预设的权重阈值,将对应的目标解码数据存放在目标表中。可以理解的是,注意力机制通过对编码器所有时间步的隐藏状态做加权平均来得到编码变量,解码器在每一时间步调整这些权重,即注意力权重,从而能够在不同时间步分别关注输入序列中的不同部分并编码进相应时间步的编码变量。需要说明的是,权重阈值是本技术实施例中预先设定的一个阈值,用来筛选重要的特征和结果,可根据实际需要设置不同的大小。
89.需要指出的是,当初始金融文本数据中包含通讯地址时,本申实施例中将编码器的矩阵作为特征输入,可以预测下次活动的主要运营地区,找到潜力较高的地区,有助于数据分析。
90.请参阅图6,在一些实施例中,步骤s102之中,还可以包括步骤s601至步骤s602:
91.步骤s601,对初始金融文本数据进行数据清洗,去除初始金融文本数据中与内容无关的数据,得到清洗后的初始金融文本数据;
92.步骤s602,对清洗后的初始金融文本数据进行编码,将初始金融文本数据转换成矩阵形式,得到编码后的多个编码向量。
93.示例性的,本技术实施例中在对初始金融文本数据进行预处理的过程中,还可以对初始金融文本数据进行数据清洗,去除初始金融文本数据中与内容无关的数据(例如不必要的符号等),提高后续数据处理的效率和质量,因此可以得到清洗后的初始金融文本数据,随后在编码的过程中,就可以对清洗后的初始金融文本数据进行编码,将初始金融文本数据转换成矩阵形式,得到编码后的多个编码向量。
94.需要说明的是,本技术实施例中的初始金融文本数据,可以是数据处理系统通过爬虫、埋点或下载等方式从其他端收集的,在用户的授权下,初始金融文本数据来源形式包括但不限于pdf文档、网页、公开数据集或业务数据等,因此需要对数据进行清洗,去除其中无关的内容。
95.请参阅图7,在一些实施例中,步骤s102之中,还可以包括步骤s701至步骤s702:
96.步骤s701,根据初始金融文本数据的文本特征,设定文本编码的编码参数;
97.步骤s702,根据编码参数对初始金融文本数据进行编码,并将初始金融文本数据转换成矩阵形式,得到编码后的多个编码向量。
98.示例性的,本技术实施例中在编码的过程中,可以根据文本格式制定相对应的处理流程。具体的,包括根据初始金融文本数据的文本特征,设定文本编码的编码参数,随后根据编码参数对初始金融文本数据进行编码,并将初始金融文本数据转换成矩阵形式,得到编码后的多个编码向量。需要说明的是,根据文本格式制定相对应的处理流程中,常见长文本、短文本和对话、评论等文本内容,设置相对应的参数,例如文本长度、标点符号处理的方式等,并在编码过程中选择是使用独热编码(one-hot)、词袋模型(bag of words)、汉语语言模型(n-gram)、基于变换的(transform-based)模型、双向注意力神经网络模型(bidirectional encoder representations from transformers,bert)模型、词向量等方法中的一种完成编码,实现加密文本数据。
99.请参阅图8,本技术实施例还提供一种数据处理系统,可以实现上述数据处理方法,数据处理系统包括:
100.数据获取模块801,用于获取待处理的初始金融文本数据;
101.编码模块802,用于对初始金融文本数据进行编码,将初始金融文本数据转换成矩阵形式,得到编码后的多个编码向量,并对初始金融文本数据进行目标检测,得到目标内容;
102.解码器选择模块803,用于根据目标内容确定对应的用于存放初始金融文本数据的目标表,并根据目标表的存放内容确定的第一解码器;
103.解码模块804,用于根据第一解码器对多个编码向量进行解码,得到解码后的多个目标解码数据;
104.数据存放模块805,用于将多个目标解码数据存放在目标表中。
105.示例性的,本技术实施例中的数据处理系统可以执行上述实施例中的数据处理方法,数据处理系统可以是上述实施例所描述的终端、服务器等,在此不再赘述。
106.数据处理系统在执行数据处理方法的过程中,本技术实施例首先获取待处理的初始金融文本数据,初始金融文本数据是一个文本数据,是一个非结构化或半结构化的数据。本技术实施例中的初始金融文本数据是表征金融行业中系统运营过程中的文本数据,是业务过程产生的,可以是保险方面的具体数据,本技术实施例中以初始金融文本数据为业务过程产生的数据为例子。示例性的,初始金融文本数据可以是金融文本中一批通讯地址的数据,如“浙江省杭州市a区b街道c路1号楼”;此外,初始金融文本数据还可以是长文本的数据,例如,是行业内的官方文书。
107.初始金融文本数据可以是数据处理系统中运行过程中产生的,或者是接收到客户端发送过来的。需要指出的是,本技术实施例中的数据处理系统可以与客户端建立通信连接,数据处理系统可以接收客户端发送过来的初始金融文本数据;此外,客户端也可以是数据处理系统的一部分,用户可以直接在数据处理系统上输入初始金融文本数据,在此不做具体限制。
108.示例性的,本技术实施例中可以对初始金融文本数据进行预处理,包括对初始金融文本数据进行编码,对文本进行加密。具体的,本技术实施例中学习文本代表,将转换初始金融文本数据成矩阵形式,从而得到编码后的多个编码向量。不仅如此,在预处理的过程中,为了不需要建立相关词库或人工打标,本技术实施例中对初始金融文本数据进行目标检测,得到目标内容,目标内容是检测出来的目标文本,因此本技术实施例可以配合目标表的功能,检测出相应的目标文本。
109.示例性的,本技术实施例中可以根据目标表,无需建立相关词库或人工打标,将文本信息自动解码填充到目标表的规范格式,在此之前,可以根据目标内容确定对应的用于存放初始金融文本数据的目标表,在确定目标表后,不同的目标表将对应有不同的解码器,本技术实施例中将根据目标表的存放内容确定的解码器定义为第一解码器。
110.需要说明的是,本技术实施例中可以预先建立多个目标表,在上述目标检测后,本技术实施例中将得到初始金融文本数据的内容,即为目标内容,并根据目标内容来筛选需要的目标表,从而确定所需要的解码器。
111.示例性的,本技术实施例中在根据不同的目标表时选取相对应的解码器后,根据第一解码器对多个编码向量进行解码,得到解码后的多个目标解码数据,需要说明的是,目标解码数据是当前初始金融文本数据的解码数据,不同的初始金融文本数据将具有对应的
目标解码数据。
112.可以理解的是,本技术实施例中在对应不同的目标表时选取相对应的解码器作为第一解码器,相当于同一文本,编码器输出s1、s2至sn等多个编码向量,包括文本整体或局部的向量,随后第一解码器在根据目标和功能选取相对应的文本编码进行解码到相应的格式。
113.示例性的,在解码环节后,本技术实施例中根据目标表结构和功能的的不同,解码相对应的目标表进行存储,包括将多个目标解码数据存放在目标表中,存储为结构化的数据,使得数据更容易读取和搜索。
114.本技术实施例可以根据目标表,无需建立相关词库或人工打标,将文本信息自动解码填充到目标表的规范格式,将非结构化数据转换成结构化数据,能够降低数据处理的成本,提高数据处理的效率。
115.例如,当初始金融文本数据为金融文本中一批通讯地址的数据,具体为“浙江省杭州市a区b街道c路1号楼”,在解码后,本技术实施例可以从每条地址抽取出省、市、县、乡镇、路名等实体作为目标表的表头,因此该任务可以看作是处理短文本实体提取的任务,只需识别出文本中相对性的信息填充到目标表中即可,最终存储为结构化的数据。而当初始金融文本信息为长文本时,如法院等官方文书,其中也会涉及到具体的通讯地址,目标还是抽取出省、市、县、乡镇、路名等实体,并填充到目标表中,最终存储为结构化的数据。
116.需要说明的是,上述在获取初始金融文本数据中的通讯地址并存储到目标表中,均需要获取用户的同意,并在用户的确定下,将非结构化或半结构化的初始金融文本数据存储在目标表中,最终存储为结构化的数据,满足用户的数据存储需求,以便用户对数据的读取和搜索。
117.该数据处理系统的具体实施方式与上述数据处理方法的具体实施例基本相同,在此不再赘述。在满足本技术实施例要求的前提下,数据处理系统还可以设置其他功能模块,以实现上述实施例中的数据处理方法。
118.本技术实施例还提供了一种电子设备,电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述数据处理方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。
119.请参阅图9,图9示意了另一实施例的电子设备的硬件结构,电子设备包括:
120.处理器901,可以采用通用的cpu(centralprocessingunit,中央处理器)、微处理器、应用专用集成电路(applicationspecificintegratedcircuit,asic)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本技术实施例所提供的技术方案;
121.存储器902,可以采用只读存储器(readonlymemory,rom)、静态存储设备、动态存储设备或者随机存取存储器(randomaccessmemory,ram)等形式实现。存储器902可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器902中,并由处理器901来调用执行本技术实施例的数据处理方法;
122.输入/输出接口903,用于实现信息输入及输出;
123.通信接口904,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如usb、网线等)实现通信,也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信;
124.总线905,在设备的各个组件(例如处理器901、存储器902、输入/输出接口903和通信接口904)之间传输信息;
125.其中处理器901、存储器902、输入/输出接口903和通信接口904通过总线905实现彼此之间在设备内部的通信连接。
126.本技术实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述数据处理方法。
127.存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
128.本技术实施例描述的实施例是为了更加清楚的说明本技术实施例的技术方案,并不构成对于本技术实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本技术实施例提供的技术方案对于类似的技术问题,同样适用。
129.本领域技术人员可以理解的是,图中示出的技术方案并不构成对本技术实施例的限定,可以包括比图示更多或更少的步骤,或者组合某些步骤,或者不同的步骤。
130.以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
131.本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
132.本技术的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
133.应当理解,在本技术中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:只存在a,只存在b以及同时存在a和b三种情况,其中a,b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
134.在本技术所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结
合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
135.上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
136.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
137.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例的方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,简称rom)、随机存取存储器(random access memory,简称ram)、磁碟或者光盘等各种可以存储程序的介质。
138.以上参照附图说明了本技术实施例的优选实施例,并非因此局限本技术实施例的权利范围。本领域技术人员不脱离本技术实施例的范围和实质内所作的任何修改、等同替换和改进,均应在本技术实施例的权利范围之内。

技术特征:
1.一种数据处理方法,其特征在于,所述方法包括:获取待处理的初始金融文本数据;对所述初始金融文本数据进行编码,将所述初始金融文本数据转换成矩阵形式,得到编码后的多个编码向量,并对所述初始金融文本数据进行目标检测,得到目标内容;根据所述目标内容确定对应的用于存放所述初始金融文本数据的目标表,并根据所述目标表的存放内容确定对应的第一解码器;根据所述第一解码器对多个所述编码向量进行解码,得到解码后的多个目标解码数据;将多个所述目标解码数据存放在所述目标表中。2.根据权利要求1所述的数据处理方法,其特征在于,所述方法还包括:持续获取更新后的所述初始金融文本数据;对更新后的所述初始金融文本数据进行编码,将所述初始金融文本数据转换成矩阵形式,得到编码后的多个编码向量;对更新前后所述初始金融文本数据的所述编码向量进行相似性计算,得到更新前后所述初始金融文本数据之间的相似性参数;当所述相似性参数表征更新前后所述初始金融文本数据的类型相同,确定将所述更新后的所述初始金融文本数据存放在所述目标表中。3.根据权利要求1所述的数据处理方法,其特征在于,所述目标解码数据包括基础解码数据和扩展解码数据,所述根据所述第一解码器对多个所述编码向量进行解码,得到解码后的多个解码数据,包括:根据所述目标内容和所述目标表的存放内容之间的差异,确定额外的第二解码器;根据所述第一解码器对多个所述编码向量进行解码,得到与所述目标表的存放内容相匹配的所述基础解码数据;根据所述第二解码器对多个所述编码向量进行解码,得到用于新增在所述目标表的存放内容中的所述扩展解码数据。4.根据权利要求3所述的数据处理方法,其特征在于,所述将多个所述目标解码数据存放在所述目标表中之后,所述方法还包括:根据所述目标表中的所述基础解码数据和所述扩展解码数据,生成看板或报告;对所述看板或所述报告进行可视化呈现,以展示所述基础解码数据和所述扩展解码数据。5.根据权利要求1所述的数据处理方法,其特征在于,所述将多个所述目标解码数据存放在所述目标表中,包括:获取所述目标解码数据在解码过程中得到的权重;若所述权重大于预设的权重阈值,将对应的所述目标解码数据存放在所述目标表中。6.根据权利要求1所述的数据处理方法,其特征在于,所述对所述初始金融文本数据进行编码,将所述初始金融文本数据转换成矩阵形式,得到编码后的多个编码向量,包括:对所述初始金融文本数据进行数据清洗,去除所述初始金融文本数据中与内容无关的数据,得到清洗后的所述初始金融文本数据;对清洗后的所述初始金融文本数据进行编码,将所述初始金融文本数据转换成矩阵形
式,得到编码后的多个编码向量。7.根据权利要求1或6所述的数据处理方法,其特征在于,所述对所述初始金融文本数据进行编码,将所述初始金融文本数据转换成矩阵形式,得到编码后的多个编码向量,包括:根据所述初始金融文本数据的文本特征,设定文本编码的编码参数;根据所述编码参数对所述初始金融文本数据进行编码,并将所述初始金融文本数据转换成矩阵形式,得到编码后的多个编码向量。8.一种数据处理系统,其特征在于,所述系统包括:数据获取模块,用于获取待处理的初始金融文本数据;编码模块,用于对所述初始金融文本数据进行编码,将所述初始金融文本数据转换成矩阵形式,得到编码后的多个编码向量,并对所述初始金融文本数据进行目标检测,得到目标内容;解码器选择模块,用于根据所述目标内容确定对应的用于存放所述初始金融文本数据的目标表,并根据所述目标表的存放内容确定对应的第一解码器;解码模块,用于根据所述第一解码器对多个所述编码向量进行解码,得到解码后的多个目标解码数据;数据存放模块,用于将多个所述目标解码数据存放在所述目标表中。9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的数据处理方法。10.一种计算机可读存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的数据处理方法。

技术总结
本申请实施例提供了一种数据处理方法、系统、电子设备及存储介质,属于数据处理技术领域。数据处理方法包括:获取待处理的初始金融文本数据;对初始金融文本数据进行编码,将初始金融文本数据转换成矩阵形式,得到编码后的多个编码向量,并对初始金融文本数据进行目标检测,得到目标内容;根据目标内容确定对应的用于存放初始金融文本数据的目标表,并根据目标表的存放内容确定对应的第一解码器;根据第一解码器对多个编码向量进行解码,得到解码后的多个目标解码数据;将多个目标解码数据存放在目标表中。本申请可以将文本信息自动解码填充到目标表的规范格式,将非结构化数据转换成结构化数据,降低了数据处理的成本,提高数据处理的效率。处理的效率。处理的效率。


技术研发人员:陈琦 吴振宇 王建明 肖京
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2023.05.06
技术公布日:2023/7/27
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐