文本匹配方法、设备、存储介质及装置与流程
未命名
07-14
阅读:122
评论:0
1.本发明涉及互联网技术领域,尤其涉及一种文本匹配方法、设备、存储介质及装置。
背景技术:
2.目前,通常直接根据字面重合度判断句子之间是否相似。但是,在实际应用中,即使句子之间的字面重合度较高,也存在语义完全不同的情况。例如,“给我播放好听的歌曲”和“给我播放好听的故事”虽然字面重合度高,但是语义完全不同,从而导致了文本匹配的准确率低。
3.上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
技术实现要素:
4.本发明的主要目的在于提供一种文本匹配方法、设备、存储介质及装置,旨在解决现有技术中即使句子之间的字面重合度较高,也存在语义完全不同的情况,从而导致了文本匹配的准确率低的技术问题。
5.为实现上述目的,本发明提供一种文本匹配方法,所述文本匹配方法包括以下步骤:
6.获取查询文本和所述查询文本对应的相似文本;
7.对所述查询文本和所述相似文本分别进行领域关键词标记;
8.根据标记后的查询文本和标记后的相似文本确定所述查询文本对应的同义表达文本。
9.可选地,所述根据标记后的查询文本和标记后的相似文本确定所述查询文本对应的同义表达文本的步骤,包括:
10.根据标记后的查询文本和标记后的相似文本通过预设相似度模型确定所述查询文本与所述相似文本的语义相似分值;
11.根据所述语义相似分值确定所述查询文本对应的同义表达文本。
12.可选地,所述获取查询文本和所述查询文本对应的相似文本的步骤之前,还包括:
13.获取用户历史对话库,并从所述用户历史对话库中提取历史查询文本;
14.获取所述历史查询文本的领域信息,并根据所述领域信息对所述历史查询文本进行分组,获得正例样本对和负例样本对;
15.对所述正例样本对和所述负例样本对分别进行领域关键词标记;
16.根据标记后的正例样本对和标记后的负例样本对对初始相似度模型进行训练,获得预设相似度模型。
17.可选地,所述获取所述历史查询文本的领域信息,并根据所述领域信息对所述历史查询文本进行分组,获得正例样本对和负例样本对的步骤,包括:
18.获取所述历史查询文本的领域信息、意图信息以及槽位信息;
19.根据所述领域信息、所述意图信息以及所述槽位信息对所述历史查询文本进行分组,获得正例样本对和负例样本对。
20.可选地,所述对所述正例样本对和所述负例样本对分别进行领域关键词标记的步骤,包括:
21.通过预设关键词挖掘模型挖掘所述用户历史对话库中的领域级关键词;
22.基于预设领域级词典和所述领域级关键词对所述正例样本对和所述负例样本对进行关键词标记。
23.可选地,所述根据所述语义相似分值确定所述查询文本对应的同义表达文本的步骤,包括:
24.判断所述语义相似分值是否大于预设阈值;
25.若是,则根据语义相似分值对所述相似文本进行排序,并根据排序结果确定所述查询文本对应的同义表达文本。
26.可选地,所述对所述查询文本和所述相似文本分别进行领域关键词标记的步骤,包括:
27.获取所述相似文本的领域信息,并根据所述领域信息确定领域级词典;
28.根据所述领域级词典对所述查询文本和所述相似文本分别进行领域关键词标记。
29.可选地,所述根据所述领域级词典和所述领域级关键词对所述查询文本和所述相似文本分别进行领域关键词标记的步骤,包括:
30.通过预设关键词挖掘模型挖掘用户历史对话库中的领域级关键词;
31.根据所述领域级词典和所述领域级关键词对所述查询文本和所述相似文本分别进行领域关键词标记。
32.可选地,所述根据所述领域级词典和所述领域级关键词对所述查询文本和所述相似文本分别进行领域关键词标记的步骤,包括:
33.根据所述领域级词典和所述领域级关键词对所述查询文本和所述相似文本分别进行领域关键词匹配;
34.根据匹配结果生成领域关键词标签,并根据所述领域关键词标签对所述查询文本和所述相似文本分别进行领域关键词标记。
35.可选地,所述获取查询文本和所述查询文本对应的相似文本的步骤,包括:
36.获取查询文本;
37.在用户历史对话库中查找所述查询文本对应的相似文本。
38.可选地,所述根据标记后的查询文本和标记后的相似文本确定所述查询文本对应的同义表达文本的步骤之后,还包括:
39.将所述同义表达文本发送至用户,并接收所述用户根据所述同义表达文本反馈的调整信息;
40.根据所述调整信息对所述同义表达文本进行调整。
41.此外,为实现上述目的,本发明还提出一种文本匹配设备,所述文本匹配设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本匹配程序,所述文本匹配程序配置为实现如上文所述的文本匹配方法。
42.此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有文本匹配程序,所述文本匹配程序被处理器执行时实现如上文所述的文本匹配方法。
43.此外,为实现上述目的,本发明还提出一种文本匹配装置,所述文本匹配装置包括:文本获取模块、文本标记模块以及文本确定模块;
44.所述文本获取模块,用于获取查询文本和所述查询文本对应的相似文本;
45.所述文本标记模块,用于对所述查询文本和所述相似文本分别进行领域关键词标记;
46.所述文本确定模块,用于根据标记后的查询文本和标记后的相似文本确定所述查询文本对应的同义表达文本。
47.可选地,所述文本确定模块,还用于根据标记后的查询文本和标记后的相似文本通过预设相似度模型确定所述查询文本与所述相似文本的语义相似分值;
48.所述文本确定模块,还用于根据所述语义相似分值确定所述查询文本对应的同义表达文本。
49.可选地,所述文本匹配装置还包括:模型训练模块;
50.所述模型训练模块,用于获取用户历史对话库,并从所述用户历史对话库中提取历史查询文本;
51.所述模型训练模块,还用于获取所述历史查询文本的领域信息,并根据所述领域信息对所述历史查询文本进行分组,获得正例样本对和负例样本对;
52.所述模型训练模块,还用于对所述正例样本对和所述负例样本对分别进行领域关键词标记;
53.所述模型训练模块,还用于根据标记后的正例样本对和标记后的负例样本对对初始相似度模型进行训练,获得预设相似度模型。
54.可选地,所述模型训练模块,还用于获取所述历史查询文本的领域信息、意图信息以及槽位信息;
55.所述模型训练模块,还用于根据所述领域信息、所述意图信息以及所述槽位信息对所述历史查询文本进行分组,获得正例样本对和负例样本对。
56.可选地,所述模型训练模块,还用于通过预设关键词挖掘模型挖掘所述用户历史对话库中的领域级关键词;
57.所述模型训练模块,还用于基于预设领域级词典和所述领域级关键词对所述正例样本对和所述负例样本对进行关键词标记。
58.可选地,所述文本确定模块,还用于判断所述语义相似分值是否大于预设阈值;
59.所述文本确定模块,还用于若是,则根据语义相似分值对所述相似文本进行排序,并根据排序结果确定所述查询文本对应的同义表达文本。
60.可选地,所述文本标记模块,还用于获取所述相似文本的领域信息,并根据所述领域信息确定领域级词典;
61.所述文本标记模块,还用于根据所述领域级词典对所述查询文本和所述相似文本分别进行领域关键词标记。
62.在本发明中,公开了获取查询文本和查询文本对应的相似文本,对查询文本和相似文本分别进行领域关键词标记,根据标记后的查询文本和标记后的相似文本确定查询文
本对应的同义表达文本;由于本发明引入了领域关键词标记来确定同义表达文本,从而能够识别出领域关键信息的不同,进而提高了文本匹配的准确性。
附图说明
63.图1是本发明实施例方案涉及的硬件运行环境的文本匹配设备的结构示意图;
64.图2为本发明文本匹配方法第一实施例的流程示意图;
65.图3为本发明文本匹配方法第二实施例的流程示意图;
66.图4为本发明文本匹配方法第三实施例的流程示意图;
67.图5为本发明文本匹配装置第一实施例的结构框图。
68.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
69.应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
70.参照图1,图1为本发明实施例方案涉及的硬件运行环境的文本匹配设备结构示意图。
71.如图1所示,该文本匹配设备可以包括:处理器1001,例如中央处理器(central processing unit,cpu),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display),可选用户接口1003还可以包括标准的有线接口、无线接口,对于用户接口1003的有线接口在本发明中可为usb接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(wireless-fidelity,wi-fi)接口)。存储器1005可以是高速的随机存取存储器(random access memory,ram)存储器,也可以是稳定的存储器(non-volatile memory,nvm),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
72.本领域技术人员可以理解,图1中示出的结构并不构成对文本匹配设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
73.如图1所示,认定为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及文本匹配程序。
74.在图1所示的文本匹配设备中,网络接口1004主要用于连接后台服务器,与所述后台服务器进行数据通信;用户接口1003主要用于连接用户设备;所述文本匹配设备通过处理器1001调用存储器1005中存储的文本匹配程序,并执行本发明实施例提供的文本匹配方法。
75.基于上述硬件结构,提出本发明文本匹配方法的实施例。
76.参照图2,图2为本发明文本匹配方法第一实施例的流程示意图,提出本发明文本匹配方法第一实施例。
77.在第一实施例中,所述文本匹配方法包括以下步骤:
78.步骤s10:获取查询文本和所述查询文本对应的相似文本。
79.应当理解的是,本实施例方法的执行主体可以是具有数据处理、网络通信以及程序运行功能的文本匹配设备,例如,服务器等,或者是其他能够实现相同或相似功能的电子
设备,本实施例对此不加限制。
80.可以理解的是,目前,主流的句子相似度计算方式主要有以下两种方式:
81.(1)基于表征的方式:将句子分别输入模型得到句子的表征向量,然后再对向量进行点积计算,典型代表是基于深度网络的语义模型(deep structured semantic model,dssm)。
82.(2)基于交互的方式:将句子对一块输入到模型,模型直接给出句子相似的分值,典型代表是自编码语言模型(bidirectional encoder representations from transformers,bert)。
83.上述方式都是通过字面重合度判断句子之间是否相似。但是,在实际应用中,即使句子之间的字面重合度较高,也存在语义完全不同的情况。例如,文本“给我播放好听的歌曲”和“给我播放好听的故事”,“播放周杰的歌曲”和“播放周杰伦的歌曲”,虽然字面重合度高,但是语义完全不同,从而导致了文本匹配的准确率低。
84.因此,为了克服上述缺陷,本实施例引入了领域关键词标记来确定同义表达文本,从而能够识别出领域关键信息的不同,进而提高了文本匹配的准确性。
85.需要说明的是,查询文本可以由用户预先输入,也可以由文本匹配设备自动从互联网上爬取,本实施例对此不加以限制。
86.相似文本可以是字面重合度与查询文本较高的文本。
87.应当理解的是,获取查询文本对应的相似文本可以是在互联网中查找查询文本对应的相似文本。具体步骤可以是:通过预设相似度模型确定互联网中各文本与查询文本的相似度,并将相似度大于预设相似度的文本作为查询文本对应的相似文本。其中,预设字面相似模型可以预先设置,例如,预设字面相似模型可以是自编码语言模型(bidirectional encoder representations from transformers,bert),预设相似度也可以预先设置,例如,预设相似度可以预先设置为80%。
88.步骤s20:对所述查询文本和所述相似文本分别进行领域关键词标记。
89.可以理解的是,由于预设字面相似模型无法识别出文本中的关键信息不同,因此,相似文本不一定是查询文本对应的同义表达文本。为了进一步验证相似文本是否为同义表达文本,本实施例中,还对查询文本和相似文本分别进行领域关键词标记,以标记出文本中的关键词信息,方便后续处理。
90.应当理解的是,对查询文本和相似文本分别进行领域关键词标记可以是基于预设领域级词典对查询文本和相似文本对分别进行领域关键词标记。其中,预设领域级词典可以预先设置,用于存储各领域的领域级关键词。
91.可以理解的是,基于预设领域级词典对查询文本对进行领域关键词标记可以是将查询文本对中各文本的关键词与预设领域级词典中的词典关键词进行匹配,在匹配成功时,通过领域关键词标签标记匹配成功的关键词。同理可对相似文本进行领域关键词标记。
92.在具体实现中,例如,查询文本为“给我播放好听的歌曲”,相似文本为“给我播放好听的故事”,通过领域关键词标签《k》和《/k》对“歌曲”和“故事”分别进行标记,具体可以标记为“给我播放好听的《k》歌曲《/k》”和“给我播放好听的《k》故事《/k》”。
93.步骤s30:根据标记后的查询文本和标记后的相似文本确定所述查询文本对应的同义表达文本。
94.可以理解的是,根据标记后的查询文本和标记后的相似文本确定查询文本对应的同义表达文本可以是根据标记后的查询文本和标记后的相似文本通过预设相似度模型确定查询文本对应的同义表达文本。其中,由于预设相似度模型具备识别出文本中的关键信息不同的能力,因此,只需将领域关键词标记后的查询文本和相似文本输入预设相似度模型,就能获得查询文本对应的同义表达文本。
95.在第一实施例中,公开了获取查询文本和查询文本对应的相似文本,对查询文本和相似文本分别进行领域关键词标记,根据标记后的查询文本和标记后的相似文本确定查询文本对应的同义表达文本;由于本实施例引入了领域关键词标记来确定同义表达文本,从而能够识别出领域关键信息的不同,进而提高了文本匹配的准确性。
96.参照图3,图3为本发明文本匹配方法第二实施例的流程示意图,基于上述图2所示的第一实施例,提出本发明文本匹配方法的第二实施例。
97.在第二实施例中,所述步骤s10,包括:
98.步骤s101:获取查询文本。
99.应当理解的是,为了使同义表达文本更加符合用户平时的表述习惯,本实例中,在用户历史对话库中查找查询文本对应的相似文本。
100.需要说明的是,查询文本可以由用户预先输入,也可以由文本匹配设备自动从互联网上爬取,本实施例对此不加以限制。
101.步骤s102:在用户历史对话库中查找所述查询文本对应的相似文本。
102.需要说明的是,用户历史对话库中可以包括多条历史查询文本和历史查询文本对应的领域信息。
103.可以理解的是,在用户历史对话库中查找查询文本对应的相似文本可以是通过预设字面相似模型确定用户历史对话库中各历史查询文本与查询文本的相似度,并将相似度大于预设相似度的历史查询文本作为查询文本对应的相似文本。其中,预设字面相似模型可以预先设置,例如,预设字面相似模型可以是自编码语言模型(bidirectional encoder representations from transformers,bert),预设相似度也可以预先设置,例如,预设相似度可以预先设置为80%。
104.在第二实施例中,公开了获取查询文本,在用户历史对话库中查找查询文本对应的相似文本;由于本实施例在用户历史对话库中查找查询文本对应的相似文本,从而能够使同义表达文本更加符合用户平时的表述习惯。
105.在第二实施例中,所述步骤s20,包括:
106.步骤s201:获取所述相似文本的领域信息,并根据所述领域信息确定领域级词典。
107.应当理解的是,考虑到基于预设领域级词典对查询文本和相似文本对分别进行领域关键词标记,需要在多个领域进行匹配,处理数据较多。因此,为了减少处理数据,提高处理效率,本实施例中,先获取相似文本的领域信息,并根据领域信息确定领域级词典,再根据领域级词典对查询文本和相似文本分别进行领域关键词标记。
108.可以理解的是,根据领域信息确定领域级词典可以是在预设词典表中查找领域信息对应的领域级词典。其中,预设词典表中包含领域信息与领域级词典的对应关系,领域信息与领域级词典的对应关系可以预先录入。
109.步骤s202:根据所述领域级词典对所述查询文本和所述相似文本分别进行领域关
键词标记。
110.应当理解的是,根据领域级词典对查询文本和相似文本分别进行领域关键词标记可以是将查询文本对中各文本的关键词与领域级词典中的词典关键词进行匹配,在匹配成功时,通过领域关键词标签标记匹配成功的关键词。同理可对相似文本进行领域关键词标记。
111.在第二实施例中,公开了获取相似文本的领域信息,并根据领域信息确定领域级词典,根据领域级词典对查询文本和相似文本分别进行领域关键词标记;由于本实施例先获取相似文本的领域信息,并根据领域信息确定领域级词典,再根据领域级词典对查询文本和相似文本分别进行领域关键词标记,从而能够先确定领域级词典,减少了领域匹配数量,进而减少了处理数据,提高了处理效率。
112.进一步地,为了使关键词标记更加准确,所述步骤s202,包括:
113.通过预设关键词挖掘模型挖掘用户历史对话库中的领域级关键词;
114.根据所述领域级词典和所述领域级关键词对所述查询文本和所述相似文本分别进行领域关键词标记。
115.应当理解的是,为了使关键词标记更加准确,本实施例中,还从用户历史对话库中的挖掘领域级关键词,并根据领域级词典和领域级关键词对查询文本和相似文本分别进行领域关键词标记。
116.需要说明的是,预设关键词挖掘模型可以预先设定,例如,预设关键词挖掘模型可以预先设定为tf-idf(term frequency-inverse document frequency)模型。其中,tf-idf是一种用于信息检索与数据挖掘的常用加权技术。tf是词频(term frequency),idf是逆文本频率指数(inverse document frequency)。
117.可以理解的是,基于预设领域级词典和领域级关键词对正例样本对对进行关键词标记可以根据领域级词典和领域级关键词对查询文本和相似文本分别进行领域关键词匹配,根据匹配结果生成领域关键词标签,并根据领域关键词标签对查询文本和相似文本分别进行领域关键词标记。其中,领域关键词标签可以预先设置,例如,领域关键词标签可以预先设置为《k》和《/k》。
118.在第二实施例中,所述步骤s30,包括:
119.步骤s301:根据标记后的查询文本和标记后的相似文本通过预设相似度模型确定所述查询文本与所述相似文本的语义相似分值。
120.应当理解的是,为了能够获得符合相似度要求的同义表达文本,本实施例中,基于查询文本与相似文本的语义相似分值确定查询文本对应的同义表达文本。
121.可以理解的是,将标记后的查询文本和相似文本输入预设相似度模型后,可以获得查询文本与相似文本的语义相似分值。
122.步骤s302:根据所述语义相似分值确定所述查询文本对应的同义表达文本。
123.应当理解的是,根据语义相似分值确定查询文本对应的同义表达文本可以是将语义相似分值大于预设阈值的相似文本作为查询文本对应的同义表达文本。其中,预设阈值可以预先设置。
124.在第二实施例中,公开了根据标记后的查询文本和标记后的相似文本通过预设相似度模型确定查询文本与相似文本的语义相似分值,根据语义相似分值确定查询文本对应
的同义表达文本;由于本实施例基于查询文本与相似文本的语义相似分值确定查询文本对应的同义表达文本,从而能够获得符合相似度要求的同义表达文本。
125.进一步地,为了能够获得相似度较高的同义表达文本,所述步骤s302,包括:
126.判断所述语义相似分值是否大于预设阈值;
127.若是,则根据语义相似分值对所述相似文本进行排序,并根据排序结果确定所述查询文本对应的同义表达文本。
128.可以理解的是,为了能够获得相似度较高的同义表达文本,本实施例在判定语义相似分值大于预设阈值后,还根据语义相似分值对相似文本进行排序,并根据排序结果确定查询文本对应的同义表达文本。
129.应当理解的是,根据语义相似分值对相似文本进行排序,并根据排序结果确定查询文本对应的同义表达文本可以是根据语义相似分值从大到小对相似文本进行排序,并将排序靠前的预设数量的相似文本作为查询文本对应的同义表达文本。其中,预设数量可以预先设置,例如,预设数量可以预先设置为1。
130.参照图4,图4为本发明文本匹配方法第三实施例的流程示意图,基于上述图3所示的第二实施例,提出本发明文本匹配方法的第三实施例。
131.在第三实施例中,所述步骤s10之前,还包括:
132.步骤s01:获取用户历史对话库,并从所述用户历史对话库中提取历史查询文本。
133.应当理解的是,为了提高预设相似度模型的准确性,本实施例中,可以先构建正例样本对和负例样本对,再对正例样本对和负例样本对分别进行领域关键词标记,再根据标记后的正例样本对和标记后的负例样本对对初始相似度模型进行训练,获得预设相似度模型。
134.需要说明的是,用户历史对话库中可以包括多条历史查询文本和历史查询文本对应的领域信息。
135.步骤s02:获取所述历史查询文本的领域信息,并根据所述领域信息对所述历史查询文本进行分组,获得正例样本对和负例样本对。
136.需要说明的是,领域信息可以用于表示文本所属领域,例如,文本“给我播放好听的歌曲”属于音乐领域。
137.可以理解的是,根据领域信息对所述历史查询文本进行分组可以是将领域相同的历史查询文本作为正例样本对;将其他的历史查询文本作为负例样本对。
138.进一步地,为了提高正负例样本对分组的可靠性,所述步骤s02,包括:
139.获取所述历史查询文本的领域信息、意图信息以及槽位信息;
140.根据所述领域信息、所述意图信息以及所述槽位信息对所述历史查询文本进行分组,获得正例样本对和负例样本对。
141.应当理解的是,为了提高正负例样本对分组的可靠性,本实施例中,还引入意图信息和所述槽位信息,并结合领域信息共同对历史查询文本进行分组。
142.需要说明的是,意图信息用于表示文本的意图,槽位可以是文本中的关键信息。在具体实现中,例如,历史查询文本“播放周杰的歌曲”中“音乐”是领域信息,“播放歌曲”是意图信息,“周杰”是槽位信息。
143.可以理解的是,根据领域信息、意图信息以及槽位信息对历史查询文本进行分组,
获得正例样本对和负例样本对可以是将领域、意图以及槽位都相同的历史查询文本作为正例样本对;将其他的历史查询文本作为负例样本对。
144.步骤s03:对所述正例样本对和所述负例样本对分别进行领域关键词标记。
145.应当理解的是,对正例样本对和负例样本对分别进行领域关键词标记可以是基于预设领域级词典对正例样本对和负例样本对分别进行领域关键词标记。其中,预设领域级词典可以预先设置,用于存储各领域的领域级关键词。
146.可以理解的是,基于预设领域级词典对正例样本对进行领域关键词标记可以是将正例样本对中各文本的关键词与预设领域级词典中的词典关键词进行匹配,在匹配成功时,通过领域关键词标签标记匹配成功的关键词。同理可对负例样本对进行领域关键词标记。
147.在具体实现中,例如,正例样本对为“给我播放好听的歌曲”和“播放好听的歌曲”,与预设领域级词典中的词典关键词“歌曲”匹配成功,则通过领域关键词标签《k》和《/k》对“歌曲”进行标记,具体可以标记为“给我播放好听的《k》歌曲《/k》”。
148.进一步地,为了使关键词标记更加准确,所述步骤s03,包括:
149.通过预设关键词挖掘模型挖掘所述用户历史对话库中的领域级关键词;
150.基于预设领域级词典和所述领域级关键词对所述正例样本对和所述负例样本对进行关键词标记。
151.应当理解的是,为了使关键词标记更加准确,本实施例中,还从用户历史对话库中的挖掘领域级关键词,并基于预设领域级词典和领域级关键词对正例样本对和所述负例样本对进行关键词标记。
152.需要说明的是,预设关键词挖掘模型可以预先设定,例如,预设关键词挖掘模型可以预先设定为tf-idf(term frequency-inverse document frequency)模型。其中,tf-idf是一种用于信息检索与数据挖掘的常用加权技术。tf是词频(term frequency),idf是逆文本频率指数(inverse document frequency)。
153.可以理解的是,基于预设领域级词典和领域级关键词对正例样本对对进行关键词标记可以是将正例样本对中各文本的关键词分别与预设领域级词典和领域级关键词进行匹配,在匹配成功时,通过领域关键词标签标记匹配成功的关键词。同理可对负例样本对进行领域关键词标记。其中,领域关键词标签可以预先设置,例如,领域关键词标签可以预先设置为《k》和《/k》。
154.步骤s04:根据标记后的正例样本对和标记后的负例样本对对初始相似度模型进行训练,获得预设相似度模型。
155.需要说明的是,初始相似度模型可以预先设置,例如,初始相似度模型可以预先设置为自编码语言模型(bidirectional encoder representations from transformers,bert)。
156.可以理解的是,根据标记后的正例样本对和标记后的负例样本对对初始相似度模型进行训练,以使预设相似度模型获得识别出两者关键信息不同的能力。
157.在第三实施例中,公开了获取用户历史对话库,并从用户历史对话库中提取历史查询文本,获取历史查询文本的领域信息,并根据领域信息对历史查询文本进行分组,获得正例样本对和负例样本对,对正例样本对和负例样本对分别进行领域关键词标记,根据标
记后的正例样本对和标记后的负例样本对对初始相似度模型进行训练,获得预设相似度模型;由于本实施例先构建正例样本对和负例样本对,再对正例样本对和负例样本对分别进行领域关键词标记,再根据标记后的正例样本对和标记后的负例样本对对初始相似度模型进行训练,获得预设相似度模型,从而能够预先对相似度模型进行训练,以使预设相似度模型具备识别出两者关键信息不同的能力,进而能够提高预设相似度模型的准确性。
158.在第三实施例中,所述步骤30之后,还包括:
159.将所述同义表达文本发送至用户,并接收所述用户根据所述同义表达文本反馈的调整信息;
160.根据所述调整信息对所述同义表达文本进行调整。
161.应当理解的是,为了便于用户根据自身实际需求对同义表达文本进行调整,本实施例中,还将同义表达文本发送至用户,并接收用户根据同义表达文本反馈的调整信息,并根据调整信息对同义表达文本进行调整。
162.需要说明的是,调整信息可以包括增加、删除以及替换同义表达文本等。
163.可以理解的是,根据调整信息对同义表达文本进行调整可以是根据调整信息增加、删除或替换同义表达文本。
164.在第三实施例中,公开了将同义表达文本发送至用户,并接收用户根据同义表达文本反馈的调整信息,根据调整信息对同义表达文本进行调整;由于本实施例中还基于用户的实际需求对同义表达文本进行调整,从而确保了同义表达文本符合用户的实际需求,提高了用户体验。
165.此外,本发明实施例还提出一种存储介质,所述存储介质上存储有文本匹配程序,所述文本匹配程序被处理器执行时实现如上文所述的文本匹配方法。
166.此外,参照图5,本发明实施例还提出一种文本匹配装置,所述文本匹配装置包括:文本获取模块10、文本标记模块20以及文本确定模块30;
167.所述文本获取模块10,用于获取查询文本和所述查询文本对应的相似文本。
168.可以理解的是,目前,主流的句子相似度计算方式主要有以下两种方式:
169.(1)基于表征的方式:将句子分别输入模型得到句子的表征向量,然后再对向量进行点积计算,典型代表是基于深度网络的语义模型(deep structured semantic model,dssm)。
170.(2)基于交互的方式:将句子对一块输入到模型,模型直接给出句子相似的分值,典型代表是自编码语言模型(bidirectional encoder representations from transformers,bert)。
171.上述方式都是通过字面重合度判断句子之间是否相似。但是,在实际应用中,即使句子之间的字面重合度较高,也存在语义完全不同的情况。例如,文本“给我播放好听的歌曲”和“给我播放好听的故事”,“播放周杰的歌曲”和“播放周杰伦的歌曲”,虽然字面重合度高,但是语义完全不同,从而导致了文本匹配的准确率低。
172.因此,为了克服上述缺陷,本实施例引入了领域关键词标记来确定同义表达文本,从而能够识别出领域关键信息的不同,进而提高了文本匹配的准确性。
173.需要说明的是,查询文本可以由用户预先输入,也可以由文本匹配设备自动从互联网上爬取,本实施例对此不加以限制。
174.相似文本可以是字面重合度与查询文本较高的文本。
175.应当理解的是,获取查询文本对应的相似文本可以是在互联网中查找查询文本对应的相似文本。具体步骤可以是:通过预设相似度模型确定互联网中各文本与查询文本的相似度,并将相似度大于预设相似度的文本作为查询文本对应的相似文本。其中,预设字面相似模型可以预先设置,例如,预设字面相似模型可以是自编码语言模型(bidirectional encoder representations from transformers,bert),预设相似度也可以预先设置,例如,预设相似度可以预先设置为80%。
176.所述文本标记模块20,用于对所述查询文本和所述相似文本分别进行领域关键词标记。
177.可以理解的是,由于预设字面相似模型无法识别出文本中的关键信息不同,因此,相似文本不一定是查询文本对应的同义表达文本。为了进一步验证相似文本是否为同义表达文本,本实施例中,还对查询文本和相似文本分别进行领域关键词标记,以标记出文本中的关键词信息,方便后续处理。
178.应当理解的是,对查询文本和相似文本分别进行领域关键词标记可以是基于预设领域级词典对查询文本和相似文本对分别进行领域关键词标记。其中,预设领域级词典可以预先设置,用于存储各领域的领域级关键词。
179.可以理解的是,基于预设领域级词典对查询文本对进行领域关键词标记可以是将查询文本对中各文本的关键词与预设领域级词典中的词典关键词进行匹配,在匹配成功时,通过领域关键词标签标记匹配成功的关键词。同理可对相似文本进行领域关键词标记。
180.在具体实现中,例如,查询文本为“给我播放好听的歌曲”,相似文本为“给我播放好听的故事”,通过领域关键词标签《k》和《/k》对“歌曲”和“故事”分别进行标记,具体可以标记为“给我播放好听的《k》歌曲《/k》”和“给我播放好听的《k》故事《/k》”。
181.所述文本确定模块30,用于根据标记后的查询文本和标记后的相似文本确定所述查询文本对应的同义表达文本。
182.可以理解的是,根据标记后的查询文本和标记后的相似文本确定查询文本对应的同义表达文本可以是根据标记后的查询文本和标记后的相似文本通过预设相似度模型确定查询文本对应的同义表达文本。其中,由于预设相似度模型具备识别出文本中的关键信息不同的能力,因此,只需将领域关键词标记后的查询文本和相似文本输入预设相似度模型,就能获得查询文本对应的同义表达文本。
183.在本实施例中,公开了获取查询文本和查询文本对应的相似文本,对查询文本和相似文本分别进行领域关键词标记,根据标记后的查询文本和标记后的相似文本确定查询文本对应的同义表达文本;由于本实施例引入了领域关键词标记来确定同义表达文本,从而能够识别出领域关键信息的不同,进而提高了文本匹配的准确性。
184.本发明所述文本匹配装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
185.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该
要素的过程、方法、物品或者系统中还存在另外的相同要素。
186.上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
187.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器镜像(read only memory image,rom)/随机存取存储器(random access memory,ram)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
188.以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
189.本发明公开了a1、一种文本匹配方法,所述文本匹配方法包括以下步骤:
190.获取查询文本和所述查询文本对应的相似文本;
191.对所述查询文本和所述相似文本分别进行领域关键词标记;
192.根据标记后的查询文本和标记后的相似文本确定所述查询文本对应的同义表达文本。
193.a2、如a1所述的文本匹配方法,所述根据标记后的查询文本和标记后的相似文本确定所述查询文本对应的同义表达文本的步骤,包括:
194.根据标记后的查询文本和标记后的相似文本通过预设相似度模型确定所述查询文本与所述相似文本的语义相似分值;
195.根据所述语义相似分值确定所述查询文本对应的同义表达文本。
196.a3、如a2所述的文本匹配方法,所述获取查询文本和所述查询文本对应的相似文本的步骤之前,还包括:
197.获取用户历史对话库,并从所述用户历史对话库中提取历史查询文本;
198.获取所述历史查询文本的领域信息,并根据所述领域信息对所述历史查询文本进行分组,获得正例样本对和负例样本对;
199.对所述正例样本对和所述负例样本对分别进行领域关键词标记;
200.根据标记后的正例样本对和标记后的负例样本对对初始相似度模型进行训练,获得预设相似度模型。
201.a4、如a3所述的文本匹配方法,所述获取所述历史查询文本的领域信息,并根据所述领域信息对所述历史查询文本进行分组,获得正例样本对和负例样本对的步骤,包括:
202.获取所述历史查询文本的领域信息、意图信息以及槽位信息;
203.根据所述领域信息、所述意图信息以及所述槽位信息对所述历史查询文本进行分组,获得正例样本对和负例样本对。
204.a5、如a3所述的文本匹配方法,所述对所述正例样本对和所述负例样本对分别进行领域关键词标记的步骤,包括:
205.通过预设关键词挖掘模型挖掘所述用户历史对话库中的领域级关键词;
206.基于预设领域级词典和所述领域级关键词对所述正例样本对和所述负例样本对
进行关键词标记。
207.a6、如a2所述的文本匹配方法,所述根据所述语义相似分值确定所述查询文本对应的同义表达文本的步骤,包括:
208.判断所述语义相似分值是否大于预设阈值;
209.若是,则根据语义相似分值对所述相似文本进行排序,并根据排序结果确定所述查询文本对应的同义表达文本。
210.a7、如a1至a6中任一项所述的文本匹配方法,所述对所述查询文本和所述相似文本分别进行领域关键词标记的步骤,包括:
211.获取所述相似文本的领域信息,并根据所述领域信息确定领域级词典;
212.根据所述领域级词典对所述查询文本和所述相似文本分别进行领域关键词标记。
213.a8、如a7所述的文本匹配方法,所述根据所述领域级词典和所述领域级关键词对所述查询文本和所述相似文本分别进行领域关键词标记的步骤,包括:
214.通过预设关键词挖掘模型挖掘用户历史对话库中的领域级关键词;
215.根据所述领域级词典和所述领域级关键词对所述查询文本和所述相似文本分别进行领域关键词标记。
216.a9、如a8所述的文本匹配方法,所述根据所述领域级词典和所述领域级关键词对所述查询文本和所述相似文本分别进行领域关键词标记的步骤,包括:
217.根据所述领域级词典和所述领域级关键词对所述查询文本和所述相似文本分别进行领域关键词匹配;
218.根据匹配结果生成领域关键词标签,并根据所述领域关键词标签对所述查询文本和所述相似文本分别进行领域关键词标记。
219.a10、如a1至a6中任一项所述的文本匹配方法,所述获取查询文本和所述查询文本对应的相似文本的步骤,包括:
220.获取查询文本;
221.在用户历史对话库中查找所述查询文本对应的相似文本。
222.a11、如a1至a6中任一项所述的文本匹配方法,所述根据标记后的查询文本和标记后的相似文本确定所述查询文本对应的同义表达文本的步骤之后,还包括:
223.将所述同义表达文本发送至用户,并接收所述用户根据所述同义表达文本反馈的调整信息;
224.根据所述调整信息对所述同义表达文本进行调整。
225.本发明还公开了b12、一种文本匹配设备,所述文本匹配设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本匹配程序,所述文本匹配程序被所述处理器执行时实现如上文所述的文本匹配方法。
226.本发明还公开了c13、一种存储介质,所述存储介质上存储有文本匹配程序,所述文本匹配程序被处理器执行时实现如上文所述的文本匹配方法。
227.本发明还公开了d14、一种文本匹配装置,所述文本匹配装置包括:文本获取模块、文本标记模块以及文本确定模块;
228.所述文本获取模块,用于获取查询文本和所述查询文本对应的相似文本;
229.所述文本标记模块,用于对所述查询文本和所述相似文本分别进行领域关键词标
记;
230.所述文本确定模块,用于根据标记后的查询文本和标记后的相似文本确定所述查询文本对应的同义表达文本。
231.d15、如d14所述的文本匹配装置,所述文本确定模块,还用于根据标记后的查询文本和标记后的相似文本通过预设相似度模型确定所述查询文本与所述相似文本的语义相似分值;
232.所述文本确定模块,还用于根据所述语义相似分值确定所述查询文本对应的同义表达文本。
233.d16、如d15所述的文本匹配装置,所述文本匹配装置还包括:模型训练模块;
234.所述模型训练模块,用于获取用户历史对话库,并从所述用户历史对话库中提取历史查询文本;
235.所述模型训练模块,还用于获取所述历史查询文本的领域信息,并根据所述领域信息对所述历史查询文本进行分组,获得正例样本对和负例样本对;
236.所述模型训练模块,还用于对所述正例样本对和所述负例样本对分别进行领域关键词标记;
237.所述模型训练模块,还用于根据标记后的正例样本对和标记后的负例样本对对初始相似度模型进行训练,获得预设相似度模型。
238.d17、如d16所述的文本匹配装置,所述模型训练模块,还用于获取所述历史查询文本的领域信息、意图信息以及槽位信息;
239.所述模型训练模块,还用于根据所述领域信息、所述意图信息以及所述槽位信息对所述历史查询文本进行分组,获得正例样本对和负例样本对。
240.d18、如d16所述的文本匹配装置,所述模型训练模块,还用于通过预设关键词挖掘模型挖掘所述用户历史对话库中的领域级关键词;
241.所述模型训练模块,还用于基于预设领域级词典和所述领域级关键词对所述正例样本对和所述负例样本对进行关键词标记。
242.d19、如d15所述的文本匹配装置,所述文本确定模块,还用于判断所述语义相似分值是否大于预设阈值;
243.所述文本确定模块,还用于若是,则根据语义相似分值对所述相似文本进行排序,并根据排序结果确定所述查询文本对应的同义表达文本。
244.d20、如d14至d19中任一项所述的文本匹配装置,所述文本标记模块,还用于获取所述相似文本的领域信息,并根据所述领域信息确定领域级词典;
245.所述文本标记模块,还用于根据所述领域级词典对所述查询文本和所述相似文本分别进行领域关键词标记。
技术特征:
1.一种文本匹配方法,其特征在于,所述文本匹配方法包括以下步骤:获取查询文本和所述查询文本对应的相似文本;对所述查询文本和所述相似文本分别进行领域关键词标记;根据标记后的查询文本和标记后的相似文本确定所述查询文本对应的同义表达文本。2.如权利要求1所述的文本匹配方法,其特征在于,所述根据标记后的查询文本和标记后的相似文本确定所述查询文本对应的同义表达文本的步骤,包括:根据标记后的查询文本和标记后的相似文本通过预设相似度模型确定所述查询文本与所述相似文本的语义相似分值;根据所述语义相似分值确定所述查询文本对应的同义表达文本。3.如权利要求2所述的文本匹配方法,其特征在于,所述获取查询文本和所述查询文本对应的相似文本的步骤之前,还包括:获取用户历史对话库,并从所述用户历史对话库中提取历史查询文本;获取所述历史查询文本的领域信息,并根据所述领域信息对所述历史查询文本进行分组,获得正例样本对和负例样本对;对所述正例样本对和所述负例样本对分别进行领域关键词标记;根据标记后的正例样本对和标记后的负例样本对对初始相似度模型进行训练,获得预设相似度模型。4.如权利要求3所述的文本匹配方法,其特征在于,所述获取所述历史查询文本的领域信息,并根据所述领域信息对所述历史查询文本进行分组,获得正例样本对和负例样本对的步骤,包括:获取所述历史查询文本的领域信息、意图信息以及槽位信息;根据所述领域信息、所述意图信息以及所述槽位信息对所述历史查询文本进行分组,获得正例样本对和负例样本对。5.如权利要求3所述的文本匹配方法,其特征在于,所述对所述正例样本对和所述负例样本对分别进行领域关键词标记的步骤,包括:通过预设关键词挖掘模型挖掘所述用户历史对话库中的领域级关键词;基于预设领域级词典和所述领域级关键词对所述正例样本对和所述负例样本对进行关键词标记。6.如权利要求2所述的文本匹配方法,其特征在于,所述根据所述语义相似分值确定所述查询文本对应的同义表达文本的步骤,包括:判断所述语义相似分值是否大于预设阈值;若是,则根据语义相似分值对所述相似文本进行排序,并根据排序结果确定所述查询文本对应的同义表达文本。7.如权利要求1至6中任一项所述的文本匹配方法,其特征在于,所述对所述查询文本和所述相似文本分别进行领域关键词标记的步骤,包括:获取所述相似文本的领域信息,并根据所述领域信息确定领域级词典;根据所述领域级词典对所述查询文本和所述相似文本分别进行领域关键词标记。8.一种文本匹配设备,其特征在于,所述文本匹配设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本匹配程序,所述文本匹配程序被所述处理器
执行时实现如权利要求1至7中任一项所述的文本匹配方法。9.一种存储介质,其特征在于,所述存储介质上存储有文本匹配程序,所述文本匹配程序被处理器执行时实现如权利要求1至7中任一项所述的文本匹配方法。10.一种文本匹配装置,其特征在于,所述文本匹配装置包括:文本获取模块、文本标记模块以及文本确定模块;所述文本获取模块,用于获取查询文本和所述查询文本对应的相似文本;所述文本标记模块,用于对所述查询文本和所述相似文本分别进行领域关键词标记;所述文本确定模块,用于根据标记后的查询文本和标记后的相似文本确定所述查询文本对应的同义表达文本。
技术总结
本发明涉及互联网技术领域,公开了一种文本匹配方法、设备、存储介质及装置,该方法包括:获取查询文本和查询文本对应的相似文本,对查询文本和相似文本分别进行领域关键词标记,根据标记后的查询文本和标记后的相似文本确定查询文本对应的同义表达文本;由于本发明引入了领域关键词标记来确定同义表达文本,从而能够识别出领域关键信息的不同,进而提高了文本匹配的准确性。文本匹配的准确性。文本匹配的准确性。
技术研发人员:龚小春
受保护的技术使用者:北京奇虎科技有限公司
技术研发日:2021.12.27
技术公布日:2023/7/13
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
