搜索纠错方法、装置、电子设备及介质与流程
未命名
09-11
阅读:127
评论:0
1.本发明涉及人工智能技术领域,尤其是涉及一种搜索纠错方法、装置、电子设备及介质。
背景技术:
2.随着旅游行业流量的爆发式增长,众多的用户会登录各大旅游平台,参与订车票、订酒店、订景点等相关业务。然后,用户在搜索目标资源时,经常会出现输入文本错误的情况,从而导致无法展示用户想要的资源,降低了用户的体验感。现有的方法大多是通过文本纠错技术,对用户输入的文本进行纠错,但是,现有的纠错方法存在准确率低,效果差的问题。
技术实现要素:
3.有鉴于此,本发明的目的在于提供一种搜索纠错方法、装置、电子设备及介质,能够提高了纠错的准确率,提升用户的体验感。
4.为了实现上述目的,本发明实施例采用的技术方案如下:
5.第一方面,本发明实施例提供了一种搜索纠错方法,包括:获取用户输入的搜索文本,并对搜索文本进行意图识别确定意图类别;基于意图类别确定纠错方式,并基于纠错方式对搜索文本进行处理得到纠错结果;其中,纠错方式至少包括:规则纠错和模型纠错;基于预先确定的选择模型在搜索文本和纠错结果中确定目标搜索文本。
6.在一种实施方式中,基于意图类别确定纠错方式,包括:如果意图类别为交通场景,则确定纠错方式为规则纠错和模型纠错相结合;如果意图类别不是交通场景,则确定纠错方式为模型纠错。
7.在一种实施方式中,模型纠错包括:基于预先训练好的纠错模型中,获取搜索文本的模型纠错结果。
8.在一种实施方式中,纠错模型至少包括:编码模块、错误检测模块和错误纠正模块;基于预先训练好的纠错模型中,获取搜索文本的模型纠错结果,包括:通过编码模块对搜索文本进行编码得到搜索文本对应的向量矩阵;通过错误检测模块将向量矩阵映射到二维解空间得到搜索文本的错误检测结果;通过错误纠正模块对错误检测结果中存在错误的字符进行标记,并对标记的字符进行预测得到模型纠错结果。
9.在一种实施方式中,规则纠错包括:对搜索文本进行预分词得到多个分词;按照预设顺序计算每个分词与候选词集中的词组之间的相似得分;其中,相似得分包括多个维度的得分;基于相似得分确定分词的替换词,并采用替换词替换搜索文本中对应的分词得到规则纠错结果。
10.在一种实施方式中,基于相似得分确定分词的替换词,包括:基于相似得分确定候选词集中的词组与分词相似的维度个数,并基于维度个数对候选词集中的词组进行初次排序得到初始替换词;基于预先确定的初始替换词和候选词集中剩余词组的业务权重,以及
分词与初始替换词的相似得分和分词与候选词集中剩余词组的相似得分的差值进行二次排序得到替换词。
11.在一种实施方式中,基于预先确定的选择模型在搜索文本和纠错结果中确定目标搜索文本,包括:通过预先确定的选择模型对搜索文本和纠错结果进行编码得到编码结果;对编码结果进行三分类,并根据分类结果确定目标搜索文本。
12.第二方面,本发明实施例提供了一种搜索纠错装置,包括:意图识别模块,用于获取用户输入的搜索文本,并对搜索文本进行意图识别确定意图类别;纠错模块,用于基于意图类别确定纠错方式,并基于纠错方式对搜索文本进行处理得到纠错结果;其中,纠错方式至少包括:规则纠错和模型纠错;选择模块,用于基于预先确定的选择模型在搜索文本和纠错结果中确定目标搜索文本。
13.第三方面,本发明实施例提供了一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现上述第一方面提供的任一项的方法的步骤。
14.第四方面,本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述第一方面提供的任一项的方法的步骤。
15.本发明实施例带来了以下有益效果:
16.本发明实施例提供的上述搜索纠错方法、装置、电子设备及介质,能够首先获取用户输入的搜索文本,并对搜索文本进行意图识别确定意图类别;然后基于意图类别确定纠错方式(至少包括:规则纠错和模型纠错),并基于纠错方式对搜索文本进行处理得到纠错结果;最后基于预先确定的选择模型在搜索文本和纠错结果中确定目标搜索文本。上述方法能够兼顾规则纠错和模型纠错两种纠错方式,根据意图识别确定采用的纠错方式,并得到纠错结果,提高了纠错的准确率;同时为了避免过度纠错,还可以通过选择模型在搜索文本和纠错结果中,选择最优的结果作为最终的目标搜索文本,从而为用户提供最优的搜索结果,降低了用户搜索的错误率,提升用户的体验感。
17.本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
18.为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
19.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
20.图1为本发明实施例提供的一种搜索纠错方法的流程图;
21.图2为本发明实施例提供的一种纠错模型的结构示意图;
22.图3为本发明实施例提供的一种搜索纠错系统的架构图;
23.图4为本发明实施例提供的一种搜索下拉展示内容示意图;
24.图5为本发明实施例提供的一种搜索纠错装置的结构示意图;
25.图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
26.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
27.首先,对本发明实施例中涉及到的相关术语进行介绍:
28.1、自然语言处理(natural language processing,nlp):人工智能和语言学领域的分支科学,旨在让机器理解文字,然后让机器处理、运用人类语言。主要包括机器翻译、文本纠错、实体识别、文本生成等多个研究方向。
29.2、badcase:错误的样例。
30.3、在线旅行社(online travel agency,ota):指售卖旅游产品与服务,包括酒店、机票、车票、景点门票、路线产品等与旅游相关的产品。
31.4、自然语言理解(natural language understanding,nlu):所有支持机器理解文本内容的方法模型或任务的总称,主要包括文本意图识别、实体识别、分词等研究内容。
32.5、bert(bidirectional encoder representation from transformers):由google ai研究院提出的一种预训练模型,在多项nlp任务上取得最优效果。
33.6、准确率(查准率):预测正确的正例数据占预测为正例数据的比例。
34.7、召回率(查全率):预测为正确的正例数据占实际为正例数据的比例。
35.8、f1:准确率和召回率的调和平均值,兼顾准确率和召回率。
36.9、ab实验:在线上切出一部分用户,完全随机的分成两组或多组(确保人群一致),一组保持现有的方案叫对照组,另一组使用改进的方案叫实验组,使用统计的方法对两组之间指标的差异进行分析,评估是否符合预期的一种方法。
37.下面对本发明实施例提供的搜索纠错方法、装置、电子设备及介质的技术方案进行详细介绍。
38.目前,用户在搜索目标资源时,经常会出现输入文本错误的情况,从而导致无法展示用户想要的资源,降低了用户的体验感。现有的方法大多是通过文本纠错技术,对用户输入的文本进行纠错判断,将错误的输入进行实时纠正,但是,现有的纠错方法存在准确率低,效果差,响应速度慢等问题;同时,目前的系统中无法兼容规则纠错和模型纠错,经常会出现一方可以纠正,而另一方无法纠正的现象。
39.基于此,本发明实施例提供的一种搜索纠错方法、装置、电子设备及介质,可以提高纠错的准确率,提升用户的体验感。
40.为便于对本实施例进行理解,首先对本发明实施例所公开的一种搜索纠错方法进行详细介绍,该方法可以由电子设备执行,诸如智能手机、电脑、ipad等,电子设备中安装有面向旅游搜索的软件系统。旅游搜索下中文常见的错误类型包括:音似错字、形似错字、多字、少字和乱序问题,参见表1所示的错字的类别划分与样例。其中,音似错字、形似错字、乱
序不会导致纠正前后字符长度变化,而多字、少字问题会导致纠正前后字符长度发生变化。
41.表1:旅游搜索中文纠错常见错误类型
[0042][0043]
参见图1所示的一种搜索纠错方法的流程图,示意出该方法主要包括以下步骤s101至步骤s103:
[0044]
步骤s101:获取用户输入的搜索文本,并对搜索文本进行意图识别确定意图类别。
[0045]
在一种实施方式中,当用户输入搜索文本时,首先对搜索文本进行意图识别,确定搜索的意图类别。本实施例中,意图类别至少包括酒店场景、景区场景、交通场景以及其他场景等。
[0046]
步骤s102:基于意图类别确定纠错方式,并基于纠错方式对搜索文本进行处理得到纠错结果。
[0047]
在一种实施方式中,纠错方式至少包括:规则纠错和模型纠错。在确定用户搜索的意图类别后,可以根据意图类别确定纠错方式,具体的可以采用自然语言理解(natural language understanding,nlu)进行意图识别。由于酒店和景区数据较多且名称存在谐音问题,规则纠错通过数据库匹配耗时较多且命中率不高,因此,模型纠错支持旅游搜索全意图类别纠错,而规则纠错只针对交通场景的纠错。基于此,如果意图类别为交通场景,则确定纠错方式为规则纠错和模型纠错相结合;如果意图类别不是交通场景,则确定纠错方式为模型纠错。即根据nlu意图识别的结果,如果为交通场景,会有规则纠错+模型纠错的方式,如果为非交通场景,则只采用模型纠错的方式。
[0048]
进一步,在确定纠错方式后,可以根据确定的纠错方式对用户输入的搜索文本进行纠错,得到纠错结果。其中,纠错结果包括:模型纠错结果和/或规则纠错结果。
[0049]
步骤s103:基于预先确定的选择模型在搜索文本和纠错结果中确定目标搜索文本。
[0050]
在一种实施方式中,可能会存在过度纠错的问题,尤其是对于用户输入不太明了的情况下,经常会将用户输入的文本进行了错误地纠正,影响用户的体验。基于此,本发明实施例中在得到纠错结果之后,可以通过预先训练的选择模型在用户输入的搜索文本以及通过纠正得到的纠错结果中进行选择,将最符合用于搜索意图的文本作为目标搜索文本输出给用户。
[0051]
本发明实施例提供的上述搜索纠错方法,能够兼顾规则纠错和模型纠错两种纠错方式,根据意图识别确定采用的纠错方式,并得到纠错结果,提高了纠错的准确率;同时为
了避免过度纠错,还可以通过选择模型在搜索文本和纠错结果中,选择最优的结果作为最终的目标搜索文本,从而为用户提供最优的搜索结果,降低了用户搜索的错误率,提升用户的体验感。
[0052]
本发明实施例提供了模型纠错的具体实现方式,包括:基于预先训练好的纠错模型中,获取搜索文本的模型纠错结果。
[0053]
在一种实施方式中,参见图2所示,本发明实施例采用的纠错模型为macbert4csc模型,其在原生bert模型上进行了改进,是一个多任务学习模型。纠错模型至少包括:编码模块、错误检测模块和错误纠正模块;其中,模型的输入(inputs)为用户线上搜索时输入的搜索文本,x表示输入的中文字符;bert outputs为编码模块,用于对用户线上搜索时输入的搜索文本进行编码;错误检测模块(detection)用于判断输入的文本中是否存在错别字,错误纠正模块(correction)用于将检测到的错别字纠正为正确的结果。
[0054]
本发明实施例中,在基于预先训练好的纠错模型中,获取搜索文本的模型纠错结果时,可以采用包括但不限于以下方式:
[0055]
首先,通过编码模块对搜索文本进行编码得到搜索文本对应的向量矩阵。
[0056]
在具体实施时,将用户输入的搜索文本输入到纠错模型中,纠错模型在接收到搜索文本后,通过编码模块(bert)对搜索文本进行编码,将搜索文本中的每个字符映射为768维的向量表示,该向量学习到了搜索文本的语义信息和上下文信息,具体编码流程可bert模型的原理。例如:搜索文本为n个字符,在bert编码后,可以得到一个n*768维的向量矩阵。
[0057]
然后,通过错误检测模块将向量矩阵映射到二维解空间得到搜索文本的错误检测结果。
[0058]
在具体实施时,错误检测模块为二分类网络,即判断当前字符是否为错别字。在得到bert编码结果后,在纠错模型中增加了一个全连接层,用于将bert编码结果映射到二维解空间。例如:输入“苏洲到北京”,错误检测模型输出[0,1,0,0,0],其中,0表示该位置的字符不存在错误,1表示该位置的字符存在错误。
[0059]
最后,通过错误纠正模块对错误检测结果中存在错误的字符进行标记,并对标记的字符进行预测得到模型纠错结果。
[0060]
在具体实施时,错误纠正模型可以采用bert的mlm任务(mask language model),将当前错误的字符用[mask]标记替换,然后通过模型预测被标记的错误字符是什么,并根据预测的结果对其进行纠正,得到模型纠错结果,具体的,如果检测到存在错误的字符预测为除元字符外的其他字符,则表明对搜索文本进行了纠正。例如:用户输入“苏洲到北京”,错误检测模块判断“洲”字存在错误,则用[mask]标记替换“洲”字,对其进行标记,即输入的文本变为“苏[mask]到北京”,通过模型预测[mask]位置的字符为“州”,则将[mask]标记替换为“州”字,对搜索文本进行了纠错。
[0061]
本发明实施例提供了规则纠错的具体实现方式,主要包括但不限于以下方式:
[0062]
首先,对搜索文本进行预分词得到多个分词。
[0063]
在具体实施时,规则纠错是基于孤立字去进行尝试组合,首先对用户输入的搜索文本进行预分词,如果搜索文本中存在错别字,那么错别字词组肯定是断裂的,因此可以基于此进行纠错。
[0064]
然后,按照预设顺序计算每个分词与候选词集中的词组之间的相似得分;其中,相
似得分包括多个维度的得分。
[0065]
在具体实施时,对于预分词后的结果,可以按照从前往后的顺序与候选词集中的词组计算相似得分,每个候选集的词组计算得到的相似得到都有多个维度得分,包括但不限于:拼音维度、笔画维度、综合维度(即拼音与笔画综合等)。
[0066]
最后,基于相似得分确定分词的替换词,并采用替换词替换搜索文本中对应的分词得到规则纠错结果。
[0067]
在具体实施时,可以采用包括但不限于以下方式确定分词的替换词:首先基于相似得分确定候选词集中的词组与分词相似的维度个数,并基于维度个数对候选词集中的词组进行初次排序得到初始替换词;然后基于预先确定的初始替换词和候选词集中剩余词组的业务权重,以及分词与初始替换词的相似得分和分词与候选词集中剩余词组的相似得分的差值进行二次排序得到替换词。
[0068]
具体的,当一个维度的相似得分超过一定阈值时,则认为该候选集的词组与分词在该维度高相似。一个分词可能与同一个候选集的词组在多个维度存在高相似,根据计算得到的相似得分可以确定候选词集中的词组与分词相似的维度个数;然后,根据高相似的维度个数进行初次排序,优先选择高相似的维度个数多的候选集中的词组作为初始替换词,例如:假设候选集中词组1与分词1在拼音维度、笔画维度以及综合维度均高相似,而其他词组仅在一个维度与分词1高相似,那么在排序时词组1则排在第一位,将其作为初始替换词;此外,如果存在高相似维度个数相同的情况,则优先根据笔画维度的相似得分进行排序。
[0069]
进一步,在初次排序完成后,得到的初始替换词可能仅与搜索文本在拼音或者笔画上相似,并没有业务相关性,替换后也无法得到满足用户需求的搜索文本。因此,本发明实施例中,在持此排序完成后,还需要初始替换词(首位元素)和候选词集中剩余词组(剩余元素)进行二次排序,如果剩余元素的业务权重高于首位元素的业务权重且剩余元素的相似得分与首位元素的相似的分的分差小于分差阈值,则采用剩余元素替换首位元素,作为最终的替换词。
[0070]
在得到替换词后,可以采用替换词替换搜索文本中对应的分词得到规则纠错结果。
[0071]
在一种实施方式中,对于前述步骤s103,即在基于预先确定的选择模型在搜索文本和纠错结果中确定目标搜索文本时,可以采用包括但不限于以下方式:首先,通过预先确定的选择模型对搜索文本和纠错结果进行编码得到编码结果;然后,对编码结果进行三分类,并根据分类结果确定目标搜索文本。
[0072]
在具体实施时,选择模型可以是三选一模型。在得到纠错结果后,可以通过三选一模型,对于输入的搜索文本、模型纠错结果和规则纠错结果,判断使用哪一个作为输出的结果。将三选一模型作为3分类任务,输入为《搜索文本、模型纠错结果、规则纠错结果》,使用bert模型进行文本编码,得到整个句子的向量表示,然后通过全连接网络将向量映射为3分类解空间,得到最终的输出结果,即目标搜索文本。
[0073]
本发明实施例中在对用户输入的搜索文本进行纠错后,还可以对结果进行评测,具体的可以采用离线评测和在线评测两种方式。其中,离线评测为计算模型在纠错测试集上的准确率、召回率和f1分值;在线评测为线上ab实验,切分ab实验组查看每天的大搜点击
率和转化率,纠错后的结果,搜索结果能够更准确展示用户想要查找的资源,从而会使得点击率提升。
[0074]
本发明实施例提供的上述搜错纠错方法,针对旅游场景下,存在用户输入错误导致搜索不到目标资源的问题,通过自然语言处理与大模型技术,构建智能中文纠错系统全链路流程。相比于现有技术,只考虑通过规则方法或者模型方法进行文本纠错,本发明结合规则方法和模型方法,降低了用户搜索的错误率,提升了搜索的点击率与成单率。
[0075]
本发明实施例还提供了一种面向旅游搜索的智能中文纠错系统,参见图3所示的一种搜索纠错系统的架构图,主要包括:数据源、数据预处理、纠错方法、评价指标与应用场景5个部分:
[0076]
(1)数据源
[0077]
本发明实施例中的纠错数据源主要来自于线上真实用户搜索的埋点数据、景区数据、酒店品牌数据和日常工作中收集的badcase。其中,由于酒店数据较多而且酒店名称存在谐音的问题,因此,本发明实施例中仅采用酒店品牌的数据,而非全量。
[0078]
(2)数据预处理
[0079]
纠错模型在训练时需要构建《原始输入,纠正结果》的语料对,由于开源的语料大多集中为闲聊或者新闻领域,相较于ota场景区别较大,因此,本发明实施例中可以利用现有ota场景下数据源,通过同音字替换、谐音字替换、形近字替换、输入长度过滤、拼音数字过滤等方法构建纠错模型所需的训练语料。
[0080]
其中,同音字替换:随机替换1个字(生成3条),随机替换2个字(生成2条),随机替换3个字(生成1条);
[0081]
谐音字替换:随机替换1个字(生成3条),随机替换2个字(生成2条),随机替换3个字(生成1条);
[0082]
形近字替换:随机替换1个字(生成3条),随机替换2个字(生成2条),随机替换3个字(生成1条);
[0083]
输入长度过滤:过滤数据中字符长度小于1或者大于20的样例;
[0084]
拼音数字过滤:过滤数据中只包含拼音和数字的样例。
[0085]
(3)纠错方法
[0086]
本发明实施例中的纠错方法包括:意图识别、模型纠错、规则纠错和三选一模型,具体实现方式可参见前述实施例,在此不再赘述。
[0087]
进一步,本发明实施例还提供了一种纠错模型的训练方式,采用上述构建的训练语料对纠错进行训练,将训练集预料输入到模型中,通过bert模型对输入文本进行编码,将每个字符映射为768维的向量表示;然后,在bert编码结果后,增加一个全连接层(错误检测网络),用于将bert编码结果映射到二维解空间;最后,错误纠正网络采用bert的mlm任务,将当前字符用[mask]标记替换,预测[mask]位置的字符进行纠正。
[0088]
具体的,在训练时可以采用detection层和correction层的损失加权得到纠错模型最终的损失。
[0089]
loss=w
·
loss
det
+(1-w)
·
loss
cor
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0090]
其中,loss表示纠错模型的损失,loss
det
表示错误检测网络(detection)的损失,loss
cor
表示错误纠正网络(correction)的损失,w表示超参数,取值[0-1]。
[0091]
(4)评测指标
[0092]
具体的,评测指标采用离线评测和在线评测两种方式。其中,离线评测为计算模型在纠错测试集上的准确率、召回率和f1分值;在线评测为线上ab实验,切分ab实验组查看每天的大搜点击率和转化率,纠错后的结果,搜索结果能够更准确展示用户想要查找的资源,从而会使得点击率提升。
[0093]
(5)应用场景
[0094]
本发明实施例可以用于旅游产品下小程序和app搜索入口。
[0095]
参见图4所示的一种搜索下拉展示内容示意图,正确的纠错结果可以增加用户搜索点击,提升用户产品体验。
[0096]
本发明实施例提供的上述系统,通过分析线上用户搜索的日志,定位旅游搜索下错字的类型,针对不同类型的错字情况,构造相关语料用于模型纠错训练,更加贴合实际应用场景;本发明采用macbert4csc方法作为系统中的模型纠错,纠错效果好;交通场景下,采用了规则纠错和模型纠错两种方法,同时,为了缓解过纠问题,引入了原词、规则纠错、模型纠错三选一功能,挑选最优纠错结果;日常收集线上日志,通过人工分析线上badcase,更新语料,重新训练模型进行修复,不断迭代,提升纠错的准确率。
[0097]
对于前述搜索纠错方法,本发明实施例还提供了一种搜索纠错装置,参见图5所示的一种搜索纠错装置的结构示意图,示意出该装置主要包括以下部分:
[0098]
意图识别模块501,用于获取用户输入的搜索文本,并对搜索文本进行意图识别确定意图类别;
[0099]
纠错模块502,用于基于意图类别确定纠错方式,并基于纠错方式对搜索文本进行处理得到纠错结果;其中,纠错方式至少包括:规则纠错和模型纠错;
[0100]
选择模块503,用于基于预先确定的选择模型在搜索文本和纠错结果中确定目标搜索文本。
[0101]
本发明实施例提供的上述搜索纠错装置,能够兼顾规则纠错和模型纠错两种纠错方式,根据意图识别确定采用的纠错方式,并得到纠错结果,提高了纠错的准确率;同时为了避免过度纠错,还可以通过选择模型在搜索文本和纠错结果中,选择最优的结果作为最终的目标搜索文本,从而为用户提供最优的搜索结果,降低了用户搜索的错误率,提升用户的体验感。
[0102]
在一种实施方式中,上述纠错模块502进一步还用于:如果意图类别为交通场景,则确定纠错方式为规则纠错和模型纠错相结合;如果意图类别不是交通场景,则确定纠错方式为模型纠错。
[0103]
在一种实施方式中,上述纠错模块502包括模型纠错单元,用于:基于预先训练好的纠错模型中,获取搜索文本的模型纠错结果。
[0104]
在一种实施方式中,纠错模型至少包括:编码模块、错误检测模块和错误纠正模块;上述模型纠错单元还用于:通过编码模块对搜索文本进行编码得到搜索文本对应的向量矩阵;通过错误检测模块将向量矩阵映射到二维解空间得到搜索文本的错误检测结果;通过错误纠正模块对错误检测结果中存在错误的字符进行标记,并对标记的字符进行预测得到模型纠错结果。
[0105]
在一种实施方式中,上述纠错模块502还包括规则纠错单元,用于:对搜索文本进
行预分词得到多个分词;按照预设顺序计算每个分词与候选词集中的词组之间的相似得分;其中,相似得分包括多个维度的得分;基于相似得分确定分词的替换词,并采用替换词替换搜索文本中对应的分词得到规则纠错结果。
[0106]
在一种实施方式中,上述规则纠错单元还用于:基于相似得分确定候选词集中的词组与分词相似的维度个数,并基于维度个数对候选词集中的词组进行初次排序得到初始替换词;基于预先确定的初始替换词和候选词集中剩余词组的业务权重,以及分词与初始替换词的相似得分和分词与候选词集中剩余词组的相似得分的差值进行二次排序得到替换词。
[0107]
在一种实施方式中,上述选择模块503进一步还用于:通过预先确定的选择模型对搜索文本和纠错结果进行编码得到编码结果;对编码结果进行三分类,并根据分类结果确定目标搜索文本。
[0108]
本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
[0109]
本发明实施例还提供了一种电子设备,具体的,该电子设备包括处理器和存储装置;存储装置上存储有计算机程序,计算机程序在被处理器运行时执行如上实施方式的任一项所述的方法。
[0110]
图6为本发明实施例提供的一种电子设备的结构示意图,该电子设备100包括:处理器60,存储器61,总线62和通信接口63,所述处理器60、通信接口63和存储器61通过总线62连接;处理器60用于执行存储器61中存储的可执行模块,例如计算机程序。
[0111]
其中,存储器61可能包含高速随机存取存储器(ram,random acc ess memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口63(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
[0112]
总线62可以是isa总线、pci总线或eisa总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
[0113]
其中,存储器61用于存储程序,所述处理器60在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器60中,或者由处理器60实现。
[0114]
处理器60可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器60中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器60可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processing,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现成可编程门阵列(field-programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随
机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器61,处理器60读取存储器61中的信息,结合其硬件完成上述方法的步骤。
[0115]
本发明实施例所提供的可读存储介质的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见前述方法实施例,在此不再赘述。
[0116]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0117]
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
技术特征:
1.一种搜索纠错方法,其特征在于,包括:获取用户输入的搜索文本,并对所述搜索文本进行意图识别确定意图类别;基于所述意图类别确定纠错方式,并基于所述纠错方式对所述搜索文本进行处理得到纠错结果;其中,所述纠错方式至少包括:规则纠错和模型纠错;基于预先确定的选择模型在所述搜索文本和所述纠错结果中确定目标搜索文本。2.根据权利要求1所述的方法,其特征在于,基于所述意图类别确定纠错方式,包括:如果所述意图类别为交通场景,则确定所述纠错方式为规则纠错和模型纠错相结合;如果所述意图类别不是交通场景,则确定所述纠错方式为模型纠错。3.根据权利要求2所述的方法,其特征在于,所述模型纠错包括:基于预先训练好的纠错模型中,获取所述搜索文本的模型纠错结果。4.根据权利要求3所述的方法,其特征在于,所述纠错模型至少包括:编码模块、错误检测模块和错误纠正模块;基于预先训练好的纠错模型中,获取所述搜索文本的模型纠错结果,包括:通过所述编码模块对所述搜索文本进行编码得到所述搜索文本对应的向量矩阵;通过所述错误检测模块将所述向量矩阵映射到二维解空间得到所述搜索文本的错误检测结果;通过所述错误纠正模块对所述错误检测结果中存在错误的字符进行标记,并对标记的字符进行预测得到模型纠错结果。5.根据权利要求2所述的方法,其特征在于,所述规则纠错包括:对所述搜索文本进行预分词得到多个分词;按照预设顺序计算每个所述分词与候选词集中的词组之间的相似得分;其中,所述相似得分包括多个维度的得分;基于所述相似得分确定所述分词的替换词,并采用所述替换词替换所述搜索文本中对应的分词得到规则纠错结果。6.根据权利要求5所述的方法,其特征在于,基于所述相似得分确定所述分词的替换词,包括:基于所述相似得分确定所述候选词集中的词组与所述分词相似的维度个数,并基于所述维度个数对所述候选词集中的词组进行初次排序得到初始替换词;基于预先确定的所述初始替换词和所述候选词集中剩余词组的业务权重,以及所述分词与所述初始替换词的相似得分和所述分词与所述候选词集中剩余词组的相似得分的差值进行二次排序得到替换词。7.根据权利要求5所述的方法,其特征在于,基于预先确定的选择模型在所述搜索文本和所述纠错结果中确定目标搜索文本,包括:通过预先确定的选择模型对所述搜索文本和所述纠错结果进行编码得到编码结果;对所述编码结果进行三分类,并根据分类结果确定目标搜索文本。8.一种搜索纠错装置,其特征在于,包括:意图识别模块,用于获取用户输入的搜索文本,并对所述搜索文本进行意图识别确定意图类别;纠错模块,用于基于所述意图类别确定纠错方式,并基于所述纠错方式对所述搜索文
本进行处理得到纠错结果;其中,所述纠错方式至少包括:规则纠错和模型纠错;选择模块,用于基于预先确定的选择模型在所述搜索文本和所述纠错结果中确定目标搜索文本。9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求1至7任一项所述的方法的步骤。10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1至7任一项所述的方法的步骤。
技术总结
本发明提供了一种搜索纠错方法、装置、电子设备及介质,包括:获取用户输入的搜索文本,并对搜索文本进行意图识别确定意图类别;基于意图类别确定纠错方式,并基于纠错方式对搜索文本进行处理得到纠错结果;其中,纠错方式至少包括:规则纠错和模型纠错;基于预先确定的选择模型在搜索文本和纠错结果中确定目标搜索文本。本发明提高了纠错的准确率,提升用户的体验感。的体验感。的体验感。
技术研发人员:韩冬 马明珠 潘钰洲 宗寿金 吴闯 王之
受保护的技术使用者:苏州创旅天下信息技术有限公司
技术研发日:2023.07.07
技术公布日:2023/9/9
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
