一种地址搜索方法、装置、设备及计算机可读存储介质与流程

未命名 07-29 阅读:143 评论:0


1.本发明涉及数据处理技术领域,具体涉及一种地址搜索方法、装置、设备及计算机可读存储介质。


背景技术:

2.地址搜索广泛用于地图导航以及物流领域;在地图导航领域中,当导航请求以地址文本的方式输入导航系统时,导航系统通常可以根据接收到的导航请求提取地址名称,并利用提取出的地址名称确定多个目标地址,以供用户选择;与地图导航领域中确定多个目标地址供用户选择不同,在物流领域中通常需要根据请求的地址文本确定一个对应的目标地址,因而目标地址的准确度就极为重要;传统通过模糊搜索获取目标地址的方式,难以搜索得到准确度较高的目标地址。


技术实现要素:

3.本发明提供一种地址搜索方法、装置、设备及计算机可读存储介质,用以解决现有技术中难以搜索得到准确度较高的目标地址的技术问题。
4.为了解决上述技术问题,第一方面,本发明提供一种地址搜索方法,该地址搜索方法包括:
5.解析待搜索地址的行政四级文本和详细地址信息,并对所述行政四级文本和所述详细地址信息进行命名实体识别,得到命名实体信息;
6.根据所述行政四级文本、所述详细地址信息以及所述命名实体信息,召回若干中间地址;
7.根据各中间地址中所述命名实体信息的文本长度,分别计算各中间地址与所述待搜索地址的文本相似度,确定最终地址。
8.可选地,根据各中间地址中所述命名实体信息的文本长度,分别计算各中间地址与所述待搜索地址的文本相似度,确定最终地址,包括:
9.针对每一中间地址,根据包括当前中间地址中所述命名实体信息的文本长度、当前中间地址与所述待搜索地址的初始文本相似度以及当前中间地址去除行政三级文本后的文本长度的精排算法公式,计算当前中间地址与所述待搜索地址的文本相似度;
10.将所述文本相似度最高的中间地址作为最终地址。
11.可选地,所述精排算法公式为
12.其中,f为当前中间地址与所述待搜索地址的文本相似度,s为所述初始文本相似度,ci为当前中间地址中所述命名实体信息的第i个实体的文本长度,o为当前中间地址去除行政三级文本后的文本长度,wi为当前中间地址中所述命名实体信息的第i个实体的权重。
13.可选地,根据所述行政四级文本、所述详细地址信息以及所述命名实体信息,召回
若干中间地址,包括:
14.根据所述行政四级文本确定地址搜索范围;
15.在所述地址搜索范围内,搜索与所述详细地址信息相似度最高的多条初始地址;
16.根据所述命名实体信息,对各初始地址进行加权打分,召回分数最高的若干条所述初始地址作为中间地址。
17.可选地,根据所述行政四级文本确定地址搜索范围,包括:
18.根据所述行政四级文本中的第二级行政文本,确定地址搜索源;
19.将所述地址搜索源作为地址搜索范围。
20.可选地,根据所述行政四级文本确定地址搜索范围之后,还包括:
21.根据所述行政四级文本中的第三级行政文本,缩小所述地址搜索范围。
22.可选地,对所述行政四级文本和所述详细地址信息进行命名实体识别,得到命名实体信息,包括:
23.对所述行政四级文本进行命名实体识别,获取第四级行政文本,作为第一实体;
24.根据预设实体类型,对所述详细地址信息进行命名实体识别,得到若干第二实体;
25.将所述第一实体和所述第二实体作为命名实体信息。
26.第二方面,本发明提供一种地址搜索装置,包括实体信息获取模块、第一地址获取模块以及第二地址获取模块;
27.所述实体信息获取模块,用于解析待搜索地址的行政四级文本和详细地址信息,并对所述行政四级文本和所述详细地址信息进行命名实体识别,得到命名实体信息;
28.所述第一地址获取模块,用于根据所述行政四级文本、所述详细地址信息以及所述命名实体信息,召回若干中间地址;
29.所述第二地址获取模块,用于根据各中间地址中所述命名实体信息的文本长度,分别计算各中间地址与所述待搜索地址的文本相似度,确定最终地址。
30.第三方面,本发明提供一种地址搜索设备,包括存储器和处理器,其中:
31.所述存储器用于存储计算机程序;
32.所述处理器用于读取所述存储器中的程序并执行如上述第一方面提供的地址搜索方法的步骤。
33.第四方面,本发明提供一种计算机可读存储介质,其上存储有可读的计算机程序,该程序被处理器执行时实现如上述第一方面提供的地址搜索方法的步骤。
34.与现有技术相比,本发明提供的一种地址搜索方法、装置、设备及计算机可读存储介质,具有以下有益效果:
35.可以满足搜索得到准确度较高的目标地址的需求,提高了地址搜索的准确度;通过解析待搜索地址的行政四级文本和详细地址信息,并对所述行政四级文本和所述详细地址信息进行命名实体识别,得到命名实体信息;可以提高待搜索地址的命名实体识别的准确度和效率,以提高后续地址搜索的准确度和效率;根据所述行政四级文本、所述详细地址信息以及所述命名实体信息,召回若干中间地址;使行政四级文本和命名实体信息参与到召回中,以提高召回中间地址的准确度;根据各中间地址中所述命名实体信息的文本长度,分别计算各中间地址与所述待搜索地址的文本相似度,确定最终地址;通过使中间地址中命名实体信息的文本长度参与到文本相似度的计算,提高了文本相似度计算的准确度,进
一步提高了地址搜索的准确度。
附图说明
36.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一部分实施例,而不是全部的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,根据这些附图获得的其他的附图,都属于本技术保护的范围。
37.图1是本发明实施例提供的一种地址搜索方法的流程图;
38.图2是本发明实施例提供的一种地址搜索装置的结构示意图;
39.图3是本发明实施例提供的一种地址搜索设备的结构示意图;
40.图4是本发明实施例提供的计算机可读存储介质的结构示意图。
具体实施方式
41.为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
42.为了使本揭示内容的叙述更加详尽与完备,下文针对本发明的实施方式与具体实施例提出了说明性的描述;但这并非实施或运用本发明具体实施例的唯一形式。实施方式中涵盖了多个具体实施例的特征以及用以建构与操作这些具体实施例的方法步骤与其顺序。然而,亦可利用其它具体实施例来达成相同或均等的功能与步骤顺序。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
43.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
44.在本技术实施例的描述中,“多个”是指两个或多于两个,其它量词与之类似应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明,并且在不冲突的情况下,本技术的实施例及实施例中的特征可以相互组合。
45.实施例1
46.如图1所示,为本发明实施例提供的一种地址搜索方法的流程图,该地址搜索方法包括以下步骤:
47.步骤s101,解析待搜索地址的行政四级文本和详细地址信息,并对所述行政四级文本和所述详细地址信息进行命名实体识别,得到命名实体信息;
48.本发明实施例对上述待搜索地址解析逻辑的具体实施方式并不进行限定,任意可以解析到行政四级文本和详细地址信息的实施方式都可以应用到本发明实施例中。
49.上述待搜索地址可以为用户请求地址,可以通过ac自动机解析待搜索地址的行政四级文本和详细地址信息。此外,还可以解析出行政编码。其中,ac自动机为一种多模匹配算法;上述行政四级文本包括符合国家标准的行政区划,行政编码可以为行政区划代码。
50.作为一种可选的实施方式,对所述行政四级文本和所述详细地址信息进行命名实体识别,得到命名实体信息,包括:
51.对所述行政四级文本进行命名实体识别,获取第四级行政文本,作为第一实体;
52.根据预设实体类型,对所述详细地址信息进行命名实体识别,得到若干第二实体;
53.将所述第一实体和所述第二实体作为命名实体信息。
54.需要说明的是,命名实体信息可以包括第一实体和第二实体,其中,第一实体可以是第四级行政文本,即镇或街道,第二实体即为详细地址信息中的内容。
55.其中,可以利用由行政四级文本和详细地址信息形成的训练数据,对electra(efficiently learning an encoderthat classifies token replacements accurately)-small结合crf(conditional random field,条件随机场)形成的命名实体识别模型进行训练,得到训练后的命名实体识别模型,利用训练后的命名实体识别模型对所述行政四级文本和所述详细地址信息进行命名实体识别,得到命名实体信息。
56.在利用训练数据对命名实体识别模型进行训练时,可以利用bieos标签对所述行政四级文本和所述详细地址信息进行字级别标注。
57.需要说明的是,electra-small结合crf有较好特征提取性能以及较高的命名实体识别的准确度,其单条行政四级文本和详细地址信息的标注耗时较短。
58.一些实施例中,待搜索地址为,广东省深圳市宝安区客家村3组西乡大道和新湖路交汇处魅力时代花园a栋三单元宝安天虹购物中心,解析待搜索地址的行政四级文本和详细地址信息,解析得到的行政四级为:"province":"广东省","city":"深圳市","area":"宝安区","town":null,对应的行政四级文本为“广东省深圳市宝安区”,去除行政四级后的详细地址信息为,客家村3组西乡大道和新湖路交汇处魅力时代花园a栋三单元宝安天虹购物中心;对所述行政四级文本和所述详细地址信息进行命名实体识别,得到命名实体信息为,"village":"客家村","village_group":"3组","road":"西乡大道","0":"和","road":"新湖路","0":"交汇处","poi":"魅力时代花园","house_no":"a栋","cell_no":"三单元","sub_poi":"宝安天虹购物中心";其中,village表示社区或者村庄,village_group表示组或队,dev_zone表示园区,road表示道路,road_no表示路号,poi表示兴趣点,sub_poi表示子兴趣点,house_no表示楼栋号,cell_no表示单元号,0表示无效实体,可以将其过滤掉。
59.步骤s102,根据所述行政四级文本、所述详细地址信息以及所述命名实体信息,召回若干中间地址;
60.一些实施例中,利用elacstic search召回若干中间地址,elacstic search中确定中间地址的算法可以为bm25算法,而该算法没有语义概念,会对所有文本信息进行计算,当地址中存在无效信息较长时,易召回错误的地址,其中,无效信息可以为手机号、人名、发件说明等和地址无关的文本;为了避免elacstic search召回错误的地址,可以使行政四级文本和命名实体信息参与到elacstic search的召回中,以提高召回中间地址的准确度。
61.作为一种可选的实施方式,根据所述行政四级文本、所述详细地址信息以及所述命名实体信息,召回若干中间地址,包括:
62.根据所述行政四级文本确定地址搜索范围;
63.在所述地址搜索范围内,搜索与所述详细地址信息相似度最高的多条初始地址;
64.根据所述命名实体信息,对各初始地址进行加权打分,召回分数最高的若干条所述初始地址作为中间地址。
65.一些实施例中,可以根据所述行政四级文本确定地址搜索范围,例如,待搜索地址为广东省深圳市龙岗区平湖山厦科园裕隆昌工业园2号厂房,行政四级文本为广东省深圳市龙岗区,可通过行政四级文本“广东省深圳市龙岗区”确定地址搜索范围。
66.作为一种可选的实施方式,根据所述行政四级文本确定地址搜索范围,包括:
67.根据所述行政四级文本中的第二级行政文本,确定地址搜索源;
68.将所述地址搜索源作为地址搜索范围。
69.一些实施例中,根据所述行政四级文本中的第二级行政文本,确定地址搜索源,例如,通过第二级行政文本“深圳市”确定对应的数据源或者地址数据库,即地址搜索源。
70.本发明实施例以地址搜索源作为地址搜索范围,可以减少地址搜索的范围,提高地址搜索的效率。
71.作为一种可选的实施方式,根据所述行政四级文本确定地址搜索范围之后,还包括:
72.根据所述行政四级文本中的第三级行政文本,缩小所述地址搜索范围。
73.一些实施例中,根据所述行政四级文本确定地址搜索范围后,即根据所述行政四级文本中的第二级行政文本,确定地址搜索源,将所述地址搜索源作为地址搜索范围后,容易造成地址搜索跨区,因此,根据所述行政四级文本中的第三级行政文本,缩小所述地址搜索范围,可以进一步地提高地址搜索的效率。
74.可根据命名实体信息对各初始地址进行加权打分。
75.具体的,若初始地址中包括第四级行政文本,即镇,则该实体对应权值分值为1;若初始地址中包括第四级行政文本和村,则该实体对应的权重分值为1;若初始地址中包括路和路号,则该实体对应的权重分值为1;若初始地址中包括兴趣点,则该实体对应的权重分值为0.7。
76.在所述地址搜索范围内,搜索与所述详细地址信息相似度最高的多条初始地址,对各初始地址进行加权打分后,对所有初始地址按照分数从大到小排列,召回分数最高的若干条所述初始地址作为中间地址。
77.步骤s103,根据各中间地址中所述命名实体信息的文本长度,分别计算各中间地址与所述待搜索地址的文本相似度,确定最终地址。
78.根据所述行政四级文本、所述详细地址信息以及所述命名实体信息,召回若干中间地址后,需要根据各中间地址中所述命名实体信息的文本长度,分别计算各中间地址与所述待搜索地址的文本相似度,以确定与待搜索地址最为相似的地址,作为最终地址返回,进一步提高了地址搜索的准确度。
79.作为一种可选的实施方式,根据各中间地址中所述命名实体信息的文本长度,分别计算各中间地址与所述待搜索地址的文本相似度,确定最终地址,包括:
80.针对每一中间地址,根据包括当前中间地址中所述命名实体信息的文本长度、当前中间地址与所述待搜索地址的初始文本相似度以及当前中间地址去除行政三级文本后的文本长度的精排算法公式,计算当前中间地址与所述待搜索地址的文本相似度;
81.将所述文本相似度最高的中间地址作为最终地址。
82.一些实施例中,通过包括当前中间地址中命名实体信息的文本长度、当前中间地址与待搜索地址的初始文本相似度以及当前中间地址去除行政三级文本后的文本长度的精排算法公式,可以对若干中间地址分别进行打分,以得到每个中间地址对应的分数,进而从若干中间地址中获取与待搜索地址的文本最为相似的地址。
83.作为一种可选的实施方式,所述精排算法公式为
84.其中,f为当前中间地址与所述待搜索地址的文本相似度,s为所述初始文本相似度,ci为当前中间地址中所述命名实体信息的第i个实体的文本长度,o为当前中间地址去除行政三级文本后的文本长度,wi为当前中间地址中所述命名实体信息的第i个实体的权重。
85.一些实施例中,当前中间地址与待搜索地址的初始文本相似度s可以通过余弦相似度算法、tf-idf算法或bm25算法计算得到。
86.所述第i个实体可以为待搜索地址与中间地址均包含的实体,例如,待搜索地址为,河北省石家庄市裕华区长江街道天山大街266号方大科技园底商八马茶业,待搜索地址对应的实体包括天山大街、266号、方大科技园、底商八马茶业,一个中间地址为,河北省石家庄市裕华区天山大街266号方大科技园,该中间地址对应的实体包括天山大街、266号、方大科技园,则待搜索地址与中间地址均包含的实体,包括天山大街、266号、方大科技园。
87.一个具体实施例中,若待搜索地址为,河北省石家庄市裕华区长江街道天山大街266号方大科技园底商八马茶业,待搜索地址对应的实体包括天山大街、266号、方大科技园、底商八马茶业,对应的一个中间地址为,河北省石家庄市裕华区天山大街266号方大科技园,该中间地址对应的命名实体信息为天山大街266号方大科技园,该中间地址对应的行政四级文本为河北省石家庄市裕华区,该中间地址去除行政三级文本后的文本包括天山大街266号方大科技园,对应的中间地址去除行政三级文本后的文本长度为13,该中间地址对应的实体包括天山大街、266号、方大科技园。
88.上述实体以及对应的权重可以根据具体实施情况进行具体设置,本发明实施例对此不进行限定。
89.在一些实施例中,路和路号可以作为一个实体,例如,天山大街266号可以作为一个实体;镇和村可以作为一个实体。
90.若第i个实体中包括路和路号,则对应的权值可以为3;若第i个实体中仅包括路,则对应的权值可以为0.5;若第i个实体中包括镇和村,则对应的权值可以为1.5;若第i个实体中仅包括镇,则对应的权值可以为1;若第i个实体中仅包括村,则对应的权值可以为1.5;若第i个实体中包括兴趣点是对应中间地址的首个兴趣点,则对应的权值可以为1.5,若第i个实体中包括兴趣点不是对应中间地址的首个兴趣点,则对应的权值可以为0.5;若第i个实体中仅包括园区,则对应的权值可以为1。
91.若第i个实体中仅包括路号,则对应的权值可以为-0.6;若第i个实体中仅包括楼栋号,则对应的权值可以为-0.6;若第i个实体中仅包括单元号,则对应的权值可以为-0.6。
92.可以计算该中间地址与待搜索地址的初始文本相似度s为0.803*100,即80.3,该中间地址中命名实体信息的第1个实体,即为天山大街266号,其文本长度为8,其权值为3;第2个实体即为方大科技园,其文本长度为5,其权值为1;将上述数值对应代入至精排算法
公式中,则该中间地址与所述待搜索地址的文本相似度f=[80.3*(8/13)*3]+[80.3*(5/13))]+80.3≈259.430769。
[0093]
本发明实施例提供了一种地址搜索方法,通过解析待搜索地址的行政四级文本和详细地址信息,并对所述行政四级文本和所述详细地址信息进行命名实体识别,得到命名实体信息;可以提高待搜索地址的命名实体识别的准确度和效率,以提高后续地址搜索的准确度和效率;根据所述行政四级文本、所述详细地址信息以及所述命名实体信息,召回若干中间地址;使行政四级文本和命名实体信息参与到召回中,以提高召回中间地址的准确度;根据各中间地址中所述命名实体信息的文本长度,分别计算各中间地址与所述待搜索地址的文本相似度,确定最终地址;通过使中间地址中命名实体信息的文本长度参与到文本相似度的计算,提高了文本相似度计算的准确度,进一步提高了地址搜索的准确度。
[0094]
实施例2
[0095]
基于上述地址搜索方法,本发明实施例提供一种地址搜索装置,其结构示意图如图2所示,该地址搜索装置20包括实体信息获取模块21、第一地址获取模块22以及第二地址获取模块23;
[0096]
所述实体信息获取模块21,用于解析待搜索地址的行政四级文本和详细地址信息,并对所述行政四级文本和所述详细地址信息进行命名实体识别,得到命名实体信息;
[0097]
所述第一地址获取模块22,用于根据所述行政四级文本、所述详细地址信息以及所述命名实体信息,召回若干中间地址;
[0098]
所述第二地址获取模块23,用于根据各中间地址中所述命名实体信息的文本长度,分别计算各中间地址与所述待搜索地址的文本相似度,确定最终地址。
[0099]
关于上述地址搜索装置中各模块实现上述技术方案的其他细节,可参见上述发明实施例中提供的地址搜索方法中的描述,此处不再赘述。
[0100]
实施例3
[0101]
基于上述地址搜索方法,本发明实施例还提供了一种地址搜索设备,其结构示意图如图3所示,该地址搜索设备30包括处理器31和与该处理器31耦合的存储器32。存储器32存储有计算机程序,计算机程序被处理器31执行时,使得处理器31执行上述实施例中的地址搜索方法的步骤。
[0102]
关于上述地址搜索设备中处理器31实现上述技术方案的其他细节,可参见上述发明实施例中提供的地址搜索方法中的描述,此处不再赘述。
[0103]
其中,处理器31还可以称为cpu(central processing unit,中央处理单元),处理器31可能是一种集成电路芯片,具有信号的处理能力;处理器31还可以是通用处理器、dsp(digital signal process,数字信号处理器)、asic(application specific integrated circuit,专用集成电路)、fpga(fieldprogrammable gataarray,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,其中通用处理器可以是微处理器或者该处理器31也可以是任何常规的处理器等。
[0104]
实施例4
[0105]
本发明实施例还提供了一种计算机可读存储介质,其结构示意图如图4所示,该存储介质40上存储有可读的计算机程序41;其中,该计算机程序41可以以软件产品的形式存
储在上述存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、磁碟或者光盘、rom(read-only memory,只读存储器)、ram(randomaccess memory,随机存取存储器)等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
[0106]
在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0107]
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0108]
另外,在本技术各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
[0109]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
[0110]
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘(solid state disk,ssd))等。
[0111]
以上对本技术所提供的技术方案进行了详细介绍,本技术中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的一般技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本技术的限制。
[0112]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机
可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0113]
本技术是参照根据本技术的方法、设备和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0114]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0115]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0116]
显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。

技术特征:
1.一种地址搜索方法,其特征在于,包括:解析待搜索地址的行政四级文本和详细地址信息,并对所述行政四级文本和所述详细地址信息进行命名实体识别,得到命名实体信息;根据所述行政四级文本、所述详细地址信息以及所述命名实体信息,召回若干中间地址;根据各中间地址中所述命名实体信息的文本长度,分别计算各中间地址与所述待搜索地址的文本相似度,确定最终地址。2.根据权利要求1所述的地址搜索方法,其特征在于,根据各中间地址中所述命名实体信息的文本长度,分别计算各中间地址与所述待搜索地址的文本相似度,确定最终地址,包括:针对每一中间地址,根据包括当前中间地址中所述命名实体信息的文本长度、当前中间地址与所述待搜索地址的初始文本相似度以及当前中间地址去除行政三级文本后的文本长度的精排算法公式,计算当前中间地址与所述待搜索地址的文本相似度;将所述文本相似度最高的中间地址作为最终地址。3.根据权利要求2所述的地址搜索方法,其特征在于,所述精排算法公式为其中,f为当前中间地址与所述待搜索地址的文本相似度,s为所述初始文本相似度,c
i
为当前中间地址中所述命名实体信息的第i个实体的文本长度,o为当前中间地址去除行政三级文本后的文本长度,w
i
为当前中间地址中所述命名实体信息的第i个实体的权重。4.根据权利要求1所述的地址搜索方法,其特征在于,根据所述行政四级文本、所述详细地址信息以及所述命名实体信息,召回若干中间地址,包括:根据所述行政四级文本确定地址搜索范围;在所述地址搜索范围内,搜索与所述详细地址信息相似度最高的多条初始地址;根据所述命名实体信息,对各初始地址进行加权打分,召回分数最高的若干条所述初始地址作为中间地址。5.根据权利要求4所述的地址搜索方法,其特征在于,根据所述行政四级文本确定地址搜索范围,包括:根据所述行政四级文本中的第二级行政文本,确定地址搜索源;将所述地址搜索源作为地址搜索范围。6.根据权利要求4所述的地址搜索方法,其特征在于,根据所述行政四级文本确定地址搜索范围之后,还包括:根据所述行政四级文本中的第三级行政文本,缩小所述地址搜索范围。7.根据权利要求1所述的地址搜索方法,其特征在于,对所述行政四级文本和所述详细地址信息进行命名实体识别,得到命名实体信息,包括:对所述行政四级文本进行命名实体识别,获取第四级行政文本,作为第一实体;根据预设实体类型,对所述详细地址信息进行命名实体识别,得到若干第二实体;将所述第一实体和所述第二实体作为命名实体信息。8.一种地址搜索装置,其特征在于,包括实体信息获取模块、第一地址获取模块以及第
二地址获取模块;所述实体信息获取模块,用于解析待搜索地址的行政四级文本和详细地址信息,并对所述行政四级文本和所述详细地址信息进行命名实体识别,得到命名实体信息;所述第一地址获取模块,用于根据所述行政四级文本、所述详细地址信息以及所述命名实体信息,召回若干中间地址;所述第二地址获取模块,用于根据各中间地址中所述命名实体信息的文本长度,分别计算各中间地址与所述待搜索地址的文本相似度,确定最终地址。9.一种地址搜索设备,其特征在于,包括存储器和处理器,其中:所述存储器用于存储计算机程序;所述处理器用于读取所述存储器中的计算机程序,并执行如权利要求1~7所述的任一地址搜索方法的步骤。10.一种计算机可读存储介质,其特征在于,其上存储有可读的计算机程序,该程序被处理器执行时实现如权利要求1~7所述的任一地址搜索方法的步骤。

技术总结
本发明公开了一种地址搜索方法、装置、设备及计算机可读存储介质,所述地址搜索方法包括:解析待搜索地址的行政四级文本和详细地址信息,并对所述行政四级文本和所述详细地址信息进行命名实体识别,得到命名实体信息;根据所述行政四级文本、所述详细地址信息以及所述命名实体信息,召回若干中间地址;根据各中间地址中所述命名实体信息的文本长度,分别计算各中间地址与所述待搜索地址的文本相似度,确定最终地址。利用本发明公开的地址搜索方法,可以提高地址搜索的准确度。可以提高地址搜索的准确度。可以提高地址搜索的准确度。


技术研发人员:马金旭 李文龙 朱营军
受保护的技术使用者:深圳市跨越新科技有限公司
技术研发日:2023.03.29
技术公布日:2023/7/28
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐