一种信息处理方法和装置与流程
未命名
07-13
阅读:94
评论:0
1.本技术属于自然语言处理技术领域,尤其涉及一种信息处理方法和装置。
背景技术:
2.相似文档搜索在自然语言文本分类中有着举足轻重的作用,然而,目前的相似文档搜索解决方案,在搜索相似文档时计算量高,识别准确度低且效率低,除此之外,存储空间的利用效率也较低,造成了严重的资源浪费。如何解决其中的至少部分问题成为本领域技术难点。
技术实现要素:
3.为此,本技术公开如下技术方案:
4.一种信息处理方法,包括:
5.获取待处理的第一文本对象;
6.对所述第一文本对象进行分割处理,得到至少一个第一子文本对象;
7.从文本对象集包括的各个子文本对象中确定是否存在与所述第一子文本对象满足相似条件的第二子文本对象,得到确定结果;其中,所述文本对象集包括由至少一个子文本对象组成的至少一个文本对象;所述子文本对象包括全局共享子文本,每个全局共享子文本表征满足相似条件的一组子文本对象;所述一组子文本对象中,至少一个子文本对象在所属文本对象中表示为对应的文本内容以作为所述全局共享子文本,其他子文本对象在所属文本对象中表示为用于索引至所对应全局共享子文本的索引信息;
8.根据所述确定结果,对所述第一文本对象进行信息处理。
9.可选的,所述文本对象集中的子文本对象还包括非共享子文本,所述非共享子文本表征所述文本对象集未包含与之满足相似条件的独立子文本对象;所述从文本对象集包括的各个子文本对象中确定是否存在与所述第一子文本对象满足相似条件的第二子文本对象,包括:
10.确定所述文本对象集包括的各个全局共享子文本和非共享子文本中是否存在与所述第一子文本对象满足相似条件的第二子文本对象。
11.可选的,所述根据所述确定结果,对所述第一文本对象进行信息处理,包括:
12.将所述第一文本对象包含的所述至少一个第一子文本对象对应存储至所述文本对象集;
13.其中,对于每一第一子文本对象,如果所述文本对象集的全局共享子文本中存在与所述第一子文本对象满足相似条件的第二子文本对象,将所述第一子文本对象存储为所述全局共享子文本中所述第二子文本对象的索引信息;如果所述文本对象集的非共享子文本中存在与所述第一子文本对象满足相似条件的第二子文本对象,将所述第一子文本对象存储为所述非共享子文本中所述第二子文本对象的索引信息,并调整所述非共享子文本中所述第二子文本对象为全局共享子文本;如果所述文本对象集中不存在与所述第一子文本
对象满足相似条件的第二子文本对象,将所述第一子文本对象存储为相应的子文本内容。
14.可选的,所述根据所述确定结果,对所述第一文本对象进行信息处理,包括:
15.在存在与所述第一子文本对象满足相似条件的第二子文本对象情况下,确定各个所述第二子文本对象分别对应的文本对象中,是否存在对应的第二子文本对象总数据量满足数据量条件的目标文本对象;
16.若存在,将所述目标文本对象作为所述第一文本对象的相似文本对象。
17.可选的,所述确定所述文本对象集包括的各个全局共享子文本和非共享子文本中是否存在与所述第一子文本对象满足相似条件的第二子文本对象,包括:
18.利用预先构建的文本理解模型,从所述文本对象集包括的各个全局共享子文本和非共享子文本中确定与所述第一子文本对象满足第一子相似条件的子文本,作为所述第一子文本对象的候选相似子文本对象;
19.若所述第一子文本对象的候选相似子文本对象非空,利用预先构建的相似度模型,确定所述第一子文本对象和所述候选相似子文本对象的相似度值,在所述相似度值满足第二子相似条件情况下,确定所述候选相似子文本对象为与所述第一子文本对象满足所述相似条件的第二子文本对象。
20.可选的,所述利用预先构建的相似度模型,确定所述第一子文本对象和所述候选相似子文本对象的相似度值,包括:
21.对所述第一子文本对象进行向量化,得到第一向量;
22.从向量集中获取所述候选相似子文本对象对应的向量,得到第二向量;所述向量集包括所述文本对象集中各个全局共享子文本和非共享子文本分别对应的向量;
23.利用所述相似度模型,根据所述第一向量和所述第二向量,确定所述第一子文本对象和所述候选相似子文本对象的相似度值。
24.可选的,所述文本理解模型的构建过程,包括:
25.将第一文本对象样本和第二文本对象样本输入待训练模型,得到所述待训练模型输出的所述第一文本对象样本和所述第二文本对象样本中的相似子文本对象样本;
26.将所述第一文本对象样本和所述第二文本对象样本中的相似子文本对象样本互换,得到所述第一文本对象样本对应的第一替换样本和所述第二文本对象样本对应的第二替换样本;将所述第一文本对象样本和所述第二文本对象样本中的相似子文本对象样本剔除,得到所述第一文本对象样本对应的第一剔除样本和所述第二文本对象样本对应的第二剔除样本;
27.确定所述相似度模型对第一样本对和/或第二样本对的相似度确定结果的第一子损失函数值,及对第三样本对的相似度确定结果的第二子损失函数值;所述第一样本对包括所述第一文本对象样本和所述第一替换样本,所述第二样本对包括所述第二文本对象样本和所述第二替换样本,所述第三样本对包括所述第一剔除样本和所述第二剔除样本;
28.根据所述第一子损失函数值和所述第二子损失函数值,调整所述待训练模型的模型参数,直至满足结束条件得到所述文本理解模型。
29.可选的,所述根据所述确定结果,对所述第一文本对象进行信息处理,还包括:
30.如果所述第一子文本对象在所述文本对象集中存储为相应的子文本内容,将所述第一子文本对象对应的第一向量存储至向量集;
31.其中,所述向量集包括所述文本对象集中各个全局共享子文本和非共享子文本分别对应的向量。
32.可选的,所述获取待处理的第一文本对象,包括:
33.获取待处理的满足长文本条件的第一长文本对象;
34.所述对所述第一文本对象进行分割处理,得到至少一个第一子文本对象,包括:
35.对所述第一长文本对象进行文本块分割处理,得到满足文本块条件的至少一个第一文本块。
36.一种信息处理装置,包括:
37.获取单元,用于获取待处理的第一文本对象;
38.分割单元,用于对所述第一文本对象进行分割处理,得到至少一个第一子文本对象;
39.确定单元,用于从文本对象集包括的各个子文本对象中确定是否存在与所述第一子文本对象满足相似条件的第二子文本对象,得到确定结果;其中,所述文本对象集包括由至少一个子文本对象组成的至少一个文本对象;所述子文本对象包括全局共享子文本,每个全局共享子文本表征满足相似条件的一组子文本对象;所述一组子文本对象中,至少一个子文本对象在所属文本对象中表示为对应的文本内容以作为所述全局共享子文本,其他子文本对象在所属文本对象中表示为用于索引至所对应全局共享子文本的索引信息;
40.处理单元,用于根据所述确定结果,对所述第一文本对象进行信息处理。
41.由以上方案可知,本技术公开一种信息处理方法和装置,该信息处理方法包括:获取待处理的第一文本对象对其进行分割处理,得到至少一个第一子文本对象;从文本对象集包括的各个子文本对象中确定是否存在与第一子文本对象满足相似条件的第二子文本对象,得到确定结果;文本对象集包括由至少一个子文本对象组成的至少一个文本对象;子文本对象包括全局共享子文本,每个全局共享子文本表征满足相似条件的一组子文本对象;所述一组子文本对象中,至少一个子文本对象在所属文本对象中表示为对应的文本内容以作为所述全局共享子文本,其他子文本对象在所属文本对象中表示为用于索引至所述一个全局共享子文本的索引信息;根据所述确定结果,对第一文本对象进行信息处理。
附图说明
42.为了更清楚地说明本技术实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
43.图1是本技术提供的信息处理方法的一种流程示意图;
44.图2是本技术提供的文本对象集的一个示例;
45.图3是本技术提供的文本理解模型的构建过程示意图;
46.图4是本技术提供的文本理解模型的模型训练过程的一示例性处理逻辑;
47.图5是本技术提供的确定与第一子文本对象满足相似条件的第二子文本对象的过程示意图;
48.图6是本技术提供的对待处理长文本进行处理的一示例性处理过程;
49.图7是本技术提供的信息处理方法的另一种流程示意图;
50.图8是本技术提供的对文本对象集和向量集进行更新的一个示例;
51.图9是本技术提供的信息处理装置的组成结构图;
52.图10是本技术提供的电子设备的组成结构图。
具体实施方式
53.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
54.本技术公开一种信息处理方法和电子设备,所公开的信息处理方法可用于众多通用或专用的计算装置环境或配置下的电子设备,例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置等等。
55.参见图1,提供了本技术所公开信息处理方法的一流程示意图,该信息处理方法至少包括:
56.步骤101、获取待处理的第一文本对象。
57.待处理的第一文本对象,可以是但不限于满足长文本条件的长文本对象,如各种文献、文档等。可选的,长文本条件可以设定为,文本对象所包含文本内容的数据量达到设定的第一数据量阈值。
58.步骤102、对第一文本对象进行分割处理,得到至少一个第一子文本对象。
59.在获得待处理的第一文本对象,如获得满足长文本条件的长文本对象后,对其进行分割处理,得到至少一个第一子文本对象。
60.可选的,该分割处理具体可以是文本块分割处理,即,将第一文本对象分割成文本块,得到至少一个第一文本块。
61.优选的,第一文本块为满足文本块条件的文本块,该文本块条件用于约束分割得到的文本块的文本内容数据量达到设定的第二数据量阈值,以尽可能使所得的文本块能够包含句间的短距离上下文语义信息。
62.步骤103、从文本对象集包括的各个子文本对象中确定是否存在与所述第一子文本对象满足相似条件的第二子文本对象,得到确定结果。
63.其中,文本对象集包括由至少一个子文本对象组成的至少一个文本对象;子文本对象包括全局共享子文本,每个全局共享子文本表征满足相似条件的一组子文本对象;所述一组子文本对象中,至少一个子文本对象在所属文本对象中表示为对应的文本内容以作为所述全局共享子文本,其他子文本对象在所属文本对象中表示为用于索引至所对应全局共享子文本的索引信息。
64.可选的,文本对象集中的子文本对象还包括非共享子文本,所述非共享子文本表征文本对象集未包含与之满足相似条件的独立子文本对象。
65.也就是说,本技术实施例预先构建有文本对象集,以用于为第一文本对象的处理(如相似文档搜索)过程提供所需的数据支撑。文本对象集包括至少一个文本对象,每个文本对象由至少一个子文本对象组成。可选的,子文本对象具体采用文本块形式,各个文本块
按其在文本对象中的位置串联成对应的文本对象。
66.传统方式下,在构建文本对象集时,直接将每个文本对象所包含子文本对象的文本内容,加入文本对象集。与传统方式相区别,本技术在构建文本对象集时,对于每个待入库至文本对象集的文本对象,首先针对其包含的每个子文本对象,判定文本对象集中是否存在与该子文本对象满足相似条件的相似子文本对象,若存在,将该子文本对象在文本对象集中表示为用于索引至该相似子文本对象的索引信息,若不存在,则将该子文本对象在文本对象集中表示为该子文本对象的文本内容。
67.基于上述处理方式,使得能够在文本对象集中,将各个文本对象之间满足相似条件的每组子文本对象,存储为“至少一个子文本对象的文本内容+若干索引信息”的形式,其中,所述的至少一个子文本对象的文本内容,用于作为该组子文本对象的全局共享子文本,能够被组内的各个子文本对象共享使用,而所述索引信息则用于索引至对应的全局共享子文本。优选的,满足相似条件的每组子文本对象在文本对象集中对应一个全局共享子文本,该全局共享子文本具体可以为所对应组中第一个加入文本对象集的子文本对象所对应的文本内容。
68.参见图2,提供了本技术中文本对象集的一个示例,其中包括3个长文本(即文本对象):长文本1、长文本2和长文本3,每个长文本由三个短文本(即子文本对象)组成,其中,在将长文本1入库至文本对象集时,文本对象集中未包括与其各个短文本满足相似条件的短文本,直接在文本对象集中将长文本1包含的各个短文本表示为各自的文本内容,即图中的短文本1、2、3,在将长文本2入库至文本对象集时,长文本2中的第二个短文本与长文本1中的短文本2满足相似条件,相应在文本对象集中将长文本2的第二个短文本表示为用于索引至短文本2的索引信息,即图中的“索引2”,此时短文本2成为一个全局共享文本,并可对其进行相应的属性标记(以表示其为全局共享子文本),而由于文本对象集内不存在与长文本2的其它短文本满足相似条件的短文本,相应在文本对象集中将长文本2的其他短文本表示为各自的文本内容,如图中的短文本4、5。长文本3向文本对象集的入库原理同理,不再详述。
69.通过上述处理,使得所构建文本对象集中的子文本对象,在文本对象集中表示为全局共享子文本、非共享子文本或用于索引至相应全局共享子文本的索引信息。
70.在通过对第一文本对象进行分割处理,得到至少一个第一子文本对象后,可将第一子文本对象与文本对象集中的全局共享子文本和非共享子文本进行比对,确定文本对象集包括的各个全局共享子文本和非共享子文本中,是否存在与第一子文本对象满足相似条件的第二子文本对象。
71.上述的相似条件,可以但不限于设定为,两个待比对子对象之间的距离小于设定的距离阈值,或两个待比对子对象之间的相似度达到相似度阈值。所述距离可以但不限于为欧式距离、余弦距离。
72.步骤104、根据所述确定结果,对所述第一文本对象进行信息处理。
73.对第一文本对象执行的信息处理,可视具体的应用场景而定。所述的应用场景可以包括但不限于相似文本对象检索场景、文本对象分类场景。
74.示例性的,针对相似文本对象检索场景,在所述确定结果表征文本对象集中存在与第一子文本对象满足相似条件的第二子文本对象情况下,可进一步确定各个第二子文本
对象分别对应的文本对象中,是否存在对应的第二子文本对象总数据量满足数据量条件的目标文本对象,若存在,将目标文本对象作为第一文本对象的相似文本对象,并可将相似文本对象返回给用户,以供用户查看或使用。而对于所述确定结果表征文本对象集中不存在与第一子文本对象满足相似条件的第二子文本对象的情况,或不存在上述目标文本对象的情况,则相应不存在第一文本对象的相似文本对象。
75.所述数据量条件,可以但不限于设定为,对应的第二子文本对象总数据量达到第三数据量阈值,或者,对应的第二子文本对象总数量达到设定数量。
76.其中,第二子文本对象对应的文本对象,包括第二子文本对象所属的文本对象,及表示为用于索引至第二子文本对象的索引信息的子文本对象所属的文本对象。
77.针对文本对象分类场景,在确定出上述目标文本对象的基础上,可进一步将目标文本对象所属的分类类别作为第一文本对象的分类类别,并执行对应的处理,如将第一文本对象的分类类别反馈至客户端,或将第一文本对象归类存储至所对应的类别目录下等等。
78.本实施例的信息处理方法,通过构建包括全局共享子文本、非共享子文本和/或索引信息的文本对象集,并以构建的文本对象集为数据基础,确定是否存在与第一文本对象的第一子文本对象满足相似条件的第二子文本对象,进而根据确定结果,对第一文本对象进行信息处理,可省去对文本对象集中表示为检索信息的子文本对象的相似性检测处理,有效降低了处理工作量,提升了处理效率。同时,由于基于索引方式避免了将各文本对象的全部文本内容加入至文本对象集(索引信息的数据量通常小于或远小于文本块内容的数据量),从而降低了文本对象集的存储空间占用需求,提升了存储空间利用率。
79.另外,由于将待处理文本对象分割成满足文本块条件的文本块进行处理,即所执行的处理并非以简单句子为单位,从而句间的短距离上下文语义信息也能得到更好的运用,可有效提高文本对象(如文档)相似搜索的准确度。
80.在一可选实施例中,本技术预先构建文本理解模型和相似度模型,以结合利用文本理解模型和相似度模型,确定文本对象集包括的各个全局共享子文本和非共享子文本中是否存在与第一子文本对象满足相似条件的第二子文本对象。
81.参见图3,文本理解模型的构建过程,包括:
82.步骤301、将第一文本对象样本和第二文本对象样本输入待训练模型,得到待训练模型输出的第一文本对象样本和第二文本对象样本中的相似子文本对象样本。
83.待训练模型可以是但不限于自监督学习模型,通过对待训练模型的训练来构建文本理解模型。模型的训练样本包括具有相似子文本对象的文本对象样本对,优选的,文本对象样本对中的文本对象样本为长文本,训练样本相应可以包括具有相似文本块的长文本对。
84.所构建的文本理解模型,至少应具备从不同文本对象分别包含的子文本对象之间查找相似子文本对象(如,从两个长文本分别包含的文本块中查找相似子文本块)的功能,除此之外,可选的,还可以具备对文本对象如长文本的文本块分割功能。
85.模型训练过程中,具体可将第一文本对象样本和第二文本对象样本成对输入待训练模型,得到待训练模型输出的第一文本对象样本和第二文本对象样本中的相似子文本对象样本。
86.步骤302、将第一文本对象样本和第二文本对象样本中的相似子文本对象样本互换,得到第一文本对象样本对应的第一替换样本和第二文本对象样本对应的第二替换样本;将第一文本对象样本和第二文本对象样本中的相似子文本对象样本剔除,得到第一文本对象样本对应的第一剔除样本和第二文本对象样本对应的第二剔除样本。
87.以第一文本对象样本和第二文本对象样本分别为长文本a、长文本b为例,如图4所示,长文本a由短文本a1、a2
…
an组成,长文本b由短文本b1、b2
…
bn组成,假设将长文本a、b成对输入待训练模型后,模型输出的相似子文本对象样本为a2和b1,则可将a中的a2与b中的b1在a、b之间进行互换,得到由a1、b1
…
an组成的第一替换样本,和由a2、b2
…
bn组成的第二替换样本。
88.并将a2从a剔除得到由a1、a3
…
an组成的第一剔除样本,将b1从b剔除得到由b2、b3
…
bn组成的第二剔除样本。
89.步骤303、确定相似度模型对第一样本对和/或第二样本对的相似度确定结果的第一子损失函数值,及对第三样本对的相似度确定结果的第二子损失函数值;第一样本对包括第一文本对象样本和第一替换样本,第二样本对包括第二文本对象样本和第二替换样本,第三样本对包括第一剔除样本和第二剔除样本。
90.之后,将第一文本对象样本和第一替换样本构建为第一样本对,将第二文本对象样本和第二替换样本构建为第二样本对,第一剔除样本和第二剔除样本构建为第三样本对。并将第一样本对、第二样本对、第三样本对分别输出预先构建的相似度模型。
91.相似度模型用于确定所输入样本对中不同样本之间的相似度。可选的,在将各个样本对输入相似度模型之前,还可以将各个样本对中的样本输入预训练的向量化模型进行向量化,得到样本的向量,相应将各样本对中样本的向量输入相似度模型进行相似度确定。
92.如上文的示例中,假设,第一样本对中的样本经向量化模型的向量化处理后,得到第一文本对象样本对应的向量v
a,0
,以及第一替换样本对应的向量v
a,1
;第二样本对中的样本经向量化模型的向量化处理后,得到第二文本对象样本对应的向量v
b,0
,以及第二替换样本对应的向量v
b,1
;第三样本对中的样本经向量化模型的向量化处理后,得到第一剔除样本对应的向量v
a,2
,以及第二剔除样本对应的向量v
b,2
。并将v
a,0
与v
a,1
和/或v
b,0
与v
b,1
成对输入相似度模型,得到相似度模型对第一样本对即(v
a,0
,v
a,1
)和/或第二样本对即(v
b,0
,v
b,1
)的相似度确定结果,并确定该确定结果对应的第一子损失函数值。
93.并将v
a,2
与v
b,2
成对输入相似度模型,得到相似度模型对第三样本对即(v
a,2
,v
b,2
)的相似度确定结果,并确定该确定结果对应的第二子损失函数值。
94.步骤304、根据上述的第一子损失函数值和第二子损失函数值,调整上述待训练模型的模型参数,直至满足结束条件得到文本理解模型。
95.之后,根据第一子损失函数值和第二子损失函数值,对待训练模型的模型参数进行调整,通过不断调整模型参数,使待训练模型的模型参数得以优化,直至满足结束条件时即完成模型训练,得到文本理解模型。
96.上述的结束条件,可以是但不限于,模型参数调整次数达到次数阈值,或模型训练时长达到设定时长,或模型足够收敛模型准确度达到设定的准确度数值等等。
97.其中,第一子损失函数值、第二子损失函数值分别与所对应向量对之间的相似度呈反相关关系,对待训练模型的模型参数的调整,用于降低所述第一子损失函数值、提升所
述第二子损失函数值。
98.也就是说,模型损失函数包括两个子函数:第一子损失函数和第二子损失函数。
99.示例性的,模型损失函数l1表示第一子损失函数,l2表示第一子损失函数,模型训练中通过反向传播更新文本理解模型的参数,并基于参数调整使l1尽可能小,l2尽可能大。
100.本技术实施例中,将文本理解模型的训练目标设定为,需要尽可能查找出文本对象对中的相似文本块,但同时需要保证文本对象对中的相似文本块相互替换后,模型依然能将文本对象与其对应的替换相似文本块后所得的替换文本对象识别为相似,同时能将文本对象对分别剔除相似文本块后所得的剔除文本对象对识别为非相似,基于该设定,本技术结合相似度模型,为损失函数设计两个子函数——第一子损失函数、第二子损失函数来训练文本理解模型,以基于所设计损失函数的模型训练,使相似文本块替换后的文本对象(替换文本对象)和对应的原文本对象在模型中进行相似度比较时能尽可能接近,分离相似文本块后剩下的非共有片段则尽可能不相似,相应使得最终所得到的文本理解模型,能使相似的文本对象尽可能接近,不相似的文本尽可能分离,并避免倾向于过于拟合完全不替换的消极策略。
101.在此基础上,参见图5,确定文本对象集包括的各个全局共享子文本和非共享子文本中是否存在与第一子文本对象满足相似条件的第二子文本对象,可进一步实现为:
102.步骤501、利用预先构建的文本理解模型,从文本对象集包括的各个全局共享子文本和非共享子文本中确定与第一子文本对象满足第一子相似条件的子文本,作为第一子文本对象的候选相似子文本对象。
103.可选的,具体可将由各个第一子文本对象组成的第一文本对象输入文本理解模型,并遍历文本对象集内的每一个已经被分块存储的文本对象加入文本理解模型,由文本理解模型从当前所遍历文本对象包含的各个子文本对象中,查找/挑选出与第一子文本对象相似的子文本对象,即与第一子文本对象满足第一子相似条件的子文本对象,相应将其作为第一子文本对象的候选相似子文本对象。
104.步骤502、若第一子文本对象的候选相似子文本对象非空,利用预先构建的相似度模型,确定第一子文本对象和候选相似子文本对象的相似度值,在所述相似度值满足第二子相似条件情况下,确定所述候选相似子文本对象为与第一子文本对象满足相似条件的第二子文本对象。
105.在候选相似子文本对象非空情况下,分别对第一子文本对象和候选相似子文本对象进行向量化,例如,利用图4中的向量化模型对第一子文本对象和候选相似子文本对象进行向量化,得到第一子文本对象对应的第一向量,和候选相似子文本对象对应的第二向量,在此基础上,将第一向量和第二向量输入相似度模型,由相似度模型根据输入的第一向量和第二向量,确定第一子文本对象和候选相似子文本对象的相似度值。
106.并判定确定出的相似度值是否满足第二子相似条件,如是否达到设定的相似度阈值,若满足,将该候选相似子文本对象确定为与第一子文本对象满足相似条件的第二子文本对象。反之,则该候选相似子文本对象与第一子文本对象不满足所述相似条件。
107.值得说明的是,文本理解模型在对不同子文本对象进行相似性检测以确定候选相
似子文本对象时,同样首先将不同子文本对象进行向量化,并基于子文本对象的向量对其进行相似性检测处理,与相似度模型对应的向量化处理相比,文本理解模型端的向量化处理更为轻量级(如其向量化结果与相似度模型端的向量化结果相比,包括更少维度的向量分量),以此使得能基于文本理解模型,快速高效地从文本对象集中初步筛选出与第一子文本对象具有一定相似性的候选相似子文本对象,以便于后续相似度模型在候选相似子文本对象而非全部文本对象集的信息范围内,更精准、快速地确定与第一子文本对象满足相似条件的第二子文本对象。
108.在一可选实施例中,本技术还构建有向量集,如向量库,所构建的向量集包括文本对象集中各个全局共享子文本和非共享子文本分别对应的向量。
109.基于构建的向量集,在候选相似子文本对象非空情况下,对于待由相似度模型进行处理的第一子文本对象和候选相似子文本对象,可仅对第一子文本对象进行向量化,如采用上文的向量化模型对其向量化,而候选相似子文本对象所对应的向量可直接从向量集查询得到。
110.参见图6提供的示例性应用流程,在基于本实施例对待处理长文本进行处理时,具体可将待处理长文本输入文本理解模型(也可称为文本理解器)进行文本块分割,并遍历长文本库内的每一个已经被分块存储的长文本加入文本理解器,从中挑选出与待处理长文本的文本块相似的候选相似文本块,并将待处理长文本的文本块进行向量化后输入相似度模型,候选相似文本块的向量则从向量集查询获取,并同样输入相似度模型,相似度模型根据输入的两种向量,确定其分别对应的文本块是否为相似文本块。
111.本实施例通过为文本对象集构建对应的向量集,可支持通过查询方式获得文本对象集中的各个子文本对象(全局共享子文本/非共享子文本)对应的向量,有效提升了对需处理的第一文本对象的处理效率,同时,结合文本对象集的信息结构,由于可避免对文本对象集中表示为索引信息的子文本对象进行向量化,从而还可以有效降低向量集的数据量,进一步提升了存储空间利用率。
112.在一可选实施例中,参见图7所示的信息处理方法流程图,步骤104,即根据所述确定结果,对第一文本对象进行信息处理,还可以实现为:
113.步骤701、根据所述确定结果,将第一文本对象包含的所述至少一个第一子文本对象对应存储至文本对象集。
114.本实施例基于第一文本对象,对文本对象集进行更新。
115.具体的,对于第一文本对象包含的每一第一子文本对象,如果文本对象集的全局共享子文本中存在与该第一子文本对象满足相似条件的第二子文本对象,将该第一子文本对象存储为所述全局共享子文本中所述第二子文本对象的索引信息;如果文本对象集的非共享子文本中存在与该第一子文本对象满足相似条件的第二子文本对象,将该第一子文本对象存储为所述非共享子文本中所述第二子文本对象的索引信息,并调整所述非共享子文本中所述第二子文本对象为全局共享子文本;如果文本对象集中不存在与第一子文本对象满足相似条件的第二子文本对象,将第一子文本对象存储为相应的子文本内容。
116.其中,可通过将所述非共享子文本中所述第二子文本对象的属性,调整为用于表征全局共享子文本的属性,实现将所述非共享子文本中所述第二子文本对象调整为全局共享子文本,或者,也可以直接为该第二子文本对象添加用于表示全局共享子文本的标记信
息。
117.参见图8的示例,文本对象集具体为文本库,包含两个长文本:长文本1和长文本2,长文本1和长文本2分别包含的短文本及所包含短文本在文本库中的表示形式如图8所示,其中,短文本1、3、4、5为非共享子文本,短文本2为全局共享子文本,假设第一文本对象为待入库的长文本3,其由短文本6、7、8组成,通过将长文本3的短文本与文本库所包含短文本(全局共享文本块/非共享文本块)的比对,确定出文本库中不存在与长文本3的短文本6满足相似条件的短文本,短文本2与长文本3的短文本7满足相似条件,短文本4与长文本3的短文本8满足相似条件,相应将短文本6在文本库中表示为短文本6的文本内容,将短文本7在文本库中表示为用于指向短文本2的索引信息,即图中的“索引2”,将短文本8在文本库中表示为用于指向短文本4的索引信息,即图中的“索引4”,同时将短文本4的属性调整为全局共享属性,以将短文本4调整为全局共享子文本。
118.进一步,可选的,参见图7,上述步骤104还可以包括:
119.步骤702、如果第一子文本对象在文本对象集中表示为相应的子文本内容,将第一子文本对象对应的第一向量存储至向量集。
120.其中,针对第一子文本对象在文本对象集中表示为相应的子文本内容的情况,进一步将第一子文本对象对应的第一向量添加至向量集,实现对向量集的更新,使向量集中向量与文本对象集中的全局共享子文本/非共享子文本一一对应。而对于第一子文本对象在文本对象集中表示为索引信息的情况,无需基于第一子文本对象更新向量集。
121.通过基于第一文本对象及其对应的向量,对文本对象集和向量集进行更新,实现了对文本对象集和向量集的动态扩充,便于后续基于文本对象集和向量集为对待处理第一文本对象的处理提供更丰富的数据基础。
122.针对大规模文档的相似文档搜索、分类等应用场景,基于本技术的信息处理方法,通过分别有针对性的存储大规模相似文本的可能相似部分(对应于全局共享子文本)和显著不同部分(对应于非共享子文本),可突出全局共享信息在文本相似搜索中的重要性,避免相似信息的重复存储及重复的向量化计算,能有效节省计算量和存储空间,不仅减少了每次向文本对象集添加新文本所需要重复向量化的部分达到节省计算量和存储空间,提高信息利用率的效果,更是重点突出了重复/相似文本片段在整个文档集内的使用。同时结合对长文本的文本块分割机制,还能有效提高在多文档集内搜索相似文档的准确性。
123.对应于上述的信息处理方法,本技术还公开一种信息处理装置,其组成结构如图9所示,至少包括:
124.获取单元901,用于获取待处理的第一文本对象;
125.分割单元902,用于对所述第一文本对象进行分割处理,得到至少一个第一子文本对象;
126.确定单元903,用于从文本对象集包括的各个子文本对象中确定是否存在与所述第一子文本对象满足相似条件的第二子文本对象,得到确定结果;其中,所述文本对象集包括由至少一个子文本对象组成的至少一个文本对象;所述子文本对象包括全局共享子文本,每个全局共享子文本表征满足相似条件的一组子文本对象;所述一组子文本对象中,至少一个子文本对象在所属文本对象中表示为对应的文本内容以作为所述全局共享子文本,其他子文本对象在所属文本对象中表示为用于索引至所对应全局共享子文本的索引信息;
127.处理单元904,用于根据所述确定结果,对所述第一文本对象进行信息处理。
128.在一实施方式中,所述文本对象集中的子文本对象还包括非共享子文本,所述非共享子文本表征所述文本对象集未包含与之满足相似条件的独立子文本对象;
129.确定单元903,具体用于:确定所述文本对象集包括的各个全局共享子文本和非共享子文本中是否存在与所述第一子文本对象满足相似条件的第二子文本对象。
130.在一实施方式中,处理单元904,具体用于:将所述第一文本对象包含的所述至少一个第一子文本对象对应存储至所述文本对象集;
131.其中,对于每一第一子文本对象,如果所述文本对象集的全局共享子文本中存在与所述第一子文本对象满足相似条件的第二子文本对象,将所述第一子文本对象存储为所述全局共享子文本中所述第二子文本对象的索引信息;如果所述文本对象集的非共享子文本中存在与所述第一子文本对象满足相似条件的第二子文本对象,将所述第一子文本对象存储为所述非共享子文本中所述第二子文本对象的索引信息,并调整所述非共享子文本中所述第二子文本对象为全局共享子文本;如果所述文本对象集中不存在与所述第一子文本对象满足相似条件的第二子文本对象,将所述第一子文本对象存储为相应的子文本内容。
132.在一实施方式中,处理单元904,具体用于:
133.在存在与所述第一子文本对象满足相似条件的第二子文本对象情况下,确定各个所述第二子文本对象分别对应的文本对象中,是否存在对应的第二子文本对象总数据量满足数据量条件的目标文本对象;
134.若存在,将所述目标文本对象作为所述第一文本对象的相似文本对象。
135.在一实施方式中,确定单元903,在确定所述文本对象集包括的各个全局共享子文本和非共享子文本中是否存在与所述第一子文本对象满足相似条件的第二子文本对象时,具体用于:
136.利用预先构建的文本理解模型,从所述文本对象集包括的各个全局共享子文本和非共享子文本中确定与所述第一子文本对象满足第一子相似条件的子文本,作为所述第一子文本对象的候选相似子文本对象;
137.若所述第一子文本对象的候选相似子文本对象非空,利用预先构建的相似度模型,确定所述第一子文本对象和所述候选相似子文本对象的相似度值,在所述相似度值满足第二子相似条件情况下,确定所述候选相似子文本对象为与所述第一子文本对象满足所述相似条件的第二子文本对象。
138.在一实施方式中,确定单元903,在利用预先构建的相似度模型,确定所述第一子文本对象和所述候选相似子文本对象的相似度值时,具体用于:
139.对所述第一子文本对象进行向量化,得到第一向量;
140.从向量集中获取所述候选相似子文本对象对应的向量,得到第二向量;所述向量集包括所述文本对象集中各个全局共享子文本和非共享子文本分别对应的向量;
141.利用所述相似度模型,根据所述第一向量和所述第二向量,确定所述第一子文本对象和所述候选相似子文本对象的相似度值。
142.在一实施方式中,上述装置还包括模型构建单元,用于:
143.将第一文本对象样本和第二文本对象样本输入待训练模型,得到所述待训练模型输出的所述第一文本对象样本和所述第二文本对象样本中的相似子文本对象样本;
144.将所述第一文本对象样本和所述第二文本对象样本中的相似子文本对象样本互换,得到所述第一文本对象样本对应的第一替换样本和所述第二文本对象样本对应的第二替换样本;将所述第一文本对象样本和所述第二文本对象样本中的相似子文本对象样本剔除,得到所述第一文本对象样本对应的第一剔除样本和所述第二文本对象样本对应的第二剔除样本;
145.确定所述相似度模型对第一样本对和/或第二样本对的相似度确定结果的第一子损失函数值,及对第三样本对的相似度确定结果的第二子损失函数值;所述第一样本对包括所述第一文本对象样本和所述第一替换样本,所述第二样本对包括所述第二文本对象样本和所述第二替换样本,所述第三样本对包括所述第一剔除样本和所述第二剔除样本;
146.根据所述第一子损失函数值和所述第二子损失函数值,调整所述待训练模型的模型参数,直至满足结束条件得到所述文本理解模型。
147.在一实施方式中,处理单元904,还用于:
148.如果所述第一子文本对象在所述文本对象集中存储为相应的子文本内容,将所述第一子文本对象对应的第一向量存储至向量集;
149.其中,所述向量集包括所述文本对象集中各个全局共享子文本和非共享子文本分别对应的向量。
150.在一实施方式中,获取单元901,具体用于:获取待处理的满足长文本条件的第一长文本对象;
151.分割单元902,具体用于:对所述第一长文本对象进行文本块分割处理,得到满足文本块条件的至少一个第一文本块。
152.对于本技术实施例公开的信息处理装置而言,由于其与上文方法实施例公开的信息处理方法相对应,所以描述的比较简单,相关相似之处请参见上文方法实施例的说明即可,此处不再详述。
153.本技术实施例还公开一种电子设备,电子设备的组成结构,如图10所示,至少包括:
154.存储器10,用于存放计算机指令集;
155.计算机指令集可以通过计算机程序的形式实现。
156.处理器20,用于通过执行计算机指令集,实现如上文任一方法实施例公开的信息处理方法。
157.处理器20可以为中央处理器(central processing unit,cpu),特定应用集成电路(application-specific integrated circuit,asic),数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或者其他可编程逻辑器件等。
158.电子设备具备显示装置和/或具备显示接口、能外接显示装置。
159.可选的,电子设备还包括摄像头组件,和/或连接有外置摄像头组件。
160.除此之外,电子设备还可以包括通信接口、通信总线等组成部分。存储器、处理器和通信接口通过通信总线完成相互间的通信。
161.通信接口用于电子设备与其他设备之间的通信。通信总线可以是外设部件互连标准(peripheral component interconnect,pci)总线或扩展工业标准结构(extended industry standard architecture,eisa)总线等,该通信总线可以分为地址总线、数据总
线、控制总线等。
162.需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
163.为了描述的方便,描述以上系统或装置时以功能分为各种模块或单元分别描述。当然,在实施本技术时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
164.通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本技术的技术方案本质上或者说做出创造性贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例或者实施例的某些部分所述的方法。
165.最后,还需要说明的是,在本文中,诸如第一、第二、第三和第四等之类的关系术语是用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包括”或者其任何其他变体意在涵盖非排他性的包括,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
166.以上所述仅是本技术的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本技术的保护范围。
技术特征:
1.一种信息处理方法,包括:获取待处理的第一文本对象;对所述第一文本对象进行分割处理,得到至少一个第一子文本对象;从文本对象集包括的各个子文本对象中确定是否存在与所述第一子文本对象满足相似条件的第二子文本对象,得到确定结果;其中,所述文本对象集包括由至少一个子文本对象组成的至少一个文本对象;所述子文本对象包括全局共享子文本,每个全局共享子文本表征满足相似条件的一组子文本对象;所述一组子文本对象中,至少一个子文本对象在所属文本对象中表示为对应的文本内容以作为所述全局共享子文本,其他子文本对象在所属文本对象中表示为用于索引至所对应全局共享子文本的索引信息;根据所述确定结果,对所述第一文本对象进行信息处理。2.根据权利要求1所述的方法,所述文本对象集中的子文本对象还包括非共享子文本,所述非共享子文本表征所述文本对象集未包含与之满足相似条件的独立子文本对象;所述从文本对象集包括的各个子文本对象中确定是否存在与所述第一子文本对象满足相似条件的第二子文本对象,包括:确定所述文本对象集包括的各个全局共享子文本和非共享子文本中是否存在与所述第一子文本对象满足相似条件的第二子文本对象。3.根据权利要求2所述的方法,所述根据所述确定结果,对所述第一文本对象进行信息处理,包括:将所述第一文本对象包含的所述至少一个第一子文本对象对应存储至所述文本对象集;其中,对于每一第一子文本对象,如果所述文本对象集的全局共享子文本中存在与所述第一子文本对象满足相似条件的第二子文本对象,将所述第一子文本对象存储为所述全局共享子文本中所述第二子文本对象的索引信息;如果所述文本对象集的非共享子文本中存在与所述第一子文本对象满足相似条件的第二子文本对象,将所述第一子文本对象存储为所述非共享子文本中所述第二子文本对象的索引信息,并调整所述非共享子文本中所述第二子文本对象为全局共享子文本;如果所述文本对象集中不存在与所述第一子文本对象满足相似条件的第二子文本对象,将所述第一子文本对象存储为相应的子文本内容。4.根据权利要求1所述的方法,所述根据所述确定结果,对所述第一文本对象进行信息处理,包括:在存在与所述第一子文本对象满足相似条件的第二子文本对象情况下,确定各个所述第二子文本对象分别对应的文本对象中,是否存在对应的第二子文本对象总数据量满足数据量条件的目标文本对象;若存在,将所述目标文本对象作为所述第一文本对象的相似文本对象。5.根据权利要求2所述的方法,所述确定所述文本对象集包括的各个全局共享子文本和非共享子文本中是否存在与所述第一子文本对象满足相似条件的第二子文本对象,包括:利用预先构建的文本理解模型,从所述文本对象集包括的各个全局共享子文本和非共享子文本中确定与所述第一子文本对象满足第一子相似条件的子文本,作为所述第一子文本对象的候选相似子文本对象;
若所述第一子文本对象的候选相似子文本对象非空,利用预先构建的相似度模型,确定所述第一子文本对象和所述候选相似子文本对象的相似度值,在所述相似度值满足第二子相似条件情况下,确定所述候选相似子文本对象为与所述第一子文本对象满足所述相似条件的第二子文本对象。6.根据权利要求5所述的方法,所述利用预先构建的相似度模型,确定所述第一子文本对象和所述候选相似子文本对象的相似度值,包括:对所述第一子文本对象进行向量化,得到第一向量;从向量集中获取所述候选相似子文本对象对应的向量,得到第二向量;所述向量集包括所述文本对象集中各个全局共享子文本和非共享子文本分别对应的向量;利用所述相似度模型,根据所述第一向量和所述第二向量,确定所述第一子文本对象和所述候选相似子文本对象的相似度值。7.根据权利要求5所述的方法,所述文本理解模型的构建过程,包括:将第一文本对象样本和第二文本对象样本输入待训练模型,得到所述待训练模型输出的所述第一文本对象样本和所述第二文本对象样本中的相似子文本对象样本;将所述第一文本对象样本和所述第二文本对象样本中的相似子文本对象样本互换,得到所述第一文本对象样本对应的第一替换样本和所述第二文本对象样本对应的第二替换样本;将所述第一文本对象样本和所述第二文本对象样本中的相似子文本对象样本剔除,得到所述第一文本对象样本对应的第一剔除样本和所述第二文本对象样本对应的第二剔除样本;确定所述相似度模型对第一样本对和/或第二样本对的相似度确定结果的第一子损失函数值,及对第三样本对的相似度确定结果的第二子损失函数值;所述第一样本对包括所述第一文本对象样本和所述第一替换样本,所述第二样本对包括所述第二文本对象样本和所述第二替换样本,所述第三样本对包括所述第一剔除样本和所述第二剔除样本;根据所述第一子损失函数值和所述第二子损失函数值,调整所述待训练模型的模型参数,直至满足结束条件得到所述文本理解模型。8.根据权利要求3所述的方法,所述根据所述确定结果,对所述第一文本对象进行信息处理,还包括:如果所述第一子文本对象在所述文本对象集中存储为相应的子文本内容,将所述第一子文本对象对应的第一向量存储至向量集;其中,所述向量集包括所述文本对象集中各个全局共享子文本和非共享子文本分别对应的向量。9.根据权利要求1所述的方法,所述获取待处理的第一文本对象,包括:获取待处理的满足长文本条件的第一长文本对象;所述对所述第一文本对象进行分割处理,得到至少一个第一子文本对象,包括:对所述第一长文本对象进行文本块分割处理,得到满足文本块条件的至少一个第一文本块。10.一种信息处理装置,包括:获取单元,用于获取待处理的第一文本对象;分割单元,用于对所述第一文本对象进行分割处理,得到至少一个第一子文本对象;
确定单元,用于从文本对象集包括的各个子文本对象中确定是否存在与所述第一子文本对象满足相似条件的第二子文本对象,得到确定结果;其中,所述文本对象集包括由至少一个子文本对象组成的至少一个文本对象;所述子文本对象包括全局共享子文本,每个全局共享子文本表征满足相似条件的一组子文本对象;所述一组子文本对象中,至少一个子文本对象在所属文本对象中表示为对应的文本内容以作为所述全局共享子文本,其他子文本对象在所属文本对象中表示为用于索引至所对应全局共享子文本的索引信息;处理单元,用于根据所述确定结果,对所述第一文本对象进行信息处理。
技术总结
本申请公开一种信息处理方法和装置,该信息处理方法包括:获取待处理的第一文本对象对其进行分割处理,得到至少一个第一子文本对象;从文本对象集包括的各个子文本对象中确定是否存在与第一子文本对象满足相似条件的第二子文本对象,得到确定结果;文本对象集包括由至少一个子文本对象组成的至少一个文本对象;子文本对象包括全局共享子文本,每个全局共享子文本表征满足相似条件的一组子文本对象;所述一组子文本对象中,至少一个子文本对象在所属文本对象中表示为对应的文本内容以作为所述全局共享子文本,其他子文本对象在所属文本对象中表示为用于索引至所述一个全局共享子文本的索引信息;根据所述确定结果,对第一文本对象进行信息处理。第一文本对象进行信息处理。第一文本对象进行信息处理。
技术研发人员:潘骏 孙佳 岳晨
受保护的技术使用者:联想(北京)有限公司
技术研发日:2023.03.31
技术公布日:2023/7/12
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
