一种笔记总结生成方法、装置、设备及存储介质与流程

未命名 08-27 阅读:90 评论:0


1.本发明涉及自然语言处理技术领域,尤其涉及一种笔记总结生成方法、装置、设备及存储介质。


背景技术:

2.在某些场景中,用户会在文本上书写一些内容,比如,用户针对文本内容的想法、用户对文本内容的提炼等,可能还会对文本中的一些内容进行标记,比如,把其关心的一些内容勾画出来或者做上记号。以学习场景为例,学生在上课的过程中,会在课本上记录老师的板书或者老师的见解,还会对老师让重点关注的内容进行标记。
3.由于精力有限,用户在文本上书写和标记时一般不会特别注重记录的条理性和整洁性,当用户想要对文本内容进行复习时,杂乱的记录会给复习带来非常大的影响,因此,用户需要对记录的内容进行整理,然而,用户对记录的内容进行整理极为耗时耗力。


技术实现要素:

4.有鉴于此,本发明提供了一种笔记总结生成方法、装置、设备及存储介质,用以解决用户对记录的内容进行整理极为耗时耗力的问题,其技术方案如下:
5.一种笔记总结生成方法,包括:
6.获取包含目标用户的笔记的文本图片,作为目标文本图片;
7.从所述目标文本图片中分割出若干目标区域,并确定每个目标区域的类别,其中,所述若干目标区域包括若干文本区域,每个文本区域为原文本区域、用户书写区域、用户标记区域中的一种;
8.对分割出的每个文本区域进行文本识别,得到所述若干文本区域分别对应的识别结果;
9.以所述用户书写区域对应的识别结果和/或所述用户标记区域对应的识别结果为指导信息,结合所述原文本区域对应的识别结果,生成所述目标用户的笔记总结。
10.可选的,所述若干目标区域还包括若干图像区域;
11.所述方法还包括:
12.在生成的笔记总结中融入所述若干图像区域。
13.可选的,所述从所述目标文本图片中分割出若干目标区域,包括:
14.基于预先训练得到的图片分割模型,从所述目标文本图片中分割出若干目标区域,并确定每个目标区域的类别;
15.其中,每个目标区域为图像区域、原文本区域、用户书写区域、用户标记区域中的一种,所述图片分割模型采用标注出若干个目标区域的位置和类别的训练文本图片对初始的图片分割模型进行训练得到。
16.可选的,所述初始的图像分割模型包括特征提取模块;
17.所述初始的图片分割模型中的特征提取模块采用基于标注有图片类别的训练图
片训练得到图像分类模型中的特征提取模块;
18.其中,一训练图片标注的图片类别为如下类别中的一种或两种:只包含图像、只包含文本、包含图像和文本、无用户笔记、有用户笔记。
19.可选的,所述以所述用户书写区域对应的识别结果和/或所述用户标记区域对应的识别结果为指导信息,结合所述原文本区域对应的识别结果,生成所述目标用户的笔记总结,包括:
20.获取第一文本集和第二文本集,其中,所述第一文本集和所述第二文本集依次为第一句子集、第二句子集,或者,依次为第三句子集和第四句子集,所述第一句子集包括所述原文本区域对应的识别结果中的每个原文句子,所述第二句子集包括所述用户标记区域对应的识别结果中的每个原文句子,所述第三句子集包括所述用户书写区域对应的识别结果中的每个用户书写句子与所述原文本区域对应的识别结果中每个原文句子的拼接句子,所述第四句子集包括所述第三句子集中包含重点句子和/或要点提醒句子的拼接句子,所述重点句子为所述用户标记区域对应的识别结果中的原文句子,所述要点提醒句子为与用户书写句子对应的原文句子;
21.获取所述第一文本集和所述第二文本集分别对应的篇章特征向量,其中,所述篇章特征向量为由对应文本集中的所有文本所组成的篇章的特征向量;
22.基于所述第一文本集和所述第二文本集分别对应的篇章特征向量,生成所述目标用户的笔记总结。
23.可选的,所述获取所述第一文本集和所述第二文本集分别对应的篇章特征向量,包括:
24.针对所述第一文本集和所述第二文本集中待确定对应的篇章特征向量的目标文本集:
25.对所述目标文本集中的每个文本进行字级编码,以得到所述目标文本集中每个文本的句子表示向量;
26.将所述目标文本集中各文本的句子表示向量融合,融合后向量作为所述目标文本集的篇章表示向量;
27.对所述目标文本集的篇章表示向量进行句级编码,得到所述目标文本集对应的篇章特征向量。
28.可选的,若所述第一文本集和所述第二文本集依次为第三句子集和第四句子集,则所述对所述目标文本集的篇章表示向量进行句级编码,包括:
29.结合所述目标文本集中各文本分别对应的位置信息,对所述目标文本集的篇章表示向量进行句级编码,其中,一文本对应的位置信息包括组成该文本的两个句子所在的两个文本区域的相对位置信息。
30.可选的,所述基于所述第一文本集和所述第二文本集分别对应的篇章特征向量,生成所述目标用户的笔记总结,包括:
31.以所述第二文本集对应的篇章特征向量为依据,结合所述第一文本集对应的篇章特征向量,生成所述第二文本集中各文本分别对应的笔记总结;
32.对所述第二文本集中各文本分别对应的笔记总结进行合并和处理,得到所述目标用户的笔记总结。
33.可选的,所述以所述第二文本集对应的篇章特征向量为依据,结合所述第一文本集对应的篇章特征向量,生成所述第二文本集中各文本分别对应的笔记总结,包括:
34.针对所述第二文本集中待生成对应的笔记总结的目标文本:
35.从所述第二文本集对应的篇章特征向量中,获取与所述目标文本相关的特征向量,作为所述目标文本对应的第一特征向量;
36.根据所述目标文本对应的第一特征向量和所述第一文本集对应的篇章特征向量,确定生成所述目标句子对应的笔记总结所需的特征向量,作为所述目标文本对应的第二特征向量;
37.根据所述目标文本对应的第二特征向量,生成所述目标文本对应的笔记总结。
38.可选的,以所述用户标记区域对应的识别结果为指导信息,结合所述原文本区域对应的识别结果,生成所述目标用户的笔记总结,包括:
39.基于预先训练得到的第一笔记总结生成模型,对所述用户标记区域对应的识别结果和所述原文本区域对应的识别结果进行处理,以得到忠于原文的笔记总结,其中,所述第一笔记总结生成模型采用多条标注有忠于原文的笔记总结的训练文本数据训练得到,每条训练文本数据包括从一训练文本图片中分割出的原文本区域对应的识别结果和用户标记区域对应的识别结果;
40.以所述用户书写区域对应的识别结果和所述用户标记区域对应的识别结果为指导信息,结合所述原文本区域对应的识别结果,生成所述目标用户的笔记总结,包括:
41.基于预先训练得到的第二笔记总结生成模型,对所述用户书写区域对应的识别结果、所述用户标记区域对应的识别结果和所述原文本区域对应的识别结果进行处理,以得到个性化的笔记总结,其中,所述第二笔记总结生成模型采用多条标注有个性化的笔记总结的训练文本数据训练得到,每条训练文本数据包括从一训练文本图片中分割出的用户书写区域对应的识别结果、用户标记区域对应的识别结果和原文本区域对应的识别结果。
42.一种笔记总结生成装置,包括:图片获取模块、图片分割模块,文本识别模块和笔记总结生成模块;
43.所述图片获取模块,用于获取包含目标用户的笔记的文本图片,作为目标文本图片;
44.所述图片分割模块,用于从所述目标文本图片中分割出若干目标区域,并确定每个目标区域的类别,其中,所述若干目标区域包括若干文本区域,每个文本区域为原文本区域、用户书写区域、用户标记区域中的一种;
45.所述文本识别模块,用于对分割出的每个文本区域进行文本识别,得到所述若干文本区域分别对应的识别结果;
46.所述笔记总结生成模块,用于以所述用户书写区域对应的识别结果和/或所述用户标记区域对应的识别结果为指导信息,结合所述原文本区域对应的识别结果,生成所述目标用户的笔记总结。
47.一种笔记总结生成设备,包括:存储器和处理器;
48.所述存储器,用于存储程序;
49.所述处理器,用于执行所述程序,实现上述任一项所述的笔记总结生成方法的各个步骤。
50.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一项所述的笔记总结生成方法的各个步骤。
51.本发明提供的笔记生成方法、装置、设备及存储介质,在获得包含目标用户的笔记的文本图片即目标文本图片后,首先从目标文本图片中分割出若干目标(包含多种文本区域),接着对分割出的每个文本区域进行文本识别,得到若干文本区域分别对应的识别结果,最后以用户书写区域对应的识别结果和/或用户标记区域对应的识别结果为指导信息,结合原文本区域对应的识别结果,生成目标用户的笔记总结。本发明提供的笔记总结生成方法可根据包含目标用户的笔记的文本图片自动生成目标用户的笔记总结,相比于人工的笔记整理方式,大大降低了耗时,提高了笔记整理的效率,同时避免人为因素带来的影响。
附图说明
52.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
53.图1为本发明实施例提供的笔记总结生成方法的流程示意图;
54.图2为基于本发明提供的笔记总结生成方法生成的笔记总结的一示例;
55.图3为本发明实施例提供的以用户书写区域对应的识别结果和/或用户标记区域对应的识别结果为指导信息,结合原文本区域对应的识别结果,生成目标用户的笔记总结的流程示意图;
56.图4为本发明实施例提供的生成忠于原文的笔记总结的一具体实例的流程示意图;
57.图5为本发明实施例提供的基于第一笔记总结生成模型生成忠于原文的笔记总结的示意图;
58.图6为本发明实施例提供的生成个性化的笔记总结的一具体实例的流程示意图;
59.图7为本发明实施例提供的基于第二笔记总结生成模型生成个性化的笔记总结的示意图;
60.图8为本发明实施例提供的笔记总结生成装置的结构示意图;
61.图9为本发明实施例提供的笔记总结生成设备的结构示意图。
具体实施方式
62.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
63.鉴于用户对记录的内容进行整理极为耗时耗力,本案发明人试图提出一种能自动生成笔记总结的方法,为此,进行了研究,在研究过程中发现,目前存在一些文本摘要生成方法,这些文本摘要方法能够自动对文本进行总结,虽然这些文本摘要方法能够自动生成总结,但是其大多只根据原文进行总结,即,目前的文本摘要生成方法大多只关注原文,而
未关注用户书写的内容、用户标记的内容,然而,在某些时候,用户更多关注的是其书写的内容、标记的内容,显然,目前的文本摘要生成方法无法满足用户的需求。
64.有鉴于此,本案发明人进行了研究,通过不断研究,最终提出了一种笔记总结生成方法,该笔记总结方法以用户书写内容和/或用户标记内容为指导信息,同时结合原文自动生成用户的笔记总结。
65.在介绍本发明提供的笔记总结生成方法之前,先对本发明涉及的硬件架构进行说明。
66.在一种可能的实现方式中,本发明涉及的硬件架构可以包括:电子设备和服务器。
67.示例性的,电子设备可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品,例如,个人计算机、笔记本电脑、平板电脑、手机、智能电视、学习机等。
68.示例性的,服务器可以是一台服务器,也可以是由多台服务器组成的服务器集群,或者是一个云计算服务器中心。服务器可以包括处理器、存储器以及网络接口等。
69.示例性的,电子设备可以通过无线通信网络与服务器建立连接并通信;示例性的,电子设备可以通过有线网络与服务器建立连接并通信。
70.在一种可能的实现方式中,电子设备接收用户上传的包含用户笔记的文本图片,将获得的文本图片发送至服务器,服务器按本发明提供的笔记总结生成方法生成用户的笔记总结,将生成的笔记总结发送至电子设备,电子设备对笔记总结进行展示。
71.在另一种可能的实现方式中,电子设备具有摄像头,其可通过拍摄获得包含用户笔记的文本图片,将获得的文本图片发送至服务器,服务器按本发明提供的笔记总结生成方法生成用户的笔记总结,将生成的笔记总结发送至电子设备,电子设备对笔记总结进行展示。
72.在另一种可能的实现方式中,本发明涉及的硬件架构可以包括:电子设备。电子设备为具有较强数据处理能力的设备。
73.示例性的,电子设备可以为任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品,例如,个人计算机、笔记本电脑、平板电脑、手机、智能电视、学习机等。
74.在一种可能的实现方式中,电子设备接收用户上传的包含用户笔记的文本图片,按本发明提供的笔记总结生成方法生成用户的笔记总结,进而对生成的笔记总结进行展示。
75.在另一种可能的实现方式中,电子设备具有摄像头,其可通过拍摄获得包含用户笔记的文本图片,电子设备获得文本图片后,按本发明提供的笔记总结生成方法生成用户的笔记总结,进而对生成的笔记总结进行展示。
76.本领域技术人员应能理解上述电子设备和服务器仅为举例,其它现有的或今后可能出现的电子设备或服务器如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
77.接下来通过下述实施例对本发明提供的笔记总结生成方法进行介绍。
78.请参阅图1,示出了本发明实施例提供的笔记总结生成方法的流程示意图,可以包括:
79.步骤s101:获取目标文本图片。
80.其中,目标文本图片中的内容包括原文本和用户笔记(比如用户书写的内容、用户对原文本做的标记等),可选的,目标文本图片中的内容还可以包括与原文本相关的图像。
81.步骤s102:从目标文本图片中分割出若干目标区域,并确定每个目标区域的类别。
82.其中,从目标文本图片中分割出的若干目标区域可以只包括文本区域,也可以包括文本区域和图像区域,其中,每个文本区域为原文本区域、用户书写区域、用户标记区域中的一种。
83.步骤s103:对分割出的每个文本区域进行文本识别,得到若干文本区域分别对应的识别结果。
84.在一种可能的实现方式中,可基于预先训练得到的文本识别模型对分割出的每个文本区域进行文本识别。
85.其中,文本识别模型采用多个标注有真实文本内容的训练文本图片训练得到。可选的,为了能够对用户书写区域中的文本内容进行较好识别,文本识别模型的多个训练文本图片中可以包括目标用户书写的文本的图片(比如,可让目标用户按要求书写文本,然后对目标用户书写的文本进行拍照,如此获得目标用户书写的文本的图片)。
86.需要说明的是,本实施例并不限定基于文本识别模型对每个文本区域进行文本识别,其它能够从文本区域识别出文本的实现方式同样适用于本发明。
87.步骤s104:以用户书写区域对应的识别结果和/或用户标记区域对应的识别结果为指导信息,结合原文本区域对应的识别结果,生成目标用户的笔记总结。
88.其中,原文本区域对应的识别结果包含的句子为原文句子,用户标记区域对应的识别结果包含的句子为用户标记的原文句子,其为重点句子,用户书写区域对应的识别结果中的句子为用户书写句子。
89.在一种可能的实现方式中,可以用户标记区域对应的识别结果为指导信息,同时结合原文本区域对应的识别结果,生成忠于原文的笔记总结。
90.在另一种可能的实现方式中,可以用户书写区域对应的识别结果为指导信息,或者,以用户书写区域对应的识别结果和用户标记区域对应的识别结果为指导信息,结合原文本区域对应的识别结果,生成更具个性化的笔记总结。
91.实际应用时,用户可根据具体需求选取笔记总结的生成策略,以获得所需的笔记总结。请参阅图2,图2示出了基于本发明提供的笔记总结生成方法生成的笔记总结的一示例。
92.上述内容提到,从目标文本图片中分割出的若干目标区域可以包括文本区域和图像区域,可选的,若从目标文本图片中分割出的若干目标区域包含图像区域,则在经由步骤s104生成目标用户的笔记总结后,可将从目标文本图片中分割出的图像区域融入生成的笔记总结中,融入图像区域后的笔记总结作为最终的笔记总结。
93.获得目标用户的笔记总结后,可对笔记总结进行展示。在对笔记总结进行显示时,可按用户选择的展示模式进行展示(可设置多种展示模式以供用户选择,比如,只展示文字、图文并茂展示)。另外,用户可在生成的笔记总结上进行修改,比如,补充新的见解与想法,修改不够准确的文本内容等。
94.本发明实施例提供的笔记总结生成方法,在获得包含目标用户的笔记的文本图片
即目标文本图片后,首先从目标文本图片中分割出若干目标区域(包含多种文本区域),接着对分割出的每个文本区域进行文本识别,得到若干文本区域分别对应的识别结果,最后以用户书写区域对应的识别结果和/或用户标记区域对应的识别结果为指导信息,结合原文本区域对应的识别结果,生成目标用户的笔记总结。本发明实施例提供的笔记总结生成方法可根据包含目标用户的笔记的文本图片自动生成目标用户的笔记总结,相比于人工的笔记整理方式,大大降低了耗时,提高了笔记整理的效率,同时避免人为因素带来的影响。
95.在本发明的另一实施例中,对上述实施例中的“步骤s102:从目标文本图片中分割出若干目标区域,并确定每个目标区域的类别”的具体实现过程进行介绍。
96.从目标文本图片中分割出若干目标区域,并确定每个目标区域的类别的实现方式有多种,本实施例提供两种可选的实现方式。
97.第一种实现方式:
98.基于预先训练得到的第一图片分割模型,从目标文本图片中分割出若干目标区域,并确定每个目标区域的类别。基于第一图片分割模型分割出的若干目标区域均为文本区域,每个目标区域为原文本区域、用户书写区域、用户标记区域中的一种。可选的,对于用户标记区域,可进一步进行用户重点标记区域、用户一般标记区域等类别的划分。
99.其中,第一图片分割模型采用多个标注出文本区域的位置和类别的训练文本图片训练得到。由于第一图片分割模型采用多个标注出文本区域的位置和类别的训练文本图片训练得到,因此,其具备从文本图片中分割出文本区域,并确定分割出的每个文本区域的类别的能力。
100.上述第一种实现方式只关注文本图片中的文本区域,不关注文本图片中的图像区域。
101.第二种实现方式:
102.基于预先训练得到的第二图片分割模型从目标文本图片中分割出若干目标区域,并确定每个目标区域的类别。基于第二图片分割模型分割出的每个目标区域为图像区域、原文本区域、用户书写区域、用户标记区域中的一种。可选的,对于用户标记区域,可进一步进行用户重点标记区域、用户一般标记区域等类别的划分。
103.其中,第二图片分割模型采用多个标注出文本区域的位置和类别以及图像区域的位置和类别的训练文本图片训练得到。由于第二图片分割模型采用标注出文本区域的位置和类别以及图像区域的位置和类别的训练文本图片训练得到,因此,其具备从文本图片中分割出文本区域和图像区域,并确定分割出的每个区域的类别的能力。
104.上述第二种实现方式不但关注文本图片中的文本区域,还关注文本图片中的图像区域。
105.为了获得性能较佳的图片分割模型,一般的思路是,获取大量有标注的训练文本图片,用大量有标注的训练文本图片训练得到图片分割模型,然而,实际情况是,对训练文本图片中的每个目标区域的位置和类别进行标注需要耗费大量的人力财力,因此,通常难以获得大量且高质量的标注数据,若直接使用高质量但少量的标注数据进行训练,得到的图片分割模型性能很差,有鉴于此,本发明提出如下策略:
106.基于多个标注有图片类别的训练图片预训练得到图像分类模型,图像分类模型中包括特征提取模块和分类任务模块,在预训练得到图像分类模型后,基于训练得到的图像
分类模型中的特征提取模块和图片分割任务模块构建初始的图片分割模型,进而利用少量注出目标区域的位置和类别的训练文本图片对初始的图片分割模型进行训练。其中,一训练图片标注的图片类别为如下类别中的一种或两种:只包含图像、只包含文本、包含图像和文本、无用户笔记、有用户笔记。
107.综上,本发明先利用粗标数据(标注图片类别的训练图片)预训练得到具有较好特征提取能力的特征提取模块,然后基于预训练得到的特征提取模块和图片分割任务模块构建初始的图片分割模型,接着利用精标数据(标注出每个目标区域的位置和类别的训练文本图片)对构建的图片分割模型进行微调,如此,既节省了时间和计算资源,又能获得性能较佳的图片分割模型。
108.需要说明的是,本实施例并不限定基于图片分割模型从目标文本图片中分割出若干目标区域,并确定每个目标区域的类别,其它能够从目标文本图片中分割出若干目标区域,并确定每个目标区域的类别的实现方式同样适用于本发明。
109.可选的,上述的特征提取模型可采用空洞空间金字塔池化aspp(atrous spatial pooling pyramid)模块。
110.aspp使用具有不同采样率的多个并行空洞卷积(atrous/dilated convolution)层,为每个采样率提取的特征在单独的分支中进一步处理,并融合以生成最终结果,aspp模块通过不同的空洞rate(rate为空洞卷积中参数,代表了空洞的大小)构建不同感受野的卷积核,用来获取多尺度物体信息。
111.空洞卷积用来解决在获取较大感受野的同时,不让特征图的分辨率下降太多的问题,因为分辨率损失太多会丢失许多关于图像边界的细节信息。空洞卷积的实际卷积核大小k和卷积的感受野rn计算公式如下所示:
112.k=k+(k-1)(r-1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0113][0114]
其中,k为原始卷积核大小,r为空洞卷积的rate,rn为本层的感受野,r
n-1
为上一层(前一层)的感受野,si表示第i层卷积或池化层的步长。
[0115]
可选的,为了能够提取到更为复杂、抽象的特征,可对aspp模块进行改进,比如,可将每个空洞卷积改进为深度空洞卷积和逐点卷积,并使用多层卷积,以提升特征提取能力,另外,可切换通道间融合和多尺度特征融合的顺序,以减小多尺度特征融合的深度操作,可分析卷积的计算分布,调整卷积核大小,以在不增加过多计算量的同时提升模块性能。
[0116]
需要说明的是,图片分割模型的特征提取模块提取到较为复杂、抽象的特征,使得任务分割模块能够更加准确地分割出每个目标区域,即图片分割模型能够更好的将用户书写部分和用户标注部分与原文进行分割并区分每个部分。
[0117]
在本发明的另一实施例中,对上述实施例中“步骤s104:以用户书写区域对应的识别结果和/或用户标记区域对应的识别结果为指导信息,结合原文本区域对应的识别结果,生成目标用户的笔记总结”的具体实现过程进行介绍。
[0118]
请参阅图3,示出了以用户书写区域对应的识别结果和/或用户标记区域对应的识别结果为指导信息,结合原文本区域对应的识别结果,生成目标用户的笔记总结的流程示意图,可以包括:
[0119]
步骤s301:获取第一文本集和第二文本集。
[0120]
在一种可能的实现方式中,第一文本集和第二文本集依次为第一句子集、第二句子集,其中,第一句子集包括原文本区域对应的识别结果中的每个原文句子,第二句子集包括用户标记区域对应的识别结果中的每个原文句子。
[0121]
示例性的,原文本区域对应的识别结果中的原文句子包括s1、s2、s3、s4、s5,则第一句子集s1={s1、s2、s3、s4、s5},用户标记区域对应的识别结果中的原文句子包括s2、s3,则第二句子集s2={s2、s3}。
[0122]
在另一种可能的实现方式中,第一文本集和第二文本集依次为第三句子集和第四句子集,其中,第三句子集包括用户书写区域对应的识别结果中的每个用户书写句子与原文本区域对应的识别结果中每个原文句子的拼接句子,第四句子集包括第三句子集中包含重点句子和/或要点提醒句子的拼接句子,重点句子为用户标记区域对应的识别结果中的原文句子,要点提醒句子为与用户书写句子对应的原文句子。
[0123]
示例性的,原文本区域对应的识别结果中的原文句子包括s1、s2、s3、s4、s5,用户标记区域对应的识别结果中的原文句子(即重点句子)包括s2、s3,用户书写区域对应的识别结果中的用户书写句子包括q1、q2,与用户书写句子对应的原文句子(即要点提醒句子)包括s5,则第三句子集s3={contact(q1,s1)、contact(q1,s2)、contact(q1,s3)、contact(q1,s4)、contact(q1,s5)、contact(q2,s1)、contact(q2,s2)、contact(q2,s3)、contact(q2,s4)、contact(q2,s5)},第四句子集s4={contact(q1,s2)、contact(q1,s3)、contact(q1,s5)、contact(q2,s2)、contact(q2,s3)、contact(q2,s5)}。
[0124]
步骤s302:获取第一文本集和第二文本集分别对应的篇章特征向量。
[0125]
其中,篇章特征向量为由对应文本集中的所有文本所组成的篇章的特征向量。
[0126]
步骤s303:基于第一文本集和第二文本集分别对应的篇章特征向量,生成目标用户的笔记总结。
[0127]
具体的,首先以第二文本集分别对应的篇章特征向量为依据,结合第一文本集对应的篇章特征向量,生成第二文本集中各文本分别对应的笔记总结,然后对第二文本集中各文本分别对应的笔记总结进行合并和处理,得到目标用户的笔记总结。
[0128]
更为具体的,针对第二文本集中待生成对应的笔记总结的目标文本,首先从第二文本集对应的篇章特征向量中,获取与目标文本相关的特征向量,作为目标文本对应的第一特征向量,然后根据目标文本对应的第一特征向量和第一文本集对应的篇章特征向量,确定生成目标文本对应的笔记总结所需的特征向量,作为目标文本对应的第二特征向量,最后根据目标文本对应的第二特征向量,生成目标文本对应的笔记总结,在获得第二文本集中各文本分别对应的笔记总结后,对第二文本集中各文本分别对应的笔记总结进行合并和处理,得到目标用户的笔记总结。
[0129]
需要说明的是,若第一文本集和第二文本集依次为第一句子集、第二句子集,则基于第一文本集和第二文本集分别对应的篇章特征向量,生成忠于原文的笔记总结,若第一文本集和第二文本集依次为第三句子集和第四句子集,则基于第一文本集和第二文本集分别对应的篇章特征向量,生成个性化的笔记总结。
[0130]
在上述实现过程的基础上,接下来给出生成忠于原文的笔记总结的一具体实例。
[0131]
请参阅图4,示出了生成忠于原文的笔记总结的一具体实例的流程示意图,可以包括:
[0132]
步骤s401:获取第一句子集和第二句子集。
[0133]
可将原文本区域对应的识别结果中的所有原文句子组成第一句子集,将用户标记区域对应的识别结果中的所有原文句子组成第二句子集。
[0134]
步骤s402:对第一句子集中的每个句子进行字级编码,以得到第一句子集中每个句子的句子表示向量。
[0135]
在一种可能的实现方式中,可基于预先训练得到的第一笔记总结生成模型,对第一句子集中的每个句子进行字级编码,以得到第一句子集中每个句子的句子表示向量。
[0136]
如图5所示,第一笔记总结生成模型可以包括字级编码器501,第一句子集中的每个句子输入字级编码器501进行编码,字级编码器501在字级别上对句子进行细致的理解,输出句子的字级编码结果。需要说明的是,在对第一句子集中的每个句子进行编码时,一般会在句子的首位设置[cls]标志,[cls]也会参与编码,在完成对每个句子的字级编码后,将[cls]的表示向量作为整个句子的句子表示向量(通过编码,[cls]位置的向量会包含整个句子的信息)。
[0137]
步骤s403a:将第一句子集中各句子的句子表示向量融合,融合后向量作为第一句子集的篇章表示向量。
[0138]
具体的,可将第一句子集中各句子的句子表示向量拼接,拼接后向量作为第一句子集的篇章表示向量。
[0139]
步骤s403b:将第二句子集中各句子的句子表示向量融合,融合后向量作为第二句子集的篇章表示向量。
[0140]
由于第二句子集中的句子为第一句子集中的部分句子,因此,在经由步骤s402获得第一句子集中每个句子的句子表示向量时,也获得了第二句子集中每个句子的句子表示向量。
[0141]
具体的,可将第二句子集中各句子的句子表示向量拼接,拼接后向量作为第二句子集的篇章表示向量。
[0142]
步骤s404a:对第一句子集的篇章表示向量进行句级编码,以得到第一句子集对应的篇章特征向量。
[0143]
步骤s404b:对第二句子集的篇章表示向量进行句级编码,以得到第二句子集对应的篇章特征向量。
[0144]
可基于第一笔记总结生成模型分别对第一句子集的篇章表示向量和第二句子集的篇章表示向量进行句级编码,以得到第一句子集对应的篇章特征向量和第二句子集对应的篇章特征向量。
[0145]
如图5所示,第一笔记总结生成模型可以包括句级编码器502,第一句子集的篇章表示向量输入句级编码器502进行编码,句级编码器502在句级别上对全文信息进行理解,进而输出第一句子集对应的篇章特征向量,类似的,第二句子集的篇章表示向量输入句级编码器502进行编码,得到第二句子集对应的篇章特征向量。
[0146]
步骤s405:以第二句子集对应的篇章特征向量为依据,结合第一句子集对应的篇章特征向量,生成第二句子集中各句子分别对应的笔记总结。
[0147]
具体的,可基于第一笔记总结生成模型,以第二句子集对应的篇章特征向量为依据,同时结合第一句子集对应的篇章特征向量,生成第二句子集中各句子分别对应的笔记
总结。
[0148]
如图5所示,第一笔记总结生成模型可以包括解码模块503,第一句子集和第二句子集分别对应的篇章特征向量输入解码模块503进行处理,更为具体的,解码模块503可以包括第一交叉注意力模块5031、第二交叉注意力模块5032、笔记总结预测模块5033,可将第二句子集对应的篇章特征向量输入第一交叉注意力模块5031进行交叉注意力计算,针对第二句子集中的每个句子,第一交叉注意力模块5031输出该句子对应的注意力向量,作为该句子对应的第一特征向量,该句子对应的第一特征向量与第一句子集对应的篇章特征向量输入第二交叉注意力模块5032进行交叉注意力计算,第二交叉注意力模块5032输出的注意力向量作为该句子对应的第二特征向量,最后以该句子对应的第二特征向量为依据,基于笔记总结预测模块5033预测该句子对应的笔记总结。
[0149]
步骤s406:对第二句子集中各文本分别对应的笔记总结进行合并和处理,得到忠于原文的笔记总结。
[0150]
其中,忠于原文的笔记总结包括原文的重要信息,最终生成的笔记总结的形式可以为条理性的层次型结构。
[0151]
上述的第一笔记总结生成模型采用采用多条标注有忠于原文的笔记总结的训练文本数据训练得到,每条训练文本数据包括从一训练文本图片中分割出的原文本区域对应的识别结果(原文本)和用户标记区域对应的识别结果(重点文本)。需要说明的是,标注人员在对训练文本数据进行标注时,会根据重点文本对原文本进行概括总结,以得到忠于原文且包含重要信息的笔记总结,笔记总结的形式可以为有条理性的层次型结构。
[0152]
具体的,第一笔记总结生成模型的训练过程包括:根据训练文本数据,获得第一句子集和第二句子集(第一句子集包含从训练文本图片中分割出的原文本区域对应的识别结果中的所有原文句子,第二句子集包含从训练文本图片中分割出的用户标记区域对应的识别结果中的所有原文句子),基于第一笔记总结生成模型对第一句子集和第二句子集进行处理以生成忠于原文的笔记总结,根据生成的笔记总结与训练文本图片标注的真实笔记总结确定第一笔记总结生成模型的预测损失,根据第一笔记总结生成模型的预测损失对第一笔记总结生成模型进行参数更新。采用不同的训练文本数据按上述过程进行多次迭代训练,直至满训练结束条件。
[0153]
接下来给出生成个性化的笔记总结的一具体实例。
[0154]
请参阅图6,示出了生成个性化的笔记总结的一具体实例的流程示意图,可以包括:
[0155]
步骤s601:获取第三句子集和第四句子集。
[0156]
可将用户书写区域对应的识别结果中的每个用户书写句子与原文本区域对应的识别结果中的每个原文句子进行拼接,由得到的拼接句子组成第三句子集,第四句子集包含第三句子集中包含重点句子和要点提醒句子的拼接句子组成。
[0157]
步骤s602:对第三句子集中的每个拼接句子进行字级编码,以得到第三句子集中每个拼接句子的句子表示向量。
[0158]
在一种可能的实现方式中,可基于预先训练得到的第二笔记总结生成模型,对第三句子集中的每个拼接句子进行字级编码,以得到第三句子集中每个拼接句子的句子表示向量。
[0159]
如图7所示,第二笔记总结生成模型可以包括字级编码器701,第三句子集中的每个拼接句子输入字级编码器701进行编码,字级编码器701在字级别上对拼接句子进行细致的理解,输出拼接句子的编码结果。需要说明的是,在对第三句子集中的每个拼接句子进行编码时,可在拼接句子的首位设置[cls]标志,[cls]也会参与编码,在完成对每个拼接句子的字级编码后,将[cls]的表示向量作为整个拼接句子的句子表示向量(通过编码,[cls]位置的向量会包含整个拼接句子的信息)。
[0160]
步骤s603a:将第三句子集中各拼接句子的句子表示向量融合,融合后向量作为第三句子集的篇章表示向量。
[0161]
具体的,可将第三句子集中各拼接句子的句子表示向量拼接,拼接后向量作为第三句子集的篇章表示向量。
[0162]
步骤s603b:将第四句子集中各拼接句子的句子表示向量融合,融合后向量作为第四句子集的篇章表示向量。
[0163]
具体的,可将第四句子集中各拼接句子的句子表示向量拼接,拼接后向量作为第四句子集的篇章表示向量。
[0164]
步骤s604a:结合第三句子集中各拼接句子分别对应的位置信息,对第三句子集的篇章表示向量进行句级编码,以得到第三句子集对应的篇章特征向量。
[0165]
为了获得较好的笔记总结生成效果,本实施例在对第三句子集的篇章表示向量进行句级编码时,引入第三句子集中各拼接句子分别对应的位置信息。
[0166]
需要说明的是,第三句子集中一拼接句子对应的位置信息包括组成该拼接句子的两个句子的相对位置信息,本发明将组成该拼接句子的两个句子所在的两个文本区域的相对位置信息作为组成该拼接句子的两个句子的相对位置信息。示例性的,拼接句子contact(q1,s3)对应的位置信息为q1所在的用户书写区域与s3所在的原文本区域的相对位置信息。
[0167]
其中,两个句子所在的两个文本区域的相对位置信息由两个句子所在的两个文本区域分别在目标文本图片中的位置确定,两个文本区域分别在目标文本图片中的位置可在对目标文本图片进行目标区域分割时确定。
[0168]
步骤s604b:结合第四句子集中各拼接句子分别对应的位置信息,对第四句子集的篇章表示向量进行句级编码,以得到第四句子集对应的篇章特征向量。
[0169]
与对第三句子集的篇章表示向量进行句级编码类似,在对第四句子集的篇章表示向量进行句级编码时,引入第四句子集中各拼接句子分别对应的位置信息,第四句子集中每个拼接句子对应的位置信息包括组成该拼接句子的两个句子所在的两个文本区域的相对位置信息。
[0170]
可基于第二笔记总结生成模型,结合第三句子集中各拼接句子分别对应的位置信息,对第三句子集的篇章表示向量进行句级编码,可基于第二笔记总结生成模型,结合第四句子集中各拼接句子分别对应的位置信息,对第四句子集的篇章表示向量进行句级编码。
[0171]
如图7所示,第二笔记总结生成模型可以包括句级编码器702,第三句子集中各拼接句子分别对应的位置信息以及第三句子集的篇章表示向量输入句级编码器702进行编码,句级编码器702输出第三句子集对应的篇章特征向量,类似的,第四句子集中各拼接句子分别对应的位置信息以及第四句子集的篇章表示向量输入句级编码器702进行编码,句
级编码器702输出第四句子集对应的篇章特征向量。
[0172]
可以理解的,用户书写的文本通常位于相关原文的附近,即,用户书写句子qi与原文句子sj越近,则二者之间的相关性越大,因此,句级编码器702在对篇章表示向量进行编码时,会根据用户书写句子qi与原文句子sj的位置,确定拼接句子contact(qi,sj)的注意力权重w
attn
(qi,sj),qi与sj的位置越近,注意力权重w
attn
(qi,sj)越大,反之,qi与sj的位置越远,注意力权重w
attn
(qi,sj)越小,在确定出注意力权重w
attn
(qi,sj)后,可按下式(3)对其进行归一化,将其转换到范围[0,1]内,另外,句级编码器702在编码时,还会根据输入的篇章表示向量确定拼接句子contact(qi,sj)的注意力得分score
attn
(qi,sj),在获得注意力权重w
attn
(qi,sj)的归一化结果后,可将w
attn
(qi,sj)的归一化结果与score
attn
(qi,sj)相乘,相乘结果作为拼接句子contact(qi,sj)最终的注意力得分,考虑到对注意力权重进行归一化会导致权重之间的差距可能过大,针对这种情况,可将注意力权重加1之后再与注意力得分相乘,即拼接句子contact(qi,sj)最终的注意力得分可表示为下式(4),句级编码器702在确定出各拼接句子最终的注意力得分后,会以各拼接句子最终的注意力得分为依据,确定最终的编码结果(即根据输入的篇章表示向量和最终的注意力得分确定编码结果)。
[0173][0174]
score
attn

(qi,sj)=(1+softmax(w
attn
(qi,sj)))*score
attn
(qi,sj)(4)
[0175]
需要说明的是,本发明将各拼接句子输入第二笔记总结生成模型进行编码,使得模型能够同时到原文和用户书写文本,进而能够获取二者之间的联系。
[0176]
步骤s605:以第四句子集对应的篇章特征向量为依据,结合第三句子集对应的篇章特征向量,生成第四句子集中各拼接句子分别对应的笔记总结。
[0177]
具体的,可基于第二笔记总结生成模型,以第四句子集对应的篇章特征向量为依据,同时结合第三句子集对应的篇章特征向量,生成第四句子集中各拼接句子分别对应的笔记总结。
[0178]
如图7所示,第二笔记总结生成模型可以包括解码模块703,第三句子集和第四句子集分别对应的篇章特征向量输入解码模块703进行处理,更为具体的,解码模块703可以包括第一交叉注意力模块7031、第二交叉注意力模块7032、笔记总结预测模块7033,可将第四句子集对应的篇章特征向量输入第一交叉注意力模块7031进行交叉注意力计算,针对第四句子集中的每个拼接句子,第一交叉注意力模块7031输出该拼接句子对应的注意力向量,作为该拼接句子对应的第一特征向量,该拼接句子对应的第一特征向量与第三句子集对应的篇章特征向量输入第二交叉注意力模块7032进行交叉注意力计算,第二交叉注意力模块7032输出的注意力向量作为该拼接句子对应的第二特征向量,最后以该拼接句子对应的第二特征向量为依据,基于笔记总结预测模块7033预测该拼接句子对应的笔记总结。
[0179]
需要说明的是,本发明输入解码器的特征包含了重点语句和要点提醒语句的相关特征,重点语句和要点提醒语句的相关特征的输入使得解码器既关注了原文中的重点内容,从而保证没有遗漏,又关注到了目标用户的个人记录,从而做到个性化。
[0180]
步骤s606:对第四句子集中各拼接句子分别对应的笔记总结进行合并和处理,得到个性化的笔记总结。
[0181]
其中,个性化的笔记总结包括原文的重要信息、目标用户个人关注及书写的信息,
最终生成的笔记总结的形式可以为条理性的层次型结构。
[0182]
上述的第二笔记总结生成模型采用多条标注有个性化的笔记总结的训练文本数据训练得到,第二笔记总结生成模型的每条训练文本数据包括从一训练文本图片中分割出的原文本区域对应的识别结果、用户书写区域对应的识别结果和用户标记区域对应的识别结果,需要说明的是,每条训练数据除了标注个性化的笔记总结外,还标注用户书写句子对应的原文句子。需要说明的是,标注人员在对训练文本数据进行标注时,会阅读用户书写的内容与用户标记的内容,了解用户的目的和关注点,并在原文中标注出用户书写的句子在原文中对应的句子(即要点提醒句子),最后,会根据用户书写的句子、用户标记的句子(重点句子)、用户书写的句子在原文中对应的句子(要点提醒句子),同时结合原文句子确定个性化的笔记总结,个性化的笔记总结可以包括原文的重要信息、用户个人关注及书写的信息,个性化的笔记总结的形式可以为有条理性的层次型。
[0183]
可选的,第二笔记总结生成模型的多条训练文本数据可以包括多条干净的训练文本数据,以及对多条干净的训练文本数据进行加噪得到的加噪训练文本数据,在对干净的训练文本数据进行加噪时,可对训练文本数据中用户书写的部分进行加噪(比如同义词替换、词片段删除、词片段乱序等),加噪训练文本数据的引入一方面能够扩充数据量,另一方面能够提升模型的训练效果。当然,第二笔记总结生成模型也可只利用多条干净的训练文本数据训练。
[0184]
具体的,第二笔记总结生成模型的训练过程包括:基于训练文本数据,获得第三句子集和第四句子集(第三句子集包含从训练文本图片中分割出的用户书写区域对应的识别结果中的每个句子与从训练文本图片中分割出的原文本区域对应的识别结果中的每个句子的拼接句子,第四句子集包括第三句子集中包含重点句子和要点提醒句子的拼接句子),基于第二笔记总结生成模型对第三句子集和第四句子集进行处理以生成个性化的笔记总结,根据生成的笔记总结与训练文本图片标注的真实笔记总结确定第二笔记总结生成模型的预测损失,根据第二笔记总结生成模型的预测损失对第二笔记总结生成模型进行参数更新。采用不同的训练文本数据按上述过程对第二笔记总结生成模型进行多次迭代训练,直至满训练结束条件。
[0185]
本发明实施例还提供了一种笔记总结生成装置,下面对本发明实施例提供的笔记总结生成装置进行描述,下文描述的笔记总结生成装置与上文描述的笔记总结生成方法可相互对应参照。
[0186]
请参阅图8,示出了本发明实施例提供的笔记总结生成装置的结构示意图,该笔记总结生成装置可以包括:图片获取模块801、图片分割模块802,文本识别模块803和笔记总结生成模块804。
[0187]
图片获取模块801,用于获取包含目标用户的笔记的文本图片,作为目标文本图片。
[0188]
图片分割模块802,用于从所述目标文本图片中分割出若干目标区域,并确定每个目标区域的类别,其中,所述若干目标区域包括若干文本区域,每个文本区域为原文本区域、用户书写区域、用户标记区域中的一种。
[0189]
文本识别模块803,用于对分割出的每个文本区域进行文本识别,得到所述若干文本区域分别对应的识别结果。
[0190]
笔记总结生成模块804,用于以所述用户书写区域对应的识别结果和/或所述用户标记区域对应的识别结果为指导信息,结合所述原文本区域对应的识别结果,生成所述目标用户的笔记总结。
[0191]
可选的,若干目标区域还包括若干图像区域。本发明实施例提供的笔记总结生成装置还可以包括:图像区域添加模块。
[0192]
图像区域添加模块,用于在笔记总结生成模块804生成的笔记总结中融入所述若干图像区域。
[0193]
可选的,图片分割模块802在从所述目标文本图片中分割出若干目标区域,并确定每个目标区域的类别时,具体用于:
[0194]
基于预先训练得到的图片分割模型,从所述目标文本图片中分割出若干目标区域,并确定每个目标区域的类别;
[0195]
其中,每个目标区域为图像区域、原文本区域、用户书写区域、用户标记区域中的一种,所述图片分割模型采用标注出若干个目标区域的位置和类别的训练文本图片对初始的图片分割模型进行训练得到。
[0196]
可选的,所述初始的图像分割模型包括特征提取模块;所述初始的图片分割模型中的特征提取模块采用基于标注有图片类别的训练图片训练得到图像分类模型中的特征提取模块;其中,一训练图片标注的图片类别为如下类别中的一种或两种:只包含图像、只包含文本、包含图像和文本、无用户笔记、有用户笔记。
[0197]
可选的,笔记总结生成模块804在以所述用户书写区域对应的识别结果和/或所述用户标记区域对应的识别结果为指导信息,结合所述原文本区域对应的识别结果,生成所述目标用户的笔记总结时,具体用于:
[0198]
获取第一文本集和第二文本集,其中,所述第一文本集和所述第二文本集依次为第一句子集、第二句子集,或者,依次为第三句子集和第四句子集,所述第一句子集包括所述原文本区域对应的识别结果中的每个原文句子,所述第二句子集包括所述用户标记区域对应的识别结果中的每个原文句子,所述第三句子集包括所述用户书写区域对应的识别结果中的每个用户书写句子与所述原文本区域对应的识别结果中每个原文句子的拼接句子,所述第四句子集包括所述第三句子集中包含重点句子和/或要点提醒句子的拼接句子,所述重点句子为所述用户标记区域对应的识别结果中的原文句子,所述要点提醒句子为与用户书写句子对应的原文句子;
[0199]
获取所述第一文本集和所述第二文本集分别对应的篇章特征向量,其中,所述篇章特征向量为由对应文本集中的所有文本所组成的篇章的特征向量;
[0200]
基于所述第一文本集和所述第二文本集分别对应的篇章特征向量,生成所述目标用户的笔记总结。
[0201]
可选的,笔记总结生成模块804在获取所述第一文本集和所述第二文本集分别对应的篇章特征向量时,具体用于:
[0202]
针对所述第一文本集和所述第二文本集中待确定对应的篇章特征向量的目标文本集:
[0203]
对所述目标文本集中的每个文本进行字级编码,以得到所述目标文本集中每个文本的句子表示向量;
[0204]
将所述目标文本集中各文本的句子表示向量融合,融合后向量作为所述目标文本集的篇章表示向量;
[0205]
对所述目标文本集的篇章表示向量进行句级编码,得到所述目标文本集对应的篇章特征向量。
[0206]
若所述第一文本集和所述第二文本集依次为第三句子集和第四句子集,则笔记总结生成模块804在对所述目标文本集的篇章表示向量进行句级编码时,具体用于:
[0207]
结合所述目标文本集中各文本分别对应的位置信息,对所述目标文本集的篇章表示向量进行句级编码,其中,一文本对应的位置信息包括组成该文本的两个句子所在的两个文本区域的相对位置信息。
[0208]
可选的,笔记总结生成模块804在基于所述第一文本集和所述第二文本集分别对应的篇章特征向量,生成所述目标用户的笔记总结时,具体用于:
[0209]
以所述第二文本集对应的篇章特征向量为依据,结合所述第一文本集对应的篇章特征向量,生成所述第二文本集中各文本分别对应的笔记总结;
[0210]
对所述第二文本集中各文本分别对应的笔记总结进行合并和处理,得到所述目标用户的笔记总结。
[0211]
可选的,笔记总结生成模块804在以所述第二文本集对应的篇章特征向量为依据,结合所述第一文本集对应的篇章特征向量,生成所述第二文本集中各文本分别对应的笔记总结时,具体用于:
[0212]
针对所述第二文本集中待生成对应的笔记总结的目标文本:
[0213]
从所述第二文本集对应的篇章特征向量中,获取与所述目标文本相关的特征向量,作为所述目标文本对应的第一特征向量;
[0214]
根据所述目标文本对应的第一特征向量和所述第一文本集对应的篇章特征向量,确定生成所述目标文本对应的笔记总结所需的特征向量,作为所述目标文本对应的第二特征向量;
[0215]
根据所述目标文本对应的第二特征向量,生成所述目标句子对应的笔记总结。
[0216]
可选的,笔记总结生成模块804在以所述用户标记区域对应的识别结果为指导信息,结合所述原文本区域对应的识别结果,生成所述目标用户的笔记总结时,具体用于:
[0217]
基于预先训练得到的第一笔记总结生成模型,对所述用户标记区域对应的识别结果和所述原文本区域对应的识别结果进行处理,以得到忠于原文的笔记总结,其中,所述第一笔记总结生成模型采用多条标注有忠于原文的笔记总结的训练文本数据训练得到,每条训练文本数据包括从一训练文本图片中分割出的原文本区域对应的识别结果和用户标记区域对应的识别结果。
[0218]
可选的,笔记总结生成模块804在以所述用户书写区域对应的识别结果和所述用户标记区域对应的识别结果为指导信息,结合所述原文本区域对应的识别结果,生成所述目标用户的笔记总结时,具体用于:
[0219]
基于预先训练得到的第二笔记总结生成模型,对所述用户书写区域对应的识别结果、所述用户标记区域对应的识别结果和所述原文本区域对应的识别结果进行处理,以得到个性化的笔记总结,其中,所述第二笔记总结生成模型采用多条标注有个性化的笔记总结的训练文本数据训练得到,每条训练文本数据包括从一训练文本图片中分割出的用户书
写区域对应的识别结果、用户标记区域对应的识别结果和原文本区域对应的识别结果。
[0220]
本发明实施例提供的笔记总结生成装置,在获得包含目标用户的笔记的文本图片即目标文本图片后,首先从目标文本图片中分割出若干目标(包含多种文本区域),接着对分割出的每个文本区域进行文本识别,得到若干文本区域分别对应的识别结果,最后以用户书写区域对应的识别结果和/或用户标记区域对应的识别结果为指导信息,结合原文本区域对应的识别结果,生成目标用户的笔记总结。本发明实施例提供的笔记总结生成装置可根据包含目标用户的笔记的文本图片自动生成目标用户的笔记总结,相比于人工的笔记整理方式,大大降低了耗时,提高了笔记整理的效率,同时避免人为因素带来的影响。
[0221]
本发明实施例还提供了一种笔记总结生成设备,请参阅图9,示出了该笔记总结生成设备的结构示意图,该笔记总结生成设备可以包括:处理器901、通信接口902、存储器903和通信总线904;
[0222]
在本发明实施例中,处理器901、通信接口902、存储器903、通信总线904的数量为至少一个,且处理器901、通信接口902、存储器903通过通信总线904完成相互间的通信;
[0223]
处理器901可能是一个中央处理器cpu,或者是特定集成电路asic(application speciiic integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
[0224]
存储器903可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
[0225]
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
[0226]
获取包含目标用户的笔记的文本图片,作为目标文本图片;
[0227]
从所述目标文本图片中分割出若干目标区域,并确定每个目标区域的类别,其中,所述若干目标区域包括若干文本区域,每个文本区域为原文本区域、用户书写区域、用户标记区域中的一种;
[0228]
对分割出的每个文本区域进行文本识别,得到所述若干文本区域分别对应的识别结果;
[0229]
以所述用户书写区域对应的识别结果和/或所述用户标记区域对应的识别结果为指导信息,结合所述原文本区域对应的识别结果,生成所述目标用户的笔记总结。
[0230]
可选的,所述程序的细化功能和扩展功能可参照上文描述。
[0231]
本发明实施例还提供了一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
[0232]
获取包含目标用户的笔记的文本图片,作为目标文本图片;
[0233]
从所述目标文本图片中分割出若干目标区域,并确定每个目标区域的类别,其中,所述若干目标区域包括若干文本区域,每个文本区域为原文本区域、用户书写区域、用户标记区域中的一种;
[0234]
对分割出的每个文本区域进行文本识别,得到所述若干文本区域分别对应的识别结果;
[0235]
以所述用户书写区域对应的识别结果和/或所述用户标记区域对应的识别结果为指导信息,结合所述原文本区域对应的识别结果,生成所述目标用户的笔记总结。
[0236]
可选的,所述程序的细化功能和扩展功能可参照上文描述。
[0237]
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0238]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
[0239]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

技术特征:
1.一种笔记总结生成方法,其特征在于,包括:获取包含目标用户的笔记的文本图片,作为目标文本图片;从所述目标文本图片中分割出若干目标区域,并确定每个目标区域的类别,其中,所述若干目标区域包括若干文本区域,每个文本区域为原文本区域、用户书写区域、用户标记区域中的一种;对分割出的每个文本区域进行文本识别,得到所述若干文本区域分别对应的识别结果;以所述用户书写区域对应的识别结果和/或所述用户标记区域对应的识别结果为指导信息,结合所述原文本区域对应的识别结果,生成所述目标用户的笔记总结。2.根据权利要求1所述的笔记总结生成方法,其特征在于,所述若干目标区域还包括若干图像区域;所述方法还包括:在生成的笔记总结中融入所述若干图像区域。3.根据权利要求2所述的笔记总结生成方法,其特征在于,所述从所述目标文本图片中分割出若干目标区域,包括:基于预先训练得到的图片分割模型,从所述目标文本图片中分割出若干目标区域,并确定每个目标区域的类别;其中,每个目标区域为图像区域、原文本区域、用户书写区域、用户标记区域中的一种,所述图片分割模型采用标注出若干个目标区域的位置和类别的训练文本图片对初始的图片分割模型进行训练得到。4.根据权利要求3所述的笔记总结生成方法,其特征在于,所述初始的图像分割模型包括特征提取模块;所述初始的图片分割模型中的特征提取模块采用基于标注有图片类别的训练图片训练得到图像分类模型中的特征提取模块;其中,一训练图片标注的图片类别为如下类别中的一种或两种:只包含图像、只包含文本、包含图像和文本、无用户笔记、有用户笔记。5.根据权利要求1~4中任一项所述的笔记总结生成方法,其特征在于,所述以所述用户书写区域对应的识别结果和/或所述用户标记区域对应的识别结果为指导信息,结合所述原文本区域对应的识别结果,生成所述目标用户的笔记总结,包括:获取第一文本集和第二文本集,其中,所述第一文本集和所述第二文本集依次为第一句子集、第二句子集,或者,依次为第三句子集和第四句子集,所述第一句子集包括所述原文本区域对应的识别结果中的每个原文句子,所述第二句子集包括所述用户标记区域对应的识别结果中的每个原文句子,所述第三句子集包括所述用户书写区域对应的识别结果中的每个用户书写句子与所述原文本区域对应的识别结果中每个原文句子的拼接句子,所述第四句子集包括所述第三句子集中包含重点句子和/或要点提醒句子的拼接句子,所述重点句子为所述用户标记区域对应的识别结果中的原文句子,所述要点提醒句子为与用户书写句子对应的原文句子;获取所述第一文本集和所述第二文本集分别对应的篇章特征向量,其中,所述篇章特征向量为由对应文本集中的所有文本所组成的篇章的特征向量;
基于所述第一文本集和所述第二文本集分别对应的篇章特征向量,生成所述目标用户的笔记总结。6.根据权利要求5所述的笔记总结生成方法,其特征在于,所述获取所述第一文本集和所述第二文本集分别对应的篇章特征向量,包括:针对所述第一文本集和所述第二文本集中待确定对应的篇章特征向量的目标文本集:对所述目标文本集中的每个文本进行字级编码,以得到所述目标文本集中每个文本的句子表示向量;将所述目标文本集中各文本的句子表示向量融合,融合后向量作为所述目标文本集的篇章表示向量;对所述目标文本集的篇章表示向量进行句级编码,得到所述目标文本集对应的篇章特征向量。7.根据权利要求6所述的笔记总结生成方法,其特征在于,若所述第一文本集和所述第二文本集依次为第三句子集和第四句子集,则所述对所述目标文本集的篇章表示向量进行句级编码,包括:结合所述目标文本集中各文本分别对应的位置信息,对所述目标文本集的篇章表示向量进行句级编码,其中,一文本对应的位置信息包括组成该文本的两个句子所在的两个文本区域的相对位置信息。8.根据权利要求5所述的笔记生成方法,其特征在于,所述基于所述第一文本集和所述第二文本集分别对应的篇章特征向量,生成所述目标用户的笔记总结,包括:以所述第二文本集对应的篇章特征向量为依据,结合所述第一文本集对应的篇章特征向量,生成所述第二文本集中各文本分别对应的笔记总结;对所述第二文本集中各文本分别对应的笔记总结进行合并和处理,得到所述目标用户的笔记总结。9.根据权利要求8所述的笔记总结生成方法,其特征在于,所述以所述第二文本集对应的篇章特征向量为依据,结合所述第一文本集对应的篇章特征向量,生成所述第二文本集中各文本分别对应的笔记总结,包括:针对所述第二文本集中待生成对应的笔记总结的目标文本:从所述第二文本集对应的篇章特征向量中,获取与所述目标文本相关的特征向量,作为所述目标文本对应的第一特征向量;根据所述目标文本对应的第一特征向量和所述第一文本集对应的篇章特征向量,确定生成所述目标文本对应的笔记总结所需的特征向量,作为所述目标文本对应的第二特征向量;根据所述目标文本对应的第二特征向量,生成所述目标句子对应的笔记总结。10.根据权利要求1所述的笔记总结生成方法,其特征在于,以所述用户标记区域对应的识别结果为指导信息,结合所述原文本区域对应的识别结果,生成所述目标用户的笔记总结,包括:基于预先训练得到的第一笔记总结生成模型,对所述用户标记区域对应的识别结果和所述原文本区域对应的识别结果进行处理,以得到忠于原文的笔记总结,其中,所述第一笔记总结生成模型采用多条标注有忠于原文的笔记总结的训练文本数据训练得到,每条训练
文本数据包括从一训练文本图片中分割出的原文本区域对应的识别结果和用户标记区域对应的识别结果;以所述用户书写区域对应的识别结果和所述用户标记区域对应的识别结果为指导信息,结合所述原文本区域对应的识别结果,生成所述目标用户的笔记总结,包括:基于预先训练得到的第二笔记总结生成模型,对所述用户书写区域对应的识别结果、所述用户标记区域对应的识别结果和所述原文本区域对应的识别结果进行处理,以得到个性化的笔记总结,其中,所述第二笔记总结生成模型采用多条标注有个性化的笔记总结的训练文本数据训练得到,每条训练文本数据包括从一训练文本图片中分割出的用户书写区域对应的识别结果、用户标记区域对应的识别结果和原文本区域对应的识别结果。11.一种笔记总结生成装置,其特征在于,包括:图片获取模块、图片分割模块,文本识别模块和笔记总结生成模块;所述图片获取模块,用于获取包含目标用户的笔记的文本图片,作为目标文本图片;所述图片分割模块,用于从所述目标文本图片中分割出若干目标区域,并确定每个目标区域的类别,其中,所述若干目标区域包括若干文本区域,每个文本区域为原文本区域、用户书写区域、用户标记区域中的一种;所述文本识别模块,用于对分割出的每个文本区域进行文本识别,得到所述若干文本区域分别对应的识别结果;所述笔记总结生成模块,用于以所述用户书写区域对应的识别结果和/或所述用户标记区域对应的识别结果为指导信息,结合所述原文本区域对应的识别结果,生成所述目标用户的笔记总结。12.一种笔记总结生成设备,其特征在于,包括:存储器和处理器;所述存储器,用于存储程序;所述处理器,用于执行所述程序,实现如权利要求1~10中任一项所述的笔记总结生成方法的各个步骤。13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~10中任一项所述的笔记总结生成方法的各个步骤。

技术总结
本发明提供了一种笔记总结生成方法、装置、设备及存储介质,方法包括:获取目标文本图片;从目标文本图片中分割出若干目标区域,并确定每个目标区域的类别,其中,若干目标区域包括若干文本区域,每个文本区域为原文本区域、用户书写区域、用户标记区域中的一种;对分割出的每个文本区域进行文本识别,得到若干文本区域分别对应的识别结果;以用户书写区域对应的识别结果和/或用户标记区域对应的识别结果为指导信息,结合原文本区域对应的识别结果,生成目标用户的笔记总结。本发明可根据文本图片自动生成用户的笔记总结,相比于人工的笔记整理方式,大大降低了耗时,提高了笔记整理的效率,同时避免人为因素带来的影响。同时避免人为因素带来的影响。同时避免人为因素带来的影响。


技术研发人员:刘超凡 孔常青 万根顺 熊世富 高建清 潘嘉 刘聪
受保护的技术使用者:科大讯飞股份有限公司
技术研发日:2022.12.26
技术公布日:2023/8/24
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐