一种数据处理的方法、装置、系统、设备及可读存储介质与流程

未命名 08-27 阅读:221 评论:0


1.本发明涉及计算机领域,并且更具体地涉及一种数据处理的方法、装置、系统、设备及可读存储介质。


背景技术:

2.近年来,互联网上面的多模态数据越来越多,其中包括文本数据、图像数据等,而这些数据都以html(hypertext markup language,超文本标记语言)网页的形式存在,如何从这些html网页中通过数据清洗获得文本数据和图像数据以用于人工智能模型的训练和推理已成为热门的研究方向。
3.现有技术中的文本抽取技术是提取html中的所有文本数据,其中包含了垃圾数据,比如一些超链接标题和低质量文本,并且文本抽取技术只支持提取文本数据,不支持提取图像数据。现有技术中的图像的抽取一般是通过html标签“img”来进行提取的,html图像抽取技术只能抽取图像数据,不能抽取文本数据。即使使用上述两种方法分别从同一个html网页中提取文本和图像,也无法将提取的数据关联起来,即不知道文本数据中的某一个段落是和哪张图像相关的。


技术实现要素:

4.有鉴于此,本发明实施例的目的在于提出一种数据处理的方法、装置、系统、设备及可读存储介质,通过使用本发明的技术方案,能够在网页中提取高质量的文本数据,能够在网页中提取高质量的图像数据,能够使提取出的文本数据和图像数据的顺序与页面中的顺序保持一致。
5.基于上述目的,本发明的实施例的一个方面提供了一种数据处理的方法,包括以下步骤:获取超文本标记语言文章,并将超文本标记语言文章进行预处理;将预处理后的超文本标记语言文章转化为带有预设标签的预设格式文档;以所述预设标签为节点计算节点的得分;基于计算的得分获取最优父节点,并基于最优父节点提取文本段落和图像段落;将提取的文本段落和图像段落组合成新的文章。
6.根据本发明的一个实施例,所述以所述预设标签为节点计算节点的得分的步骤包括:获取超文本标记语言文章中对应于预设标签的节点,并将节点按层级排序。
7.根据本发明的一个实施例,所述获取超文本标记语言文章中对应于预设标签的节点,并将节点按层级排序的步骤包括:获取超文本标记语言文章中标签为预设标签组中的标签的节点,并将节点加入到节点列表中并按层级排序。
8.根据本发明的一个实施例,还包括:
对节点列表中的节点的文本进行分词,并统计停用词数量;响应于停用词数量小于等于第一预设值,将对应节点在节点列表中删除。
9.根据本发明的一个实施例,还包括:基于预设公式计算节点列表中每个节点的链接密集度。
10.根据本发明的一个实施例,所述基于预设公式计算节点列表中每个节点的链接密集度的步骤包括:基于以下公式计算链接密集度:链接密集度=节点下的链接数量*节点下所有链接的文本连接起来进行分词后的分词数量/节点的文本分词数量。
11.根据本发明的一个实施例,还包括:响应于链接密集度大于第二预设值,将对应节点在节点列表中删除。
12.根据本发明的一个实施例,所述以所述预设标签为节点计算节点的得分的步骤包括:计算节点列表中的节点数量,初始化增强参数,初始化底层节点数量;顺序选取节点列表中的每个节点,并初始化增强分数;判断节点数量是否大于第三预设值;响应于节点数量不大于第三预设值,计算所选取节点的文本的停用词数量,并基于停用词数量和增强分数计算所述选取节点的父节点的得分,并将所述父节点的得分加到父节点的总得分中;基于父节点的得分计算节点的父节点的父节点的得分,并将所述父节点的父节点的得分加到父节点的父节点的总得分中;响应于所述选取节点的父节点没有在节点列表中,将所述选取节点的父节点加入到节点列表中;响应于所述选取节点的父节点的父节点没有在节点列表中,将所述选取节点的父节点的父节点加入到节点列表中;响应于所述选取节点不是节点列表中最后一个节点,重复上述步骤。
13.根据本发明的一个实施例,所述判断节点数量是否大于第三预设值的步骤之前还包括:更新增强分数和增强参数。
14.根据本发明的一个实施例,所述更新增强分数和增强参数的步骤包括:将增强分数更新为1/当前增强参数*50;将增强参数更新为当前增强参数加1。
15.根据本发明的一个实施例,还包括:响应于节点数量大于第三预设值,判断节点数量减节点序号是否小于等于底层节点数量;响应于节点数量减节点序号小于等于底层节点数量,更新增强分数。
16.根据本发明的一个实施例,所述更新增强分数的步骤包括:根据公式:(底层节点数量

(节点数量减节点序号))2计算更新后的增强分数。
17.根据本发明的一个实施例,还包括:判断abs(增强得分)是否大于40;
响应于abs(增强得分)大于40,将增强得分更新为5。
18.根据本发明的一个实施例,所述基于计算的得分获取最优父节点,并基于最优父节点提取文本段落和图像段落的步骤包括:将得分最高的节点定义为最优父节点;从最优父节点中提取文本段落并记录文本段落的xml路径语言;从最优父节点中提取图像段落并记录图像段落的xml路径语言。
19.根据本发明的一个实施例,所述将提取的文本段落和图像段落组合成新的文章的步骤包括:删除文本段落中的超文本标记语言标签,并过滤文本段落中的敏感词;按照文本段落的xml路径语言和图像段落的xml路径语言将文本段落和图像段落组合成新的文章。
20.根据本发明的一个实施例,所述获取超文本标记语言文章的步骤包括:从开源网页数据集中下载预设类型的文件;根据预设分割标志将预设类型的文件分割成若干个超文本标记语言文章。
21.根据本发明的一个实施例,所述将超文本标记语言文章进行预处理的步骤包括:根据超文本标记语言文章的预设字段获取超文本标记语言文章的语言。
22.根据本发明的一个实施例,所述将超文本标记语言文章进行预处理的步骤包括:响应于超文本标记语言文章的语言为预设类型语言,使用预设编码方式将文章进行编码转换。
23.根据本发明的一个实施例,所述将超文本标记语言文章进行预处理的步骤包括:删除文章中的预设置的内容;将文章中的第一预设标签替换为第二预设标签;删除文章中的预定义的垃圾内容的标签。
24.根据本发明的一个实施例,所述将预处理后的超文本标记语言文章转化为带有预设标签的预设格式文档的步骤包括:将超文本标记语言文章转化为文档对象模型格式的文档。
25.本发明的实施例的另一个方面,还提供了一种数据处理的装置,装置包括:预处理模块,所述预处理模块配置为获取超文本标记语言文章,并将超文本标记语言文章进行预处理;转换模块,所述转换模块配置为将预处理后的超文本标记语言文章转化为带有预设标签的预设格式文档;计算模块,所述计算模块配置为以所述预设标签为节点计算节点的得分;提取模块,所述提取模块配置为基于计算的得分获取最优父节点,并基于最优父节点提取文本段落和图像段落;组合模块,所述组合模块配置为将提取的文本段落和图像段落组合成新的文章。
26.本发明的实施例的另一个方面,还提供了一种计算机设备,该计算机设备包括:至少一个处理器;以及存储器,存储器存储有可在处理器上运行的计算机指令,指令由处理器执行时实现上述任意一项方法的步骤。
27.本发明的实施例的另一个方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述任意一项方法的步骤。
28.本发明具有以下有益技术效果:本发明实施例提供的数据处理的方法,通过获取超文本标记语言文章,并将超文本标记语言文章进行预处理;将预处理后的超文本标记语言文章转化为带有预设标签的预设格式文档;以所述预设标签为节点计算节点的得分;基于计算的得分获取最优父节点,并基于最优父节点提取文本段落和图像段落;将提取的文本段落和图像段落组合成新的文章的技术方案,能够在网页中提取高质量的文本数据,能够在网页中提取高质量的图像数据,能够使提取出的文本数据和图像数据的顺序与页面中的顺序保持一致。
附图说明
29.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
30.图1为根据本发明一个实施例的数据处理的方法的示意性流程图;图2为根据本发明一个实施例的数据处理过程的示意图;图3为根据本发明一个实施例的节点分布的示意图;图4为根据本发明一个实施例的最优父节点计算过程的示意图;图5为根据本发明一个实施例的数据处理后文章中各段落的排布的示意图;图6为根据本发明一个实施例的数据处理的装置的示意图;图7为根据本发明一个实施例的计算机设备的示意图;图8为根据本发明一个实施例的计算机可读存储介质的示意图。
具体实施方式
31.为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
32.基于上述目的,本发明的实施例的第一个方面,提出了一种数据处理的方法的一个实施例。图1示出的是该方法的示意性流程图。
33.如图1中所示,该方法可以包括以下步骤:s1获取超文本标记语言文章,并将超文本标记语言文章进行预处理。超文本标记语言文章是将一个html网页称为一篇文章,也可以称为html文章,获取html文章首先进行数据下载,数据源是common crawl开源的网页数据集,可以通过下载程序(mdcs 2.0的一个模块)下载common crawl中的数据集。每一个common crawl的warc文件中包含多个html网页,html网页之间有特殊的分割标志,例如“warc-type: response”,可以根据分割标志将warc文件分割成多个html网页,并将每个html网页称为一篇文章。获取到html文章后需要对其进行预处理,预处理包括语言过滤与编码转换,即根据每篇文章中的“languages-cld2”字段获取文章的语言,只保留此字段为中文的文章,然后将文章转换为同一种编码方式,例如以utf-8的编码方式进行编码,注意,本发明的实施例以中文的文章为例,其他语言
的文章都可以使用本发明的方法。预处理还包括html文章的清洗,即删除文章中的javascript脚本以及css相关内容,并将“div”等标签替换为“p”标签,以及去除一些id、class包含垃圾内容的标签。
34.s2将预处理后的超文本标记语言文章转化为带有预设标签的预设格式文档。举例来说,预处理完成后将html文章转化为dom文档。超文本标记语言文章中带有例如“p”标签,“div”标签等标签,每个标签对应有相应的内容,例如“p”标签对应文本段落。在超文本标记语言文章转化为dom文档后,上述的标签还存在与dom文档中,dom文档中每个节点以上述标签为标识。
35.s3以所述预设标签为节点计算节点的得分。提取出对应于预设标签的节点,并计算节点的得分。
36.s4基于计算的得分获取最优父节点,并基于最优父节点提取文本段落和图像段落。将得分最高的节点定义为最优父节点,从最优父节点中提取文本段落并记录文本段落的xml路径语言,并从最优父节点中提取图像段落并记录图像段落的xml路径语言,本发明中的父节点必须包括文本段落和图像段落,文本段落和图像段落可以作为父节点的子节点。
37.s5将提取的文本段落和图像段落组合成新的文章。删除提取出的文本段落中的超文本标记语言标签,并过滤文本段落中的敏感词,按照记录的文本段落的xml路径语言和图像段落的xml路径语言将文本段落和图像段落组合成新的文章。然后可以进行人工抽样校验,通过人工评估数据清洗后文本的质量以及文本与图像相关度来调整算法的参数和处理细节,最终将数据进行存储,整体过程如图2所示。
38.通过使用本发明的技术方案,能够在网页中提取高质量的文本数据,能够在网页中提取高质量的图像数据,能够使提取出的文本数据和图像数据的顺序与页面中的顺序保持一致。
39.在本发明的一个优选实施例中,以所述预设标签为节点计算节点的得分包括:获取超文本标记语言文章中对应于预设标签的节点,并将节点按层级排序。本发明中的预设标签包括但不限于"p", "td", "pre", "h1", "h2", "h3", "h4", "h5", "h6", "blockquote"标签。
40.在本发明的一个优选实施例中,获取超文本标记语言文章中对应于预设标签的节点,并将节点按层级排序包括:获取超文本标记语言文章中标签为预设标签组中的标签的节点,并将节点加入到节点列表中并按层级排序。在html文章中获取以上html标签的节点,并将获取到的节点加入到节点列表中,并按层级排序,如图3所示,5个节点在节点列表中的排序为:节点1、节点2、节点3、节点4、节点5。
41.在本发明的一个优选实施例中,还包括:对节点列表中的节点的文本进行分词,并统计停用词数量;响应于停用词数量小于等于第一预设值,将对应节点在节点列表中删除。可以采用结巴分词对节点的文本进行分词,分词后统计停用词数量等信息,第一预设值可以设置为2,即如果停用词数量小于或者等于2,则将此节点从节点列表中删除。
42.在本发明的一个优选实施例中,还包括:
基于预设公式计算节点列表中每个节点的链接密集度。
43.在本发明的一个优选实施例中,基于预设公式计算节点列表中每个节点的链接密集度包括:基于以下公式计算链接密集度:链接密集度=节点下的链接数量*节点下所有链接的文本连接起来进行分词后的分词数量/节点的文本分词数量。可以通过分词数量、链接数量等参数计算节点的链接密集度,计算公式为:链接密集度=links*link_words/words,其中links为节点下的链接数量,link_words为节点下所有链接的文本连接起来进行分词后的分词数量,words为节点的文本分词数量。
44.在本发明的一个优选实施例中,还包括:响应于链接密集度大于第二预设值,将对应节点在节点列表中删除。第二预设值可以设置为1,即如果链接密集度的值大于1,则将节点在节点列表中删除。
45.在本发明的一个优选实施例中,以所述预设标签为节点计算节点的得分包括:计算节点列表中的节点数量,初始化增强参数,初始化底层节点数量。举例来说,计算节点列表中的节点数量nodes,初始化boost=1.0,初始化bottom_nodes=nodes*0.25,其中boost为增强参数,bottom_nodes为底层节点数量;顺序选取节点列表中的每个节点,并初始化增强分数。举例来说,顺序选取节点列表中的每个节点i,并初始化boost_score=0.0,其中boost_score为增强分数,i为节点序号;判断节点数量是否大于第三预设值。举例来说,如果计算得分不考虑兄弟节点,则判断节点数量nodes是否大于第三预设值,在一个实施例中,第三预设值可以设置成15;响应于节点数量不大于第三预设值,计算所选取节点的文本的停用词数量,并基于停用词数量和增强分数计算所选取节点的父节点的得分,并将父节点的得分加到父节点的总得分中。举例来说,响应于节点数量nodes不大于 15,计算节点的文本的停用词数量stop_words,并计算节点的父节点的u_score = stop_words + boost_scrore,并将u_score加到父节点的总得分中,其中u_score为计算的得分;基于父节点的得分计算节点的父节点的父节点的得分,并将父节点的父节点的得分加到父节点的父节点的总得分中。举例来说,计算节点的父节点的父节点的u_score=u_score/2,并将u_score加到父节点的父节点的总得分中;响应于所选取节点的父节点没有在节点列表中,将所选取节点的父节点加入到节点列表中;响应于所选取节点的父节点的父节点没有在节点列表中,将所选取节点的父节点的父节点加入到节点列表中;响应于所选取节点不是节点列表中最后一个节点,重复上述步骤。
46.在本发明的一个优选实施例中,判断节点数量是否大于第一预设值的步骤之前还包括:如果计算得分考虑兄弟节点,则更新增强分数和增强参数。
47.在本发明的一个优选实施例中,更新增强分数和增强参数包括:将增强分数更新为1/当前增强参数*50;将增强参数更新为当前增强参数加1。
48.在本发明的一个优选实施例中,还包括:响应于节点数量大于第三预设值,判断节点数量减节点序号是否小于等于底层节点数量;响应于节点数量减节点序号小于等于底层节点数量,更新增强分数。
49.在本发明的一个优选实施例中,更新增强分数包括:根据公式:(底层节点数量

(节点数量减节点序号))2计算更新后的增强分数。
50.在本发明的一个优选实施例中,还包括:判断abs(增强得分)是否大于40;响应于abs(增强得分)大于40,将增强得分更新为5。节点得分的计算过程如图4所示,其中,上述的nodes为节点列表中的节点数量;bottom_nodes为底层节点数量,节点列表中最后面25%的节点的数量,由于越靠后的节点重要性越低,所以最后面25%的节点的boost值会更大一些,而boost_score值会更小一些;boost为增强参数,此参数初始化为1.0,随着节点遍历,boost参数递增,这意味着节点的增强分数降低;boost_score为增强分数,给当前节点的父节点以及父节点的父节点增加额外的分数,如果一个节点最近的3个标签为p的兄弟节点(同一层级的节点)中任一个节点的文本停用词数量大于2,那么就说明此节点的父节点或者父节点的父节点更有可能是最优父节点;上述公式中的abs表示取绝对值、pow表示求幂次;i为当前节点在节点列表中的顺序,从0开始;stop_words为当前节点文本的停用词数量;u_score为计算的得分,将u_score加到父节点的总得分中,将u_score/2加到父节点的父节点的总得分中。
51.在本发明的一个优选实施例中,基于计算的得分获取最优父节点,并基于最优父节点提取文本段落和图像段落包括:将得分最高的节点定义为最优父节点;从最优父节点中提取文本段落并记录文本段落的xml路径语言;从最优父节点中提取图像段落并记录图像段落的xml路径语言。即从最优父节点中提取所有文本段落(标签为“p”的段落),并记录其xpath(xml path language ,xml路径语言),然后从最优父节点中提取所有图像段落(标签为“img”的段落),并记录其xpath。
52.在本发明的一个优选实施例中,将提取的文本段落和图像段落组合成新的文章包括:删除文本段落中的超文本标记语言标签,并过滤文本段落中的敏感词;按照文本段落的xml路径语言和图像段落的xml路径语言将文本段落和图像段落组合成新的文章。然后剔除文本段落中包含的html标签,然后进行敏感词过滤,去掉包含敏感词的段落,最后按照xpath将文本段落和图像段落组合成一篇新的文章。经过以上各个步骤的数据清洗,可以得到高质量的文章,能够使提取出的文本数据和图像数据的顺序与页面中的顺序保持一致,文章中各段落的排布如图5所示。
53.在本发明的一个优选实施例中,获取超文本标记语言文章包括:从开源网页数据集中下载预设类型的文件;根据预设分割标志将预设类型的文件分割成若干个超文本标记语言文章。超文本标记语言文章是将一个html网页称为一篇文章,也可以称为html文章,获取html文章首先进行数据下载,数据源是common crawl开源的网页数据集,可以通过下载程序(mdcs 2.0的
一个模块)下载common crawl中的数据集。每一个common crawl的warc文件中包含多个html网页,html网页之间有特殊的分割标志,例如“warc-type: response”,可以根据分割标志将warc文件分割成多个html网页,并将每个html网页称为一篇文章。
54.在本发明的一个优选实施例中,将超文本标记语言文章进行预处理包括:根据超文本标记语言文章的预设字段获取超文本标记语言文章的语言。
55.在本发明的一个优选实施例中,将超文本标记语言文章进行预处理包括:响应于超文本标记语言文章的语言为预设类型语言,使用预设编码方式将文章进行编码转换。获取到html文章后需要对其进行预处理,预处理包括语言过滤与编码转换,即根据每篇文章中的“languages-cld2”字段获取文章的语言,只保留此字段为中文的文章,然后将文章转换为同一种编码方式,例如以utf-8的编码方式进行编码,注意,本发明的实施例以中文的文章为例,其他语言的文章都可以使用本发明的方法。
56.在本发明的一个优选实施例中,将超文本标记语言文章进行预处理包括:删除文章中的预设置的内容;将文章中的第一预设标签替换为第二预设标签;删除文章中的预定义的垃圾内容的标签。预处理还包括html文章的清洗,即删除文章中的javascript脚本以及css相关内容,并将“div”等标签替换为“p”标签,以及去除一些id、class包含垃圾内容的标签。
57.在本发明的一个优选实施例中,将预处理后的超文本标记语言文章转化为带有预设标签的预设格式文档包括:将超文本标记语言文章转化为文档对象模型格式的文档。
58.通过使用本发明的方案,能够在网页中提取高质量的文本数据,能够在网页中提取高质量的图像数据,能够使提取出的文本数据和图像数据的顺序与页面中的顺序保持一致。
59.需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,上述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中存储介质可为磁碟、光盘、只读存储器(read-only memory,rom)或随机存取存储器(random access memory,ram)等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
60.此外,根据本发明实施例公开的方法还可以被实现为由cpu 执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被cpu 执行时,执行本发明实施例公开的方法中限定的上述功能。
61.基于上述目的,本发明的实施例的第二个方面,提出了一种数据处理的装置,如图6所示,装置200包括:预处理模块,所述预处理模块配置为获取超文本标记语言文章,并将超文本标记语言文章进行预处理;转换模块,所述转换模块配置为将预处理后的超文本标记语言文章转化为带有预设标签的预设格式文档;计算模块,所述计算模块配置为以所述预设标签为节点计算节点的得分;
提取模块,所述提取模块配置为基于计算的得分获取最优父节点,并基于最优父节点提取文本段落和图像段落;组合模块,所述组合模块配置为将提取的文本段落和图像段落组合成新的文章。
62.在本发明的一个优选实施例中,计算模块还配置为:获取超文本标记语言文章中对应于预设标签的节点,并将节点按层级排序。
63.在本发明的一个优选实施例中,计算模块还配置为:获取超文本标记语言文章中标签为预设标签组中的标签的节点,并将节点加入到节点列表中并按层级排序。
64.在本发明的一个优选实施例中,计算模块还配置为:对节点列表中的节点的文本进行分词,并统计停用词数量;响应于停用词数量小于等于第一预设值,将对应节点在节点列表中删除。
65.在本发明的一个优选实施例中,计算模块还配置为:基于预设公式计算节点列表中每个节点的链接密集度。
66.在本发明的一个优选实施例中,计算模块还配置为:基于以下公式计算链接密集度:链接密集度=节点下的链接数量*节点下所有链接的文本连接起来进行分词后的分词数量/节点的文本分词数量。
67.在本发明的一个优选实施例中,计算模块还配置为:响应于链接密集度大于第二预设值,将对应节点在节点列表中删除。
68.在本发明的一个优选实施例中,计算模块还配置为:计算节点列表中的节点数量,初始化增强参数,初始化底层节点数量;顺序选取节点列表中的每个节点,并初始化增强分数;判断节点数量是否大于第三预设值;响应于节点数量不大于第三预设值,计算所选取节点的文本的停用词数量,并基于停用词数量和增强分数计算所选取节点的父节点的得分,并将所述父节点的得分加到父节点的总得分中;基于父节点的得分计算所选取节点的父节点的父节点的得分,并将所述父节点的父节点的得分加到父节点的父节点的总得分中;响应于所选取节点的父节点没有在节点列表中,将所选取节点的父节点加入到节点列表中;响应于所选取节点的父节点的父节点没有在节点列表中,将所选取节点的父节点的父节点加入到节点列表中;响应于节点不是节点列表中最后一个节点,重复上述步骤。
69.在本发明的一个优选实施例中,计算模块还配置为:更新增强分数和增强参数。
70.在本发明的一个优选实施例中,计算模块还配置为:将增强分数更新为1/当前增强参数*50;将增强参数更新为当前增强参数加1。
71.在本发明的一个优选实施例中,计算模块还配置为:响应于节点数量大于第三预设值,判断节点数量减节点序号是否小于等于底层节
点数量;响应于节点数量减节点序号小于等于底层节点数量,更新增强分数。
72.在本发明的一个优选实施例中,计算模块还配置为:根据公式:(底层节点数量

(节点数量减节点序号))2计算更新后的增强分数。
73.在本发明的一个优选实施例中,计算模块还配置为:判断abs(增强得分)是否大于40;响应于abs(增强得分)大于40,将增强得分更新为5。
74.在本发明的一个优选实施例中,提取模块还配置为:将得分最高的节点定义为最优父节点;从最优父节点中提取文本段落并记录文本段落的xml路径语言;从最优父节点中提取图像段落并记录图像段落的xml路径语言。
75.在本发明的一个优选实施例中,组合模块还配置为:删除文本段落中的超文本标记语言标签,并过滤文本段落中的敏感词;按照文本段落的xml路径语言和图像段落的xml路径语言将文本段落和图像段落组合成新的文章。
76.在本发明的一个优选实施例中,预处理模块还配置为:从开源网页数据集中下载预设类型的文件;根据预设分割标志将预设类型的文件分割成若干个超文本标记语言文章。
77.在本发明的一个优选实施例中,预处理模块还配置为:根据超文本标记语言文章的预设字段获取超文本标记语言文章的语言。
78.在本发明的一个优选实施例中,预处理模块还配置为:响应于超文本标记语言文章的语言为预设类型语言,使用预设编码方式将文章进行编码转换。
79.在本发明的一个优选实施例中,预处理模块还配置为:删除文章中的预设置的内容;将文章中的第一预设标签替换为第二预设标签;删除文章中的预定义的垃圾内容的标签。
80.在本发明的一个优选实施例中,转换模块还配置为:将超文本标记语言文章转化为文档对象模型格式的文档。
81.基于上述目的,本发明实施例的第三个方面,提出了一种计算机设备。图7示出的是本发明提供的计算机设备的实施例的示意图。如图7所示,本发明实施例包括如下装置:至少一个处理器21;以及存储器22,存储器22存储有可在处理器上运行的计算机指令23,指令由处理器执行时实现以上方法中的任意一种方法。
82.基于上述目的,本发明实施例的第四个方面,提出了一种计算机可读存储介质。图8示出的是本发明提供的计算机可读存储介质的实施例的示意图。如图8所示,计算机可读存储介质31存储有被处理器执行时执行如上方法中的任意一种方法的计算机程序32。
83.此外,根据本发明实施例公开的方法还可以被实现为由处理器执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被处理器执行时,执行本发明实施例公开的方法中限定的上述功能。
84.此外,上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
85.本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
86.在一个或多个示例性设计中,功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括ram、rom、eeprom、cd-rom或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(dsl)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、dsl或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(cd)、激光盘、光盘、数字多功能盘(dvd)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
87.以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
88.应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
89.上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
90.本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
91.所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

技术特征:
1.一种数据处理的方法,其特征在于,包括以下步骤:获取超文本标记语言文章,并将超文本标记语言文章进行预处理;将预处理后的超文本标记语言文章转化为带有预设标签的预设格式文档;以所述预设标签为节点计算节点的得分;基于计算的得分获取最优父节点,并基于最优父节点提取文本段落和图像段落;将提取的文本段落和图像段落组合成新的文章。2.根据权利要求1所述的方法,其特征在于,所述以所述预设标签为节点计算节点的得分的步骤包括:获取超文本标记语言文章中对应于预设标签的节点,并将节点按层级排序。3.根据权利要求2所述的方法,其特征在于,所述获取超文本标记语言文章中对应于预设标签的节点,并将节点按层级排序的步骤包括:获取超文本标记语言文章中标签为预设标签组中的标签的节点,并将节点加入到节点列表中并按层级排序。4.根据权利要求3所述的方法,其特征在于,还包括:对节点列表中的节点的文本进行分词,并统计停用词数量;响应于停用词数量小于等于第一预设值,将对应节点在节点列表中删除。5.根据权利要求3所述的方法,其特征在于,还包括:基于预设公式计算节点列表中每个节点的链接密集度。6.根据权利要求5所述的方法,其特征在于,所述基于预设公式计算节点列表中每个节点的链接密集度的步骤包括:基于以下公式计算链接密集度:链接密集度=节点下的链接数量*节点下所有链接的文本连接起来进行分词后的分词数量/节点的文本分词数量。7.根据权利要求6所述的方法,其特征在于,还包括:响应于链接密集度大于第二预设值,将对应节点在节点列表中删除。8.根据权利要求3所述的方法,其特征在于,所述以所述预设标签为节点计算节点的得分的步骤包括:计算节点列表中的节点数量,初始化增强参数,初始化底层节点数量;顺序选取节点列表中的每个节点,并初始化增强分数;判断节点数量是否大于第三预设值;响应于节点数量不大于第三预设值,计算所选取节点的文本的停用词数量,并基于停用词数量和增强分数计算所述选取节点的父节点的得分,并将所述父节点的得分加到父节点的总得分中;基于父节点的得分计算节点的父节点的父节点的得分,并将所述父节点的父节点的得分加到父节点的父节点的总得分中;响应于所述选取节点的父节点没有在节点列表中,将所述选取节点的父节点加入到节点列表中;响应于所述选取节点的父节点的父节点没有在节点列表中,将所述选取节点的父节点的父节点加入到节点列表中;响应于所述选取节点不是节点列表中最后一个节点,重复上述步骤。
9.根据权利要求8所述的方法,其特征在于,所述判断节点数量是否大于第三预设值的步骤之前还包括:更新增强分数和增强参数。10.根据权利要求9所述的方法,其特征在于,所述更新增强分数和增强参数的步骤包括:将增强分数更新为1/当前增强参数*50;将增强参数更新为当前增强参数加1。11.根据权利要求9所述的方法,其特征在于,还包括:响应于节点数量大于第三预设值,判断节点数量减节点序号是否小于等于底层节点数量;响应于节点数量减节点序号小于等于底层节点数量,更新增强分数。12.根据权利要求11所述的方法,其特征在于,所述更新增强分数的步骤包括:根据公式:(底层节点数量

(节点数量减节点序号))2计算更新后的增强分数。13.根据权利要求12所述的方法,其特征在于,还包括:判断abs增强得分是否大于40;响应于abs增强得分大于40,将增强得分更新为5。14.根据权利要求1所述的方法,其特征在于,所述基于计算的得分获取最优父节点,并基于最优父节点提取文本段落和图像段落的步骤包括:将得分最高的节点定义为最优父节点;从最优父节点中提取文本段落并记录文本段落的xml路径语言;从最优父节点中提取图像段落并记录图像段落的xml路径语言。15.根据权利要求14所述的方法,其特征在于,所述将提取的文本段落和图像段落组合成新的文章的步骤包括:删除文本段落中的超文本标记语言标签,并过滤文本段落中的敏感词;按照文本段落的xml路径语言和图像段落的xml路径语言将文本段落和图像段落组合成新的文章。16.根据权利要求1所述的方法,其特征在于,所述获取超文本标记语言文章的步骤包括:从开源网页数据集中下载预设类型的文件;根据预设分割标志将预设类型的文件分割成若干个超文本标记语言文章。17.根据权利要求1所述的方法,其特征在于,所述将超文本标记语言文章进行预处理的步骤包括:根据超文本标记语言文章的预设字段获取超文本标记语言文章的语言。18.根据权利要求17所述的方法,其特征在于,所述将超文本标记语言文章进行预处理的步骤包括:响应于超文本标记语言文章的语言为预设类型语言,使用预设编码方式将文章进行编码转换。19.根据权利要求1所述的方法,其特征在于,所述将超文本标记语言文章进行预处理的步骤包括:
删除文章中的预设置的内容;将文章中的第一预设标签替换为第二预设标签;删除文章中的预定义的垃圾内容的标签。20.根据权利要求1所述的方法,其特征在于,所述将预处理后的超文本标记语言文章转化为带有预设标签的预设格式文档的步骤包括:将超文本标记语言文章转化为文档对象模型格式的文档。21.一种数据处理的装置,其特征在于,所述装置包括:预处理模块,所述预处理模块配置为获取超文本标记语言文章,并将超文本标记语言文章进行预处理;转换模块,所述转换模块配置为将预处理后的超文本标记语言文章转化为带有预设标签的预设格式文档;计算模块,所述计算模块配置为以所述预设标签为节点计算节点的得分;提取模块,所述提取模块配置为基于计算的得分获取最优父节点,并基于最优父节点提取文本段落和图像段落;组合模块,所述组合模块配置为将提取的文本段落和图像段落组合成新的文章。22. 一种计算机设备,其特征在于,包括:至少一个处理器;以及存储器,所述存储器存储有可在所述处理器上运行的计算机指令,所述指令由所述处理器执行时实现权利要求1-20任意一项所述方法的步骤。23.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-20任意一项所述方法的步骤。

技术总结
本发明提供了一种数据处理的方法、装置、系统、设备及可读存储介质,方法包括:获取超文本标记语言文章,并将超文本标记语言文章进行预处理;将预处理后的超文本标记语言文章转化为带有预设标签的预设格式文档;以所述预设标签为节点计算节点的得分;基于计算的得分获取最优父节点,并基于最优父节点提取文本段落和图像段落;将提取的文本段落和图像段落组合成新的文章。通过使用本发明的方案,能够在网页中提取高质量的文本数据和高质量的图像数据,能够使提取出的文本数据和图像数据的顺序与页面中的顺序保持一致。页面中的顺序保持一致。页面中的顺序保持一致。


技术研发人员:张荣国 吴韶华
受保护的技术使用者:苏州浪潮智能科技有限公司
技术研发日:2023.07.25
技术公布日:2023/8/24
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐