根据学术表格及其选中内容生成描述的方法及系统
未命名
07-15
阅读:132
评论:0
1.本发明涉及自然语言处理领域,具体地,涉及根据学术表格及其选中内容生成描述的方法及系统,更为具体地,涉及一种基于tsdae句向量生成模型、bart-base文本生成模型以及sci-spacy模型的提取论文表格并可根据用户关注内容生成描述的方法与系统,用于更好的提升科研效率,让读者快速了解表格内容。
背景技术:
2.文本句向量生成是自然语言处理领域中的一种计算技术,用于处理、编码句子文本。首先对句子中的的每个词进行词嵌入处理后,将一个维数为所有单词的数量的高维空间嵌入到一个维数低的多的连续向量空间中。然后根据句子中的所有词向量表达编码计算句向量,获得整句的向量表达。经过对整句话进行句向量编码后可以用于计算句子之间的语义相似度,并且提高语言模型的训练速度。针对本发明通过使用、训练tsdae模型对文本进行编码计算背景知识与表格内容的语义相似度,获取表格对应的最相似的背景知识语句(主要基于transformer-based解码编码模型网络)。
3.除此以外,针对本发明中的文本生成任务,本质上是搭建了一种基于bart-base的自然语言生成模型(nlg,natural language generation)。自然语言生成(nlg)是自然语言处理的一部分,从知识库或逻辑形式使及其表述生成自然语言。针对本发明中的生成表格描述任务,通过将表格内容与相关的背景知识使用模板拼接成序列化语句,输入自然语言生成模型,生成相关的表格描述。
4.对于本发明中文本处理、分词,使用了自然语言处理领域中的sci-spacy模型,对文本依据规则进行拆分与重组。sci-spacy是由艾伦人工智能研究所于2019年发布的基于spacy的用于进行生物医学领域自然语言处理的python工具包,提供包括分词、分句、专有名词标注、命名实体识别等多种功能以及基于craft、jnlpba、bc5cdr、bionlp13cg等生物医学语料库的多个对应的模型,其模型包括轻、中、重量级的实现spacy完整的自然语言处理流水线的模型和专门基于语料库的命名实体识别模型,是目前最新的和效果最好的针对于生物医学这一特定学术领域进行自然语言处理的工具之一。本发明中引入sci-spacy工具中的重量级流水线模型en_core_sci_lg对文本进行粗粒度的预切分,由于该模型的开发基于生物医学领域的语料,故需要对预处理后的文本进行二次切分和切分片段的重组。
技术实现要素:
5.针对现有技术中的缺陷,本发明的目的是提供一种根据学术表格及其选中内容生成描述的方法及系统。
6.根据本发明提供的一种根据学术表格及其选中内容生成描述的方法,包括:
7.步骤s1:解析抽取pdf学术文献中的表格、表格背景知识以及表格内容相关的描述文本,并将表格、表格背景知识和表格内容相关的描述文本进行匹配;
8.步骤s2:基于表格背景知识构建领域知识库,并对表格背景知识以及表格内容相
关的描述文本进行预处理,将表格进行序列化处理得到序列化表格数据;
9.步骤s3:使用预设模板拼接用户关注的预设表格中的信息和表格,构建关注的序列化表格数据;
10.步骤s4:基于关注的序列化表格数据和领域知识库获得关键背景信息,基于获得的关键背景信息和关注的序列化表格数据生成序列化字符串;
11.步骤s5:利用序列化字符串以及表格内容相关的描述文本训练文本生成模型,得到训练后的文本生成模型;
12.步骤s6:利用训练后的文本生成模型预测并生成表格相关描述。
13.优选地,所述步骤s1采用:
14.步骤s1.1:使用pdffigure2解析pdf学术文献,获得pdf学术文献中的表格、表格背景知识以及表格内容相关的描述文本;
15.步骤s1.2:使用启发式算法对解析获取的pdf学术文献中的表格、表格背景知识以及表格内容相关的描述文本进行数据筛选和匹配。
16.优选地,所述步骤s1.1采用:获取pdf学术文献,使用pdffigure2进行pdf解析,获取相关表格及pdf文本的json数据;解析json数据获取表格内容相关的描述文本和表格背景知识。
17.优选地,所述步骤s2采用:
18.步骤s2.1:使用sci-spacy模型对表格内容相关的描述文本以及表格背景知识分别进行文本分句;
19.步骤s2.2:根据分句后的文本清洗与表格无关的数据。
20.优选地,所述步骤s4采用:
21.步骤s4.1:构建tsdae模型,并利用关注的序列化表格数据与领域知识库训练tsdae模型,得到训练后的tadae模型;
22.步骤s4.2:基于训练后的tsdae模型从关注的序列化表格数据和领域知识库中获取关键背景信息;
23.步骤s4.3:使用预设模板拼接关注的序列化表格数据与获取的关键背景信息,生成序列化字符串。
24.优选地,所述步骤s4采用:利用序列化字符串以及表格内容相关的描述文本训练基于bart-base的文本生成模型,得到训练后的文本生成模型。
25.根据本发明提供的一种根据学术表格及其选中内容生成描述的系统,包括:
26.模块m1:解析抽取pdf学术文献中的表格、表格背景知识以及表格内容相关的描述文本,并将表格、表格背景知识和表格内容相关的描述文本进行匹配;
27.模块m2:基于表格背景知识构建领域知识库,并对表格背景知识以及表格内容相关的描述文本进行预处理,将表格进行序列化处理得到序列化表格数据;
28.模块m3:使用预设模板拼接用户关注的预设表格中的信息和表格,构建关注的序列化表格数据;
29.模块m4:基于关注的序列化表格数据和领域知识库获得关键背景信息,基于获得的关键背景信息和关注的序列化表格数据生成序列化字符串;
30.模块m5:利用序列化字符串以及表格内容相关的描述文本训练文本生成模型,得
到训练后的文本生成模型;
31.模块m6:利用训练后的文本生成模型预测并生成表格相关描述。
32.优选地,所述模块m1采用:
33.模块m1.1:使用pdffigure2解析pdf学术文献,获得pdf学术文献中的表格、表格背景知识以及表格内容相关的描述文本;
34.模块m1.2:使用启发式算法对解析获取的pdf学术文献中的表格、表格背景知识以及表格内容相关的描述文本进行数据筛选和匹配;
35.所述模块m1.1采用:获取pdf学术文献,使用pdffigure2进行pdf解析,获取相关表格及pdf文本的json数据;解析json数据获取表格内容相关的描述文本和表格背景知识。
36.优选地,所述模块m2采用:
37.模块m2.1:使用sci-spacy模型对表格内容相关的描述文本以及表格背景知识分别进行文本分句;
38.模块m2.2:根据分句后的文本清洗与表格无关的数据。
39.优选地,所述模块m4采用:
40.模块m4.1:构建tsdae模型,并利用关注的序列化表格数据与领域知识库训练tsdae模型,得到训练后的tadae模型;
41.模块m4.2:基于训练后的tsdae模型从关注的序列化表格数据和领域知识库中获取关键背景信息;
42.模块m4.3:使用预设模板拼接关注的序列化表格数据与获取的关键背景信息,生成序列化字符串。
43.与现有技术相比,本发明具有如下的有益效果:
44.1、本发明是第一个通过人工标注协同机器处理学术表格数据,并提出根据背景知识库提供的背景知识控制生成根据表格内容与用户特别关注的信息进行相关描述的发明;
45.2、本发明生成的相关表格描述具有较高的流畅性,基于目前的训练集数据以及测试集数据,bart-base文本生成任务bleu score达到16.90,通过人工观察生成文本结果50个随机选取的生成文本流畅性约为4.14(根据生成句子的流畅性人工打分为1-5分);
46.3、本发明各项性能效果明显优于其他学术表格文本生成方法,为目前学术表格文本生成最好的发明方法;
47.4、本发明可用于处理、解析论文中的表格数据及其相关背景信息,并根据此数据生成表格相应描述,可用于快速了解文章信息,大幅提高研究效率。
附图说明
48.通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
49.图1为本发明的流程图。
50.图2为本发明数据解析与预处理示意图。
51.图3为本发明具体操作示意图。
52.图4为本发明与其他方法自动化测试工具各类指标结果对比图。
53.图5为随其抽取50个预测结果本发明与其他方法人工检测各类指标结果对比图。
54.图6为本发明人工标注学术表格数据领域统计。
55.图7为本发明预测表格描述与人工标注标准数据示意对比图。
具体实施方式
56.下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
57.针对日常应用任务中的需求,本发明的目的是提供一种根据学术表格及其选中内容生成描述的方法及系统,用于给广大研究人员提供一种可靠高效的表格数据整理以及分析的方法及系统,从而可以快速了解学术文献中的表格数据描述内容,答复提高文献阅读效率。
58.实施例1
59.根据本发明提供的一种根据学术表格及其选中内容生成描述的方法,如图1至7所示,包括:
60.步骤s1:使用pdffigure2解析pdf文件,解析获取学术文章中的表格、表格背景知识及表格内容相关的描述文本,将表格背景知识作为特定领域知识库;
61.步骤s2:使用启发式算法对解析获取的学术表格、表格背景知识及表格内容相关的描述文本进行数据筛选、匹配,并将表格、表格背景知识与表格内容相关的描述文本对齐;
62.步骤s3:对筛选后的表格背景知识和表格内容相关的描述文本进行清洗,对表格进行序列化处理。
63.步骤s4:若表格中有用户特别关注信息,则使用模版拼接用户特别关注信息与表格,构建有特别关注的表格序列化数据;
64.步骤s5:利用表格序列化数据与特定领域知识库,构建tsdae模型训练数据集、验证数据集及测试集数据集。基于训练好的tsdae模型从表格序列化数据和特定领域知识库中获取关键背景信息;
65.步骤s6:使用模版拼接序列化的表格数据与获取的关键背景信息,生成序列化字符串;
66.步骤s7:基于生成的序列化字符串人工标注训练数据集、验证数据集与测试数据集训练基于bart-base的文本生成模型;
67.步骤s8:将数据输入处理好的文本生成模型,预测并生成表格相关描述。
68.所述表格背景知识是对表格中的子单元进行的描述;
69.所述表格内容相关的描述文本是对整个表格进行描述。
70.具体地,所述步骤s1包括:
71.步骤s1.1:从数据库中获取需要处理的pdf;
72.步骤s1.2:使用pdffigure2进行pdf解析,获取相关表格数据及pdf的json数据;
73.步骤s1.3:解析json数据,获取表格内容相关的描述文本和表格背景知识。
74.具体地,所述步骤s2采用:使用启发式算法对解析获取的学术表格、表格背景知识
及表格内容相关的描述文本进行数据筛选、匹配遵循如下原则:文本中包含表格内容(表头或表格数据)、文本中包含表格描述信息、表格上下文3句文本;将匹配好的文本数据依次与表格数据进行链接对齐。
75.具体地,所述步骤s3包括:
76.步骤s3.1:使用sci-spacy模型预处理表格内容相关的描述文本以及表格背景知识进行文本分句;
77.步骤s3.2:根据分句后的文本清洗与表格无关的数据,并对文本去停用词与标点符号。
78.步骤s3.3:对表格根据模版进行序列化处理。表格序列化模版为:“《表格内容》《c》《表格内容》《c》《表格内容》《c》《r》”,其中特殊符号“《c》”表示为表格内容间隔符号,“《r》”表示为表格换行符号。
79.其中,sci-spacy是由艾伦人工智能研究所于2019年发布的基于spacy的用于进行生物医学领域自然语言处理的python工具包,提供包括分词、分句、命名实体识别等多种功能以及基于jnlpba、bc5cdr等生物医学语料库的多个对应的模型。步骤s301中所采用的为由超过78.5万生物医学词汇和60万词向量训练得到的en_core_sci_lg模型,为sci-spacy工具包提供的规模最大、分句准确率最高的模型。
80.具体地,所述步骤s4包括:
81.步骤s4.1:若有用户特别关注内容,使用模版拼接用户特别关注内容与序列化的表格。序列化拼接模版为“《用户特别关注内容》《c》《用户特别关注内容》《c》《h》序列化的表格”,其中特殊符号“《h》”表示为用户特别关注内容与序列化表格间隔符号。
82.具体地,所述步骤s5包括:
83.步骤s5.1:整理解析好的表格数据,并对每个表格进行人工标注,标注内容为对此表格的标准表述;
84.步骤s5.2:整理获取的表格-标准描述数组8967条,并对数据进行分组:训练集5380条数据,验证集1793条数据与测试集1794条数据,遵循分组比例为6:2:2;
85.步骤s5.3:使用模板预处理表格-标准描述数据对,序列化拼接模板为“序列化表格数据《bkg》标准数据描述”,其中特殊符号“《bkg》”表示为表格内容与背景知识分割符。由此生成标准模型参考数据。
86.步骤s5.4:对表格及其所有的对应的背景知识句子依次使用模板进行预处理。序列化拼接模板为“序列化表格数据《bkg》背景知识句子”。由此处理后的数据为一个表格数据对应若干条拼接处理的背景知识句子,表示为一个表格-背景知识文本数组。
87.步骤s5.5:对于划分好的数据集,将处理好的表格-标准描述数据与表格-背景知识文本数组全部作为模型输入,使用tsdae模型进行训练与调试,获取句向量网络模型。
88.步骤s5.6:使用投影算法计算句向量的相似度,并根据输入的表格-标准描述数据选取最相似的n条背景表格-背景知识知识句子文本(本发明n设置为3)。处理后一条表格数据对应n条背景知识句子与一条标准描述句子。
89.其中,所述tsdae(transformer-based sequential denoising auto-encoder)模型基于预训练的transformer和顺序降噪自动编码器使用无监督方式学习句子嵌入,生成句向量。研究表明tsdae明显优于其他传统生成句向量语言模型。
90.通过tsdae选中的最接近表格数据的背景知识句子输入进入未经训练调试的basrt-base模型获得结果为bleu=2.00,meteor=0.09,bert score=0.78,bleurt=-1.00。
91.bleu,meteor,bert score和bleurt为自动化测试工具,用于衡量文本生成质量好坏。其中bleu和meteor来计算生成的文本信息量。于此同时,bert score和bleurt是基于bert预训练的自动化评估工具,用于衡量输出句子与标注文本的相似度。
92.具体地,所述步骤s6包括:
93.步骤s6.1:对于获取的表格数据最相关的n条背景知识句子,使用模板拼接已经处理好的序列化表格,序列化拼接模板为“序列化表格数据《bkg》背景知识句子”。
94.具体地,所述步骤s7包括:将处理好的表格-背景知识-标准描述数据输入bart-base文本生成模型,并进行训练与调试,获取文本生成网络模型。
95.具体地,所述步骤s8包括:将需要生成描述的表格在经过tsdae获取相关描述文本并进行序列化处理后输入训练好的bart-base模型,并返回最后结果。
96.根据本发明提供的一种根据学术表格及其选中内容生成描述的系统,包括:
97.模块m1:使用pdffigure2解析pdf文件,解析获取学术文章中的表格、表格背景知识及表格内容相关的描述文本,将表格背景知识作为特定领域知识库;
98.模块m2:使用启发式算法对解析获取的学术表格、表格背景知识及表格内容相关的描述文本进行数据筛选、匹配,并将表格、表格背景知识与表格内容相关的描述文本对齐;
99.模块m3:对筛选后的表格背景知识和表格内容相关的描述文本进行清洗,对表格进行序列化处理。
100.模块m4:若表格中有用户特别关注信息,则使用模版拼接用户特别关注信息与表格,构建有特别关注的表格序列化数据;
101.模块m5:利用表格序列化数据与特定领域知识库,构建tsdae模型训练数据集、验证数据集及测试集数据集。基于训练好的tsdae模型从表格序列化数据和特定领域知识库中获取关键背景信息;
102.模块m6:使用模版拼接序列化的表格数据与获取的关键背景信息,生成序列化字符串;
103.模块m7:基于生成的序列化字符串人工标注训练数据集、验证数据集与测试数据集训练基于bart-base的文本生成模型;
104.模块m8:将数据输入处理好的文本生成模型,预测并生成表格相关描述。
105.所述表格背景知识是对表格中的子单元进行的描述;
106.所述表格内容相关的描述文本是对整个表格进行描述。
107.具体地,所述模块m1包括:
108.模块m1.1:从数据库中获取需要处理的pdf;
109.模块m1.2:使用pdffigure2进行pdf解析,获取相关表格数据及pdf的json数据;
110.模块m1.3:解析json数据,获取表格内容相关的描述文本和表格背景知识。
111.具体地,所述模块m2采用:使用启发式算法对解析获取的学术表格、表格背景知识及表格内容相关的描述文本进行数据筛选、匹配遵循如下原则:文本中包含表格内容(表头
或表格数据)、文本中包含表格描述信息、表格上下文3句文本;将匹配好的文本数据依次与表格数据进行链接对齐。
112.具体地,所述模块m3包括:
113.模块m3.1:使用sci-spacy模型预处理表格内容相关的描述文本以及表格背景知识进行文本分句;
114.模块m3.2:根据分句后的文本清洗与表格无关的数据,并对文本去停用词与标点符号。
115.模块m3.3:对表格根据模版进行序列化处理。表格序列化模版为:“《表格内容》《c》《表格内容》《c》《表格内容》《c》《r》”,其中特殊符号“《c》”表示为表格内容间隔符号,“《r》”表示为表格换行符号。
116.其中,sci-spacy是由艾伦人工智能研究所于2019年发布的基于spacy的用于进行生物医学领域自然语言处理的python工具包,提供包括分词、分句、命名实体识别等多种功能以及基于jnlpba、bc5cdr等生物医学语料库的多个对应的模型。模块m301中所采用的为由超过78.5万生物医学词汇和60万词向量训练得到的en_core_sci_lg模型,为sci-spacy工具包提供的规模最大、分句准确率最高的模型。
117.具体地,所述模块m4包括:
118.模块m4.1:若有用户特别关注内容,使用模版拼接用户特别关注内容与序列化的表格。序列化拼接模版为“《用户特别关注内容》《c》《用户特别关注内容》《c》《h》序列化的表格”,其中特殊符号“《h》”表示为用户特别关注内容与序列化表格间隔符号。
119.具体地,所述模块m5包括:
120.模块m5.1:整理解析好的表格数据,并对每个表格进行人工标注,标注内容为对此表格的标准表述;
121.模块m5.2:整理获取的表格-标准描述数组8967条,并对数据进行分组:训练集5380条数据,验证集1793条数据与测试集1794条数据,遵循分组比例为6:2:2;
122.模块m5.3:使用模板预处理表格-标准描述数据对,序列化拼接模板为“序列化表格数据《bkg》标准数据描述”,其中特殊符号“《bkg》”表示为表格内容与背景知识分割符。由此生成标准模型参考数据。
123.模块m5.4:对表格及其所有的对应的背景知识句子依次使用模板进行预处理。序列化拼接模板为“序列化表格数据《bkg》背景知识句子”。由此处理后的数据为一个表格数据对应若干条拼接处理的背景知识句子,表示为一个表格-背景知识文本数组。
124.模块m5.5:对于划分好的数据集,将处理好的表格-标准描述数据与表格-背景知识文本数组全部作为模型输入,使用tsdae模型进行训练与调试,获取句向量网络模型。
125.模块m5.6:使用投影算法计算句向量的相似度,并根据输入的表格-标准描述数据选取最相似的n条背景表格-背景知识知识句子文本(本发明n设置为3)。处理后一条表格数据对应n条背景知识句子与一条标准描述句子。
126.其中,所述tsdae(transformer-based sequential denoising auto-encoder)模型基于预训练的transformer和顺序降噪自动编码器使用无监督方式学习句子嵌入,生成句向量。研究表明tsdae明显优于其他传统生成句向量语言模型。
127.通过tsdae选中的最接近表格数据的背景知识句子输入进入未经训练调试的
basrt-base模型获得结果为bleu=2.00,meteor=0.09,bert score=0.78,bleurt=-1.00。
128.bleu,meteor,bert score和bleurt为自动化测试工具,用于衡量文本生成质量好坏。其中bleu和meteor来计算生成的文本信息量。于此同时,bert score和bleurt是基于bert预训练的自动化评估工具,用于衡量输出句子与标注文本的相似度。
129.具体地,所述模块m6包括:
130.模块m6.1:对于获取的表格数据最相关的n条背景知识句子,使用模板拼接已经处理好的序列化表格,序列化拼接模板为“序列化表格数据《bkg》背景知识句子”。
131.具体地,所述模块m7包括:将处理好的表格-背景知识-标准描述数据输入bart-base文本生成模型,并进行训练与调试,获取文本生成网络模型。
132.具体地,所述模块m8包括:将需要生成描述的表格在经过tsdae获取相关描述文本并进行序列化处理后输入训练好的bart-base模型,并返回最后结果。
133.本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
134.以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本技术的实施例和实施例中的特征可以任意相互组合。
技术特征:
1.一种根据学术表格及其选中内容生成描述的方法,其特征在于,包括:步骤s1:解析抽取pdf学术文献中的表格、表格背景知识以及表格内容相关的描述文本,并将表格、表格背景知识和表格内容相关的描述文本进行匹配;步骤s2:基于表格背景知识构建领域知识库,并对表格背景知识以及表格内容相关的描述文本进行预处理,将表格进行序列化处理得到序列化表格数据;步骤s3:使用预设模板拼接用户关注的预设表格中的信息和表格,构建关注的序列化表格数据;步骤s4:基于关注的序列化表格数据和领域知识库获得关键背景信息,基于获得的关键背景信息和关注的序列化表格数据生成序列化字符串;步骤s5:利用序列化字符串以及表格内容相关的描述文本训练文本生成模型,得到训练后的文本生成模型;步骤s6:利用训练后的文本生成模型预测并生成表格相关描述。2.根据权利要求1所述的根据学术表格及其选中内容生成描述的方法,其特征在于,所述步骤s1采用:步骤s1.1:使用pdffigure2解析pdf学术文献,获得pdf学术文献中的表格、表格背景知识以及表格内容相关的描述文本;步骤s1.2:使用启发式算法对解析获取的pdf学术文献中的表格、表格背景知识以及表格内容相关的描述文本进行数据筛选和匹配。3.根据权利要求2所述的根据学术表格及其选中内容生成描述的方法,其特征在于,所述步骤s1.1采用:获取pdf学术文献,使用pdffigure2进行pdf解析,获取相关表格及pdf文本的json数据;解析json数据获取表格内容相关的描述文本和表格背景知识。4.根据权利要求1所述的根据学术表格及其选中内容生成描述的方法,其特征在于,所述步骤s2采用:步骤s2.1:使用sci-spacy模型对表格内容相关的描述文本以及表格背景知识分别进行文本分句;步骤s2.2:根据分句后的文本清洗与表格无关的数据。5.根据权利要求1所述的根据学术表格及其选中内容生成描述的方法,其特征在于,所述步骤s4采用:步骤s4.1:构建tsdae模型,并利用关注的序列化表格数据与领域知识库训练tsdae模型,得到训练后的tadae模型;步骤s4.2:基于训练后的tsdae模型从关注的序列化表格数据和领域知识库中获取关键背景信息;步骤s4.3:使用预设模板拼接关注的序列化表格数据与获取的关键背景信息,生成序列化字符串。6.根据权利要求1所述的根据学术表格及其选中内容生成描述的方法,其特征在于,所述步骤s4采用:利用序列化字符串以及表格内容相关的描述文本训练基于bart-base的文本生成模型,得到训练后的文本生成模型。7.一种根据学术表格及其选中内容生成描述的系统,其特征在于,包括:模块m1:解析抽取pdf学术文献中的表格、表格背景知识以及表格内容相关的描述文
本,并将表格、表格背景知识和表格内容相关的描述文本进行匹配;模块m2:基于表格背景知识构建领域知识库,并对表格背景知识以及表格内容相关的描述文本进行预处理,将表格进行序列化处理得到序列化表格数据;模块m3:使用预设模板拼接用户关注的预设表格中的信息和表格,构建关注的序列化表格数据;模块m4:基于关注的序列化表格数据和领域知识库获得关键背景信息,基于获得的关键背景信息和关注的序列化表格数据生成序列化字符串;模块m5:利用序列化字符串以及表格内容相关的描述文本训练文本生成模型,得到训练后的文本生成模型;模块m6:利用训练后的文本生成模型预测并生成表格相关描述。8.根据权利要求7所述的根据学术表格及其选中内容生成描述的系统,其特征在于,所述模块m1采用:模块m1.1:使用pdffigure2解析pdf学术文献,获得pdf学术文献中的表格、表格背景知识以及表格内容相关的描述文本;模块m1.2:使用启发式算法对解析获取的pdf学术文献中的表格、表格背景知识以及表格内容相关的描述文本进行数据筛选和匹配;所述模块m1.1采用:获取pdf学术文献,使用pdffigure2进行pdf解析,获取相关表格及pdf文本的json数据;解析json数据获取表格内容相关的描述文本和表格背景知识。9.根据权利要求7所述的根据学术表格及其选中内容生成描述的系统,其特征在于,所述模块m2采用:模块m2.1:使用sci-spacy模型对表格内容相关的描述文本以及表格背景知识分别进行文本分句;模块m2.2:根据分句后的文本清洗与表格无关的数据。10.根据权利要求7所述的根据学术表格及其选中内容生成描述的系统,其特征在于,所述模块m4采用:模块m4.1:构建tsdae模型,并利用关注的序列化表格数据与领域知识库训练tsdae模型,得到训练后的tadae模型;模块m4.2:基于训练后的tsdae模型从关注的序列化表格数据和领域知识库中获取关键背景信息;模块m4.3:使用预设模板拼接关注的序列化表格数据与获取的关键背景信息,生成序列化字符串。
技术总结
本发明提供了一种根据学术表格及其选中内容生成描述的方法及系统,包括:解析抽取PDF学术文献中的表格、表格背景知识以及表格内容相关的描述文本,并进行匹配;基于表格背景知识构建领域知识库,并对表格背景知识以及表格内容相关的描述文本进行预处理,将表格进行序列化处理得到序列化表格数据;使用预设模板拼接用户关注的预设表格中的信息和表格,构建关注的序列化表格数据;基于关注的序列化表格数据和领域知识库获得关键背景信息,基于获得的关键背景信息和关注的序列化表格数据生成序列化字符串;利用序列化字符串以及表格内容相关的描述文本训练文本生成模型,得到训练后的文本生成模型;利用训练后的文本生成模型预测并生成表格相关描述。并生成表格相关描述。并生成表格相关描述。
技术研发人员:郭志新 周健平 颜铭萱 亓杰星 何子薇 林洲汉 郑冠杰 王新兵
受保护的技术使用者:上海交通大学
技术研发日:2023.04.13
技术公布日:2023/7/12
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
