基于多维度数据的文章生成方法与流程

未命名 07-15 阅读:76 评论:0


1.本发明涉及文章生成技术领域,具体涉及基于多维度数据的文章生成方法。


背景技术:

2.关键字是用户在使用搜索引擎时,输入的能够最大程度概括用户所要查找的信息内容;根据关键字对文本数据进行识别对应并进行文本的推荐。
3.现有技术存在以下不足:无法对根据关键字检索的文本进行相似度和重要性的评分,难以自发的从文本集合中发现语义进行多文档的组合生成进行数据推荐,无法更大程度的对用户的检索时间进行节约,难以提高检索数据的效率。


技术实现要素:

4.本发明的目的是提供基于多维度数据的文章生成方法,以解决背景技术中不足。
5.为了实现上述目的,本发明提供如下技术方案:基于多维度数据的文章生成方法,包括以下步骤:
6.步骤一、对文本数据进行预处理并建立数据索引库,数据索引库的建立方式包括有构建关联语义链网络、文本映射、重建语义社区与获取文本识别率;
7.步骤二、通过输入关键字进行数据检索,并在数据索引库中进行数据查找,形成关键词相关性文本集合;
8.步骤三、将由关键字获取到的文本集合按照网络图结构进行多文本的生成,进而再对文本进行排序;
9.步骤四、参考者按照候选文本的语句排序进行候选文本句的筛选,形成候选文本句的准确定位。
10.在一个优选的实施方式中,构建关联语义链网络的构建流程为:
11.选用文本预处理部分的词语集合作为语义节点集合,基于词语的共现关系作为关联规则;
12.通过语义链的权重对关联语义链网络中的语义社区进行社区划分,从而形成单个描述同一事件或主题的语义社区;语义链的权重计算公式为:
13.;
14.其中表示词语a与词语b在同一个文本中出现的次数,表示词语a出现过的文本篇数,表示词语b出现过的文本篇数,其中与是词语a与词语b的权重系数。
15.在一个优选的实施方式中,文本映射关联方式为:
16.获取文本与语义社区的互交信息来度量文本与语义社区的相似程度;互交信息越小,文本与语义社区之间的关联性越低,文本与语义社区描述的主题相似的可能性越低;互
信息越高,关联性则越高,文本与语义社区描述主题相似的可能性越高,互信息的计算公式为:
17.;
18.其中是文档d被选中的概率,由于在文本与社区的映射过程中,各个文本之间是独立的,设为1;是被选中的概率;
19.是文档d与事件语义社区的联合概率,由文档d与社区的相似度与关联度计算而来,其公式为:
20.。
21.在一个优选的实施方式中,重建语义社区的流程为:
22.通过公式对语义社区的边权重做出调整:
23.;
24.其中是文本映射结束后,通过这些文本构架关联语义链网络时节点a与b之间的语义链权重,是社区划分结束时社区中节点a与b之间的语义链权重,则是原始关联语义链网络中节点a与b之间的语义链权重;
25.文本识别率获得方式为:
26.划分出的语义社区的数量与文本数量的比值,比值越接近于1,说明语义社区划分的结果与实际情况越贴近;
27.。
28.在一个优选的实施方式中,关键词相关性文本集合的生成方式为:
29.输入关键字,对输入的关键字进行简答分词,按照关键字由数据索引库中快速查找与相匹配的文本合集,进而对文本合集进行排序并返回列表显示页面。
30.在一个优选的实施方式中,候选文本句的排序流程为:
31.对文本句得分进行获取,并按照文本句得分进行文本排序,文本排序流程为:
32.通过lexrank算法以句子为节点,以节点之间的相似度为边构造无向图;以每个句子节点的度数以及边的权重对每一个句子节点进行重要性评分时,最终依照重要性评分,
选择分数排在前列的句子作为最后的文本候选句;
33.对文本候选句得分进行计算,其计算方式为:
34.采用向量空间模型对文本候选句进行表示,由于文本候选句均由短文本生成,可以直接获得文本候选句的词语序列;在vsm中以词语作为最小的语言单元,可以将文本句集合表示为:
35.;
36.其中为文本句集合s中的一个文本句,向量表示为,其中表示第k个文本句中第i个词语特征项的 tf-isf值;tf-isf的计算公式为:
37.;
38.其中表示词语w在文本句中的词频,n表示文本句集合中文本句的数量,n表示含有词语w的文本句的数量;
39.通过余弦相似性计算文本句集合中各文本句的相似度作为语言网络图中各节点之间的权重,其计算方式为:
40.;
41.通过n
×
n的矩阵a表示所构成的无向图g,其中n为文本句集合中句子的总数,将矩阵g中的设置为0,即忽略语句节点的自连接:
42.;
43.通过计算文本候选句与事件的语义表示,通过计算公式计算文本句与事件的相关度:
44.;
45.其中e是通过社区发现算法划分的事件语义社区;
46.修改后的语句节点的显著度用表示,计算公式如下:
47.;
48.s指的是整个文本句的集合,d是在区间[0, 1]的可调整参数;d值较大时,则在显著性得分计算时更多的考虑文本句与事件语义的关联度;根据定义lexrank可以转换为以下矩阵形式:
[0049]

[0050]
其中,a、b都是方块矩阵,a矩阵表示语句节点之间的相似性,b矩阵表示语句节点与事件语义之间的相似性。是文本句集合的最终得分。
[0051]
在一个优选的实施方式中,候选文本句的冗余处理方式为:
[0052]
定义两个集合和,其中为空集,中每个元素对应前一步显著性得分计算结果中每一个文本句的得分;
[0053]
对中元素进行降序排序;
[0054]
假设此时中的元素是得分最高的文本句,将从移动到, 重新计算所有文本句的得分,计算公式下所示 :
[0055]

[0056]
执行至成为空集或者文本达到了一个预设的条件限制即可;
[0057]
最后对候选文本进行语句排序,形成候选文本句推荐排序列:
[0058]
当两个候选文本句中均含有时间信息时,则通过时间的先后顺序对候选文本进行排列;
[0059]
当两个候选文本句都来源于同一个数据文本时,则与按照在同一个数据文本原文中的先后顺序对候选文本进行排列;
[0060]
当两个候选文本不含有时间信息以及不来源于同一个数据文本时,则通过文本句与事件语义的相关度进行排序,相关度高的候选文本句排在相关度低的候选文本句前面。
[0061]
在一个优选的实施方式中,候选文本句的准确定位方法为:
[0062]
对候选文本句的可用程度进行选择,对参考性偏离的候选文本句进行剔除,形成新的候选文本句推荐排序列,并同时对剔除的候选文本句进行特征记录,并同时向操作者提问剔除原因进行信息采集,在后续输入关键字进行数据检索时避开剔除原因的文本句。
[0063]
在上述技术方案中,本发明提供的技术效果和优点:
[0064]
1、本发明能够根据输入关键字对相关的文本进行内容检索以及获取文本句得分,之后并按照关键词相似度进行排序,可自发的从文本集合发现语义,进行多文档的生成,针对用户需求生成文章,能够供用户进行数据的快速查看,节约检索时间,提高数据获取效率。
附图说明
[0065]
为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0066]
图1为本发明的方法流程图。
[0067]
图2为本发明的边构造无向图。
具体实施方式
[0068]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0069]
实施例1,请参阅图1所示,本实施例所述基于多维度数据的文章生成方法,包括以下步骤:
[0070]
步骤一、对文本数据进行预处理并建立数据索引库,数据索引库的建立方式包括有构建关联语义链网络、文本映射、重建语义社区与获取文本识别率;
[0071]
构建关联语义链网络的构建流程为:
[0072]
选用文本预处理部分的词语集合作为语义节点集合,基于词语的共现关系作为关联规则(即在同一文本中同时出现的两个语义节点视为关联的,通过语义链的权重来度量语义节点的关联程度);
[0073]
通过语义链的权重对关联语义链网络中的语义社区进行社区划分,从而形成单个描述同一事件或主题的语义社区;语义链的权重计算公式为:
[0074]

[0075]
其中表示词语a与词语b在同一个文本中出现的次数,表示词语a出现过的文本篇数,表示词语b出现过的文本篇数,其中与是词语a与词语b的权重系数;
[0076]
文本映射关联方式为:
[0077]
获取文本与语义社区的互交信息来度量文本与语义社区的相似程度;互交信息越小,文本与语义社区之间的关联性越低,文本与语义社区描述的主题相似的可能性越低;互信息越高,关联性则越高,文本与语义社区描述主题相似的可能性越高,互信息的计算公式为:
[0078]

[0079]
其中是文档d被选中的概率,由于在文本与社区的映射过程中,各个文本之间是独立的,设为1;是被选中的概率;
[0080]
是文档d与事件语义社区的联合概率,由文档d与社区的相似度与关联度计算而来,其公式为:
[0081]

[0082]
重建语义社区的流程为:
[0083]
通过公式对语义社区的边权重做出调整:
[0084]

[0085]
其中是文本映射结束后,通过这些文本构架关联语义链网络时节点a与b之间的语义链权重,是社区划分结束时社区中节点a与b之间的语义链权重,则是原始关联语义链网络中节点a与b之间的语义链权重;
[0086]
文本识别率获得方式为:
[0087]
划分出的语义社区的数量与文本数量的比值,比值越接近于1,说明语义社区划分的结果与实际情况越贴近;
[0088]

[0089]
另一方面使用纯净度指标用来验证算法的准确性;具体计算公式如下;
[0090]

[0091]
其中是准确率与召回率的加权调和平均,取;
[0092]
步骤二、通过输入关键字进行数据检索,并在数据索引库中进行数据查找,形成关键词相关性文本集合;
[0093]
输入关键字,对输入的关键字进行简答分词,按照关键字由数据索引库中快速查找与相匹配的文本合集,进而对文本合集进行排序并返回列表显示页面,形成关键词相关性文本集合;
[0094]
步骤三、将由关键字获取到的文本集合按照网络图结构进行多文本的生成,进而再对文本进行排序;
[0095]
多文本的生成方式为通过对文本集合进行多维度的数据统计(多维度的数据统计包括文本来源网站、媒体关注度等方面);同时对文本集合使用文本相似性分析方法进行聚类,自发的从文本集合发现语义,结合多文档生成方法,针对用户需求生成文章;
[0096]
对文本句得分进行获取,并按照文本句得分进行文本排序,文本排序流程为:
[0097]
如图2所示,通过lexrank算法以句子为节点,以节点之间的相似度为边构造无向图;以每个句子节点的度数以及边的权重对每一个句子节点进行重要性评分时,最终依照重要性评分,选择分数排在前列的句子作为最后的文本候选句;
[0098]
对文本候选句得分进行计算,其计算方式为:
[0099]
采用向量空间模型对文本候选句进行表示,由于文本候选句均由短文本生成,可以直接获得文本候选句的词语序列(而不需要对文本句进行分词、去停用词等操作);在vsm中以词语作为最小的语言单元,可以将文本句集合表示为:
[0100]

[0101]
其中为文本句集合s中的一个文本句,向量表示为,其中表示第k个文本句中第i个词语特征项的 tf-isf值;tf-isf的计算公式为:
[0102]

[0103]
其中表示词语w在文本句中的词频,n表示文本句集合中文本句的数量,n表示含有词语w的文本句的数量;
[0104]
通过余弦相似性计算文本句集合中各文本句的相似度作为语言网络图中各节点之间的权重,其计算方式为:
[0105]

[0106]
通过n
×
n的矩阵a表示所构成的无向图g,其中n为文本句集合中句子的总数,将矩阵g中的设置为0,即忽略语句节点的自连接:
[0107]

[0108]
通过计算文本候选句与事件的语义表示,通过计算公式计算文本句与事件的相关度:
[0109]

[0110]
其中e是通过社区发现算法划分的事件语义社区;
[0111]
修改后的语句节点的显著度用表示,计算公式如下:
[0112]

[0113]
s指的是整个文本句的集合,d是在区间[0, 1]的可调整参数,用于调整显著性计算中语句节点与事件主题的相似度以及语义节点之间的相似度所占的比重;d值较大时,则在显著性得分计算时更多的考虑文本句与事件语义的关联度;根据定义lexrank可以转换为以下矩阵形式:
[0114]

[0115]
其中,a、b都是方块矩阵,a矩阵表示语句节点之间的相似性,b矩阵表示语句节点
与事件语义之间的相似性。是文本句集合的最终得分;
[0116]
冗余处理:
[0117]
定义两个集合和,其中为空集,中每个元素对应前一步显著性得分计算结果中每一个文本句的得分;
[0118]
对中元素进行降序排序;
[0119]
假设此时中的元素是得分最高的文本句,将从移动到, 重新计算所有文本句的得分,计算公式下所示 :
[0120]

[0121]
执行至成为空集或者文本达到了一个预设的条件限制即可;
[0122]
最后对候选文本进行语句排序,形成候选文本句推荐排序列:
[0123]
当两个候选文本句中均含有时间信息时,则通过时间的先后顺序对候选文本进行排列;
[0124]
当两个候选文本句都来源于同一个数据文本时,则与按照在同一个数据文本原文中的先后顺序对候选文本进行排列;
[0125]
当两个候选文本不含有时间信息以及不来源于同一个数据文本时,则通过文本句与事件语义的相关度进行排序,相关度高的候选文本句排在相关度低的候选文本句前面;
[0126]
步骤四、参考者按照候选文本的语句排序进行候选文本句的筛选,形成候选文本句的准确定位;
[0127]
对候选文本句的可用程度进行选择,对参考性偏离的候选文本句进行剔除,形成新的候选文本句推荐排序列,并同时对剔除的候选文本句进行特征记录,并同时向操作者提问剔除原因进行信息采集,在后续输入关键字进行数据检索时避开剔除原因的文本句;
[0128]
能够根据输入关键字对相关的文本进行内容检索以及获取文本句得分,之后并按照关键词相似度进行排序,可自发的从文本集合发现语义,进行多文档的生成,针对用户需求生成文章,能够供用户进行数据的快速查看,节约检索时间,提高数据获取效率。
[0129]
以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以所述权利要求的保护范围为准。

技术特征:
1.基于多维度数据的文章生成方法,其特征在于,包括以下步骤:步骤一、对文本数据进行预处理并建立数据索引库,数据索引库的建立方式包括有构建关联语义链网络、文本映射、重建语义社区与获取文本识别率;步骤二、通过输入关键字进行数据检索,并在数据索引库中进行数据查找,形成关键词相关性文本集合;步骤三、将由关键字获取到的文本集合按照网络图结构进行多文本的生成,进而再对文本进行排序;步骤四、参考者按照候选文本的语句排序进行候选文本句的筛选,形成候选文本句的准确定位。2.根据权利要求1所述的基于多维度数据的文章生成方法,其特征在于:构建关联语义链网络的构建流程为:选用文本预处理部分的词语集合作为语义节点集合,基于词语的共现关系作为关联规则;通过语义链的权重对关联语义链网络中的语义社区进行社区划分,从而形成单个描述同一事件或主题的语义社区;语义链的权重计算公式为:;其中表示词语a与词语b在同一个文本中出现的次数,表示词语a出现过的文本篇数,表示词语b出现过的文本篇数,其中与是词语a与词语b的权重系数。3.根据权利要求2所述的基于多维度数据的文章生成方法,其特征在于:文本映射关联方式为:获取文本与语义社区的互交信息来度量文本与语义社区的相似程度;互交信息越小,文本与语义社区之间的关联性越低,文本与语义社区描述的主题相似的可能性越低;互信息越高,关联性则越高,文本与语义社区描述主题相似的可能性越高,互信息的计算公式为:;其中是文档d被选中的概率,由于在文本与社区的映射过程中,各个文本之间是独立的,设为1;是被选中的概率;是文档d与事件语义社区的联合概率,由文档d与社区的相似度与关联度计算而来,其公式为:
。4.根据权利要求3所述的基于多维度数据的文章生成方法,其特征在于:重建语义社区的流程为:通过公式对语义社区的边权重做出调整:;其中是文本映射结束后,通过这些文本构架关联语义链网络时节点a与b之间的语义链权重,是社区划分结束时社区中节点a与b之间的语义链权重,则是原始关联语义链网络中节点a与b之间的语义链权重;文本识别率获得方式为:划分出的语义社区的数量与文本数量的比值,比值越接近于1,说明语义社区划分的结果与实际情况越贴近;。5.根据权利要求4所述的基于多维度数据的文章生成方法,其特征在于:关键词相关性文本集合的生成方式为:输入关键字,对输入的关键字进行简答分词,按照关键字由数据索引库中快速查找与相匹配的文本合集,进而对文本合集进行排序并返回列表显示页面。6.根据权利要求5所述的基于多维度数据的文章生成方法,其特征在于:候选文本句的排序流程为:对文本句得分进行获取,并按照文本句得分进行文本排序,文本排序流程为:通过lexrank算法以句子为节点,以节点之间的相似度为边构造无向图;以每个句子节点的度数以及边的权重对每一个句子节点进行重要性评分时,最终依照重要性评分,选择分数排在前列的句子作为最后的文本候选句;对文本候选句得分进行计算,其计算方式为:采用向量空间模型对文本候选句进行表示,由于文本候选句均由短文本生成,可以直接获得文本候选句的词语序列;在vsm中以词语作为最小的语言单元,可以将文本句集合表示为:;
其中为文本句集合s中的一个文本句,向量表示为,其中表示第k个文本句中第i个词语特征项的 tf-isf值;tf-isf的计算公式为:;其中表示词语w在文本句中的词频,n表示文本句集合中文本句的数量,n表示含有词语w的文本句的数量;通过余弦相似性计算文本句集合中各文本句的相似度作为语言网络图中各节点之间的权重,其计算方式为:;通过n
×
n的矩阵a表示所构成的无向图g,其中n为文本句集合中句子的总数,将矩阵g中的设置为0,即忽略语句节点的自连接:;通过计算文本候选句与事件的语义表示,通过计算公式计算文本句与事件的相关度:;其中e是通过社区发现算法划分的事件语义社区;修改后的语句节点的显著度用表示,计算公式如下:;s指的是整个文本句的集合,d是在区间[0, 1]的可调整参数;d值较大时,则在显著性得分计算时更多的考虑文本句与事件语义的关联度;根据定义lexrank可以转换为以下矩阵形式:
;其中,a、b都是方块矩阵,a矩阵表示语句节点之间的相似性,b矩阵表示语句节点与事件语义之间的相似性;是文本句集合的最终得分。7.根据权利要求6所述的基于多维度数据的文章生成方法,其特征在于:候选文本句的冗余处理方式为:定义两个集合和,其中为空集,中每个元素对应前一步显著性得分计算结果中每一个文本句的得分;对中元素进行降序排序;假设此时中的元素是得分最高的文本句,将从移动到, 重新计算所有文本句的得分,计算公式下所示 :;执行至成为空集或者文本达到了一个预设的条件限制即可;最后对候选文本进行语句排序,形成候选文本句推荐排序列:当两个候选文本句中均含有时间信息时,则通过时间的先后顺序对候选文本进行排列;当两个候选文本句都来源于同一个数据文本时,则与按照在同一个数据文本原文中的先后顺序对候选文本进行排列;当两个候选文本不含有时间信息以及不来源于同一个数据文本时,则通过文本句与事件语义的相关度进行排序,相关度高的候选文本句排在相关度低的候选文本句前面。8.根据权利要求7所述的基于多维度数据的文章生成方法,其特征在于:候选文本句的准确定位方法为:对候选文本句的可用程度进行选择,对参考性偏离的候选文本句进行剔除,形成新的候选文本句推荐排序列,并同时对剔除的候选文本句进行特征记录,并同时向操作者提问剔除原因进行信息采集,在后续输入关键字进行数据检索时避开剔除原因的文本句。

技术总结
本发明公开了基于多维度数据的文章生成方法,涉及文章生成技术领域,步骤一、对文本数据进行预处理并建立数据索引库,数据索引库的建立方式包括有构建关联语义链网络、文本映射、重建语义社区与获取文本识别率;步骤二、通过输入关键字进行数据检索,并在数据索引库中进行数据查找,形成关键词相关性文本集合;步骤三、将由关键字获取到的文本集合按照网络图结构进行多文本的生成,进而再对文本进行排序;步骤四、参考者按照候选文本的语句排序进行候选文本句的筛选。本发明可自发的从文本集合发现语义,进行多文档的生成,针对用户需求生成文章,能够供用户进行数据的快速查看,节约检索时间,提高数据获取效率。提高数据获取效率。提高数据获取效率。


技术研发人员:陈毅凯 杨石 张凌哲 胡小武 江朋欣 陈杰杰 江永胜
受保护的技术使用者:南京国准数据有限责任公司
技术研发日:2023.06.06
技术公布日:2023/7/12
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐