一种科技成果数据文本挖掘方法、电子设备及存储介质与流程

未命名 07-27 阅读:90 评论:0


1.本说明书一个或多个实施例涉及数据文本挖掘技术领域,尤其涉及一种科技成果数据文本挖掘方法、电子设备及存储介质。


背景技术:

2.数据挖掘(data mining)是采用数学、统计、人工智能和神经网络等领域的科学方法,从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,为各领域提供决策支持的方法、工具和过程。具体来讲,数据挖掘是针对大量数据,运用记忆推理、聚类分析、关联分析、决策树、神经网络、遗传算法等方法,对数据进行分析,以发现数据中隐藏的特征和规律,并由此建立相关的统计分析和演化预测模型,为各个领域提供决策支持。
3.在科技成果培育的全过程管理中,重大科技成果往往呈现一定的特征和规律。这些特征和规律,可以看作是科研活动的发展演化在时空历史信息中表现出来的一致性或连续性,并可能随着时间或空间进行发展变化。而重大科技成果的出现通常意味着科研进展的异常趋势或特征,即科研活动和兴趣点的异常变化。在本项目中,我们拟采用自然语言处理和数据挖掘的方法将具有多模态特征的科技项目数据进行关联融合,研究科研活动和科技成果培育在不同时空尺度下的集聚程度,通过对这些数据进行聚类处理和关联规则分析等无监督学习手段,提取其特征,进而划分出呈现某些相似性的活动,并分析这些数据的关联特征和规律。
4.由于需要对国网科技成果数据库、专家信息库以及文献库等数据库中的内容进行量化、比较等分析,这就要求计算机能够理解各种文本内容的语义。自然语言处理技术是所有与自然语言处理有关的计算机技术的统称,其目的是使计算机理解和接受人类用自然语言输入的指令,完成从一种语言到另一种语言的翻译功能。关键技术包括:1)模式匹配技术,即将计算机将输入的语言内容与其内已设定的单词模式与输入表达式之间的相匹配的技术;2)语法驱动的分析技术,指通过语法规则,如词形词性、句子成分等规则,将输入的自然语言转化为相应的语法结构的一种技术;3)语义文法的分析,即对句子的语法和语义的共同分析,能够解决语法驱动分析中单一对语法分析带来的不足;4)格框架约束分析技术,即输入的自然语言被转化为格内容,它既结合了语法驱动分析技术和语义文法分析技术的优点,又能够克服语义文法中不合文法的现象,解决语句的多义性问题;5)系统文法,是从多个层次分析自然语言的分析方法,它强调句子的整体结构。其主要是从语法、语义和语音等层次来分析自然语言;6)功能文法,是对句子的完全功能描述,它描述了自然语言的特征组合、功能分配、词语组成成分顺序,是一种既可以用于分析,也可以用于生成的文法;7)故事文法,即显示计算机翻译输入的自然语言时,不仅仅从语句的语法、语义、结构的角度,还能够从整个故事的情节发展的角度将信息整合得准确到位。


技术实现要素:

5.有鉴于此,本说明书一个或多个实施例的目的在于提出一种科技成果数据文本挖掘方法、电子设备及存储介质,能够采用自然语言处理和数据挖掘的方法将具有多模态特征的科技项目数据进行关联融合,研究科研活动和科技成果培育在不同时空尺度下的集聚程度,通过对这些数据进行聚类处理和关联规则分析等无监督学习手段,提取其特征,进而划分出呈现某些相似性的活动,并分析这些数据的关联特征和规律。
6.基于上述目的,本说明书一个或多个实施例提供了一种科技成果数据文本挖掘方法,包括:
7.文本预处理,将一个高度概括的向量来表示文本数据,将所述文本数据集概括成一个向量集,所述向量集等同于一个二维表格,根据所述二维表格和所述文本数据特征进行文本预处理;
8.文本特征标引,将预处理完成的文本数据进行分词,获取所述文本数据中的文本特征词;
9.文本自动分类,取一个预分类的文本集作为训练集,分析训练集以导出分类模型,用一个检验过程对该分类模型求解,导出分类模型用于其它联机文本分类;
10.文本聚类,对原始数据进行光谱嵌入,对维度归约后的文本空间运用聚类算法。
11.可选地,所述文本自动分类方法包括:
12.根据训练集文本向量空间模型计算每类文本集的中心向量;
13.将新文本表示为特征向量;
14.计算新文本特征向量和每类中心向量间的相似度;
15.比较每类中心向量与新文本的相似度,将文本分到相似度最大类别中。
16.可选地,所述文本自动分类方法包括:
17.计算特征词属于每个类别的概率向量(ω1,ω2,

,ωn);
18.对于新文本di,计算该文本属于类cj的概率;
19.比较新文本属于所有类的概率,将文本分到概率最大的类别中。
20.可选地,所述文本自动分类方法包括:
21.根据特征项集合重新描述训练文本向量;
22.将新文本表示为特征向量;
23.比较类别的权重,将文本分到权重最大的类别中;
24.在训练文本集中选出与新文本最相似的k个文本;
25.在新文本的k个邻居中,依次计算每类的权重。
26.可选地,所述训练文本集中选出与新文本最相似的k个文本的计算公式为:
[0027][0028]
可选地,在新文本的k个邻居中,依次计算每类的权重的计算公式为:
[0029][0030]
可选地,所述文本聚类还包括混合模型聚类。
[0031]
可选地,所述混合模型聚类包括:
[0032]
基于文本数据和附加的先验知识预估模型参数;
[0033]
基于预估的模型参数推断聚类。
[0034]
本说明书的一个或多个实施例还提供了一种科技成果数据文本挖掘电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如下所述的方法:
[0035]
文本预处理,将一个高度概括的向量来表示文本数据,将所述文本数据集概括成一个向量集,所述向量集等同于一个二维表格,根据所述二维表格和所述文本数据特征进行文本预处理;
[0036]
文本特征标引,将预处理完成的文本数据进行分词,获取所述文本数据中的文本特征词;
[0037]
文本自动分类,取一个预分类的文本集作为训练集,分析训练集以导出分类模型,用一个检验过程对该分类模型求解,导出分类模型用于其它联机文本分类;
[0038]
文本聚类,对原始数据进行光谱嵌入,对维度归约后的文本空间运用聚类算法。
[0039]
本说明书的一个或多个实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如下所述方法:
[0040]
文本预处理,将一个高度概括的向量来表示文本数据,将所述文本数据集概括成一个向量集,所述向量集等同于一个二维表格,根据所述二维表格和所述文本数据特征进行文本预处理;
[0041]
文本特征标引,将预处理完成的文本数据进行分词,获取所述文本数据中的文本特征词;
[0042]
文本自动分类,取一个预分类的文本集作为训练集,分析训练集以导出分类模型,用一个检验过程对该分类模型求解,导出分类模型用于其它联机文本分类;
[0043]
文本聚类,对原始数据进行光谱嵌入,对维度归约后的文本空间运用聚类算法。
[0044]
从上面所述可以看出,本说明书一种科技成果数据文本挖掘方法、电子设备及存储介质,可以在在报奖策略和成果培育措施的指导下,建立科技成果培育规划实施的路线图及时间表,明确重点科技成果培育项目。结合各类科技奖励的评奖工作安排和进度,按照公司发展战略目标,明确培育计划的实施时间表和路线图。在报奖策略和成果培育措施的指导下,研究制定公司科技成果培育的规划和计划,落实相关规划内容的实施路径和主要手段。以公司科技发展战略为指引,以培育大成果为导向,全面总结公司主要技术领域获得的奖励成果与工作经验,深入研究各级奖励的相关政策发展趋势及行业形势,系统分析公司科技成果奖励未来发展的战略需求,全面梳理公司相关领域的重点成果培育计划,优化科技资源配置,提升研究成果的质量和水平。从国家重大战略实施的需求、电力行业科研前沿和热点、实际工作需求和创新点等多个方面,全面了解国内外科技发展,关注相关领域内
竞争对手的进展情况,分析电力行业最新的技术方向和关键领域。结合文献资料调研的科技发展热点领域,以及行业内领域专家对于未来电力行业科技领域的发展重点,通过文献调研、实地访谈、专家评判、闭门研讨会、统计分析等方法确定公司重点科技成果培育项目。
附图说明
[0045]
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0046]
图1为本说明书一个或多个实施例所提供的一种科技成果数据文本挖掘方法示意图;
[0047]
图2为本说明书一个或多个实施例所提供的一种科技成果数据文本挖掘电子设备示意图。
具体实施方式
[0048]
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
[0049]
需要说明的是,除非另外定义,本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本说明书一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
[0050]
数据挖掘(data mining)是采用数学、统计、人工智能和神经网络等领域的科学方法,从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,为各领域提供决策支持的方法、工具和过程。具体来讲,数据挖掘是针对大量数据,运用记忆推理、聚类分析、关联分析、决策树、神经网络、遗传算法等方法,对数据进行分析,以发现数据中隐藏的特征和规律,并由此建立相关的统计分析和演化预测模型,为各个领域提供决策支持。
[0051]
在科技成果培育的全过程管理中,重大科技成果往往呈现一定的特征和规律。这些特征和规律,可以看作是科研活动的发展演化在时空历史信息中表现出来的一致性或连续性,并可能随着时间或空间进行发展变化。而重大科技成果的出现通常意味着科研进展的异常趋势或特征,即科研活动和兴趣点的异常变化。在本项目中,我们拟采用自然语言处理和数据挖掘的方法将具有多模态特征的科技项目数据进行关联融合,研究科研活动和科技成果培育在不同时空尺度下的集聚程度,通过对这些数据进行聚类处理和关联规则分析等无监督学习手段,提取其特征,进而划分出呈现某些相似性的活动,并分析这些数据的关联特征和规律。
[0052]
由于需要对国网科技成果数据库、专家信息库以及文献库等数据库中的内容进行量化、比较等分析,这就要求计算机能够理解各种文本内容的语义。自然语言处理技术是所有与自然语言处理有关的计算机技术的统称,其目的是使计算机理解和接受人类用自然语言输入的指令,完成从一种语言到另一种语言的翻译功能。关键技术包括:1)模式匹配技术,即将计算机将输入的语言内容与其内已设定的单词模式与输入表达式之间的相匹配的技术;2)语法驱动的分析技术,指通过语法规则,如词形词性、句子成分等规则,将输入的自然语言转化为相应的语法结构的一种技术;3)语义文法的分析,即对句子的语法和语义的共同分析,能够解决语法驱动分析中单一对语法分析带来的不足;4)格框架约束分析技术,即输入的自然语言被转化为格内容,它既结合了语法驱动分析技术和语义文法分析技术的优点,又能够克服语义文法中不合文法的现象,解决语句的多义性问题;
[0053]
5)系统文法,是从多个层次分析自然语言的分析方法,它强调句子的整体结构。其主要是从语法、语义和语音等层次来分析自然语言;6)功能文法,是对句子的完全功能描述,它描述了自然语言的特征组合、功能分配、词语组成成分顺序,是一种既可以用于分析,也可以用于生成的文法;7)故事文法,即显示计算机翻译输入的自然语言时,不仅仅从语句的语法、语义、结构的角度,还能够从整个故事的情节发展的角度将信息整合得准确到位。
[0054]
针对上述问题,本技术提出一种科技成果数据文本挖掘方法、电子设备及存储介质,能够采用自然语言处理和数据挖掘的方法将具有多模态特征的科技项目数据进行关联融合,研究科研活动和科技成果培育在不同时空尺度下的集聚程度,通过对这些数据进行聚类处理和关联规则分析等无监督学习手段,提取其特征,进而划分出呈现某些相似性的活动,并分析这些数据的关联特征和规律。
[0055]
以下,通过具体的实施例进一步详细说明本公开的技术方案。
[0056]
在一方面,本说明书实施例提供了一种科技成果数据文本挖掘方法。
[0057]
如图1所示,本说明书的一个或多个实施例所提供的一种科技成果数据文本挖掘方法,包括:
[0058]
s1:文本预处理,将一个高度概括的向量来表示文本数据,将所述文本数据集概括成一个向量集,所述向量集等同于一个二维表格,根据所述二维表格和所述文本数据特征进行文本预处理;
[0059]
s2:文本特征标引,将预处理完成的文本数据进行分词,获取所述文本数据中的文本特征词;
[0060]
s3:文本自动分类,取一个预分类的文本集作为训练集,分析训练集以导出分类模型,用一个检验过程对该分类模型求解,导出分类模型用于其它联机文本分类;
[0061]
s4:文本聚类,对原始数据进行光谱嵌入,对维度归约后的文本空间运用聚类算法。
[0062]
所述文本自动分类方法包括:
[0063]
根据训练集文本向量空间模型计算每类文本集的中心向量;
[0064]
将新文本表示为特征向量;
[0065]
计算新文本特征向量和每类中心向量间的相似度;
[0066]
比较每类中心向量与新文本的相似度,将文本分到相似度最大类别中。
[0067]
所述文本自动分类方法包括:
[0068]
计算特征词属于每个类别的概率向量(ω1,ω2,

,ωn);
[0069]
对于新文本di,计算该文本属于类cj的概率;
[0070]
比较新文本属于所有类的概率,将文本分到概率最大的类别中。
[0071]
所述文本自动分类方法包括:
[0072]
根据特征项集合重新描述训练文本向量;
[0073]
将新文本表示为特征向量;
[0074]
比较类别的权重,将文本分到权重最大的类别中;
[0075]
在训练文本集中选出与新文本最相似的k个文本;
[0076]
在新文本的k个邻居中,依次计算每类的权重。
[0077]
所述训练文本集中选出与新文本最相似的k个文本的计算公式为:
[0078][0079]
在新文本的k个邻居中,依次计算每类的权重的计算公式为:
[0080][0081]
所述文本聚类还包括混合模型聚类。
[0082]
所述混合模型聚类包括:
[0083]
基于文本数据和附加的先验知识预估模型参数;
[0084]
基于预估的模型参数推断聚类。
[0085]
本说明书的一个或多个实施例还提供了一种科技成果数据文本挖掘电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如下所述的方法:
[0086]
文本预处理,将一个高度概括的向量来表示文本数据,将所述文本数据集概括成一个向量集,所述向量集等同于一个二维表格,根据所述二维表格和所述文本数据特征进行文本预处理;
[0087]
文本特征标引,将预处理完成的文本数据进行分词,获取所述文本数据中的文本特征词;
[0088]
文本自动分类,取一个预分类的文本集作为训练集,分析训练集以导出分类模型,用一个检验过程对该分类模型求解,导出分类模型用于其它联机文本分类;
[0089]
文本聚类,对原始数据进行光谱嵌入,对维度归约后的文本空间运用聚类算法。
[0090]
本说明书的一个或多个实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如下所述方法:
[0091]
文本预处理,将一个高度概括的向量来表示文本数据,将所述文本数据集概括成
一个向量集,所述向量集等同于一个二维表格,根据所述二维表格和所述文本数据特征进行文本预处理;
[0092]
文本特征标引,将预处理完成的文本数据进行分词,获取所述文本数据中的文本特征词;
[0093]
文本自动分类,取一个预分类的文本集作为训练集,分析训练集以导出分类模型,用一个检验过程对该分类模型求解,导出分类模型用于其它联机文本分类;
[0094]
文本聚类,对原始数据进行光谱嵌入,对维度归约后的文本空间运用聚类算法。
[0095]
可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。
[0096]
需要说明的是,本说明书一个或多个实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
[0097]
需要说明的是,上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0098]
在另一方面,本说明书实施例提供了一种科技成果数据文本挖掘电子设备。
[0099]
图2示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
[0100]
处理器1010可以采用通用的cpu(central processing unit,中央处理器)、微处理器、应用专用集成电路(application specific integrated circuit,asic)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供所述科技成果数据文本挖掘方法的技术方案。
[0101]
存储器1020可以采用rom(read only memory,只读存储器)、ram(random access memory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
[0102]
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
[0103]
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信,也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。
[0104]
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
[0105]
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例所述科技成果数据文本挖掘方法的技术方案所必需的组件,而不必包含图中所示的全部组件。
[0106]
上述实施例的电子设备用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
[0107]
在另一方面,本说明书实施例提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行所述科技成果数据文本挖掘方法。
[0108]
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
[0109]
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
[0110]
另外,为简化说明和讨论,并且为了不会使本说明书一个或多个实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(ic)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本说明书一个或多个实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本说明书一个或多个实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本说明书一个或多个实施例。因此,这些描述应被认为是说明性的而不是限制性的。
[0111]
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态ram(dram))可以使用所讨论的实施例。
[0112]
本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。

技术特征:
1.一种科技成果数据文本挖掘方法,其特征在于,包括:文本预处理,将一个高度概括的向量来表示文本数据,将所述文本数据集概括成一个向量集,所述向量集等同于一个二维表格,根据所述二维表格和所述文本数据特征进行文本预处理;文本特征标引,将预处理完成的文本数据进行分词,获取所述文本数据中的文本特征词;文本自动分类,取一个预分类的文本集作为训练集,分析训练集以导出分类模型,用一个检验过程对该分类模型求解,导出分类模型用于其它联机文本分类;文本聚类,对原始数据进行光谱嵌入,对维度归约后的文本空间运用聚类算法。2.根据权利要求1所述的一种科技成果数据文本挖掘方法,其特征在于,所述文本自动分类方法包括:根据训练集文本向量空间模型计算每类文本集的中心向量;将新文本表示为特征向量;计算新文本特征向量和每类中心向量间的相似度;比较每类中心向量与新文本的相似度,将文本分到相似度最大类别中。3.根据权利要求1所述的一种科技成果数据文本挖掘方法,其特征在于,所述文本自动分类方法包括:计算特征词属于每个类别的概率向量(ω1,ω2,


n
);对于新文本di,计算该文本属于类cj的概率;比较新文本属于所有类的概率,将文本分到概率最大的类别中。4.根据权利要求1所述的一种科技成果数据文本挖掘方法,其特征在于,所述文本自动分类方法包括:根据特征项集合重新描述训练文本向量;将新文本表示为特征向量;比较类别的权重,将文本分到权重最大的类别中;在训练文本集中选出与新文本最相似的k个文本;在新文本的k个邻居中,依次计算每类的权重。5.根据权利要求4所述的一种科技成果数据文本挖掘方法,其特征在于,所述训练文本集中选出与新文本最相似的k个文本的计算公式为:6.根据权利要求4所述的一种科技成果数据文本挖掘方法,其特征在于,在新文本的k个邻居中,依次计算每类的权重的计算公式为:
7.根据权利要求1所述的一种科技成果数据文本挖掘方法,其特征在于,所述文本聚类还包括混合模型聚类。8.根据权利要求7所述的一种科技成果数据文本挖掘方法,其特征在于,所述混合模型聚类包括:基于文本数据和附加的先验知识预估模型参数;基于预估的模型参数推断聚类。9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任意一项所述的方法。10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行权利要求1至8任一所述方法。

技术总结
本说明书实施例提供一种科技成果数据文本挖掘方法、电子设备及存储介质。所述方法包括:文本预处理,将一个高度概括的向量来表示文本数据,将所述文本数据集概括成一个向量集,所述向量集等同于一个二维表格,根据所述二维表格和所述文本数据特征进行文本预处理;文本特征标引,将预处理完成的文本数据进行分词,获取所述文本数据中的文本特征词;文本自动分类,取一个预分类的文本集作为训练集,分析训练集以导出分类模型,用一个检验过程对该分类模型求解,导出分类模型用于其它联机文本分类;文本聚类,对原始数据进行光谱嵌入,对维度归约后的文本空间运用聚类算法。度归约后的文本空间运用聚类算法。度归约后的文本空间运用聚类算法。


技术研发人员:赵军愉 柴小亮 王强 徐松晓 杨伯青 杨超 董旭亮 马秣然 马晶晶 王辉 吕航
受保护的技术使用者:国家电网有限公司
技术研发日:2022.01.14
技术公布日:2023/7/26
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐