文本分类方法、装置、设备及计算机可读介质与流程
未命名
08-07
阅读:125
评论:0
1.本发明涉及自然语言技术领域,尤其涉及一种文本分类方法、装置、设备及介质。
背景技术:
2.随着信息的爆炸式增长,人工标注数据已经变得耗时、质量低下,且易于受到标注人主观意识的影响,特别是医疗行业,专业的医师往往时间有限,需要服务的病患众多,无法将时间花在繁杂的医疗文本分类上,而专业的数据标注分类人员在处理医疗文本分类时,由于医疗词汇的专业性较强,经常是错误频出,因此,利用机器自动化的实现对文本的标注变得具有现实意义,将重复且枯燥的医疗文本的文本标注任务交由计算机进行处理能够有效克服以上问题。
3.医疗文本分类是指用计算机对医疗文本按照一定的分类体系或标准进行自动分类标记,常常通过基于文本判别函数的文本分类模型进行工作,而现有的文本判别函数一般都基于欧式空间,十分容易受到噪声数据的影响,从而导致医疗文本分类的准确度低下。
技术实现要素:
4.本发明提供一种文本分类方法、装置、设备及介质,其主要目的在于对医疗文本进行分类时,将模型的文本判别函数从欧式空间表示转换为角度空间表示,提升医疗类文本分类的准确度。
5.为实现上述目的,本发明提供的一种文本分类方法,包括:
6.获取预训练的初始文本分类模型,并从所述初始文本分类模型中获取文本判别函数;
7.将所述文本判别函数从欧式空间表示转换为角度空间表示,得到更新文本判别函数;
8.获取预设的训练语句集,并根据所述训练语句集中的训练语句构建三元语句组;
9.基于所述三元语句组进行函数建模,得到三元损失函数;
10.根据所述更新文本判别函数和所述三元损失函数构建模型目标函数,并通过所述模型目标函数构建文本分类模型;
11.获取待分类文本,通过所述文本分类模型对所述待分类文本进行语义分类。
12.可选地,所述从所述初始文本分类模型中获取文本判别函数,包括:
13.获取预设的文本集合,并对所述文本集合中的初始文本进行数据增强,得到增强文本;
14.将所述文本集合中的初始文本按照预设批次划分方式划分批次后输入所述初始文本分类模型,得到多个初始文本分类特征集合;
15.将各个所述初始文本对应的增强文本按照所述批次划分方式划分批次后输入所述初始文本分类模型,得到多个增强文本分类特征集合;
16.将所述初始文本分类特征集合中的初始文本分类特征作为特征样本,所述初始文
本分类特征集合对应的增强文本分类特征集合中的增强文本分类特征作为特征正样本,所述初始文本分类特征集合中其余初始文本分类特征作为特征负样本,构建所述文本判别函数。
17.可选地,所述将所述文本判别函数从欧式空间表示转换为角度空间表示,得到更新文本判别函数,包括:
18.获取所述文本判别函数中的特征式,并将所述特征式通过余弦相似度的角度进行表示,得到角度特征式;
19.通过所述角度特征式替换所述文本判别函数中的特征式,得到所述更新文本判别函数。
20.可选地,所述根据所述训练语句集中的训练语句构建三元语句组,包括:
21.获取所述训练语句集中的任一训练语句作为样本语句,并对所述样本语句进行掩码,得到第一掩码语句和第二掩码语句;
22.根据所述样本语句、第一掩码语句和第二掩码语句构建所述三元语句组。
23.可选地,所述文本判别函数为:
[0024][0025]
其中,sim为相似度计算函数,τ为温度超参,hi为特征样本,为特征正样本,hj为特征负样本,n为特征负样本的选取个数。
[0026]
可选地,所述三元损失函数为:
[0027][0028]
其中,ni为样本语句,n
′i为第一掩码语句,n
″i为第二掩码语句,sim为相似度计算函数,m为所述第一掩码语句和所述第二掩码语句距离间的偏移量。
[0029]
为了解决上述问题,本发明还提供一种文本分类装置,所述装置包括:
[0030]
判别函数更新模块,用于获取预训练的初始文本分类模型,并从所述初始文本分类模型中获取文本判别函数,将所述文本判别函数从欧式空间表示转换为角度空间表示,得到更新文本判别函数;
[0031]
损失函数构建模块,用于获取预设的训练语句集,并根据所述训练语句集中的训练语句构建三元语句组,基于所述三元语句组进行函数建模,得到三元损失函数;
[0032]
分类模型构建模块,用于根据所述更新文本判别函数和所述三元损失函数构建模型目标函数,并通过所述模型目标函数构建文本分类模型;
[0033]
文本语义分类模块,用于获取待分类文本,通过所述文本分类模型对所述待分类文本进行语义分类。
[0034]
可选地,所述将所述文本判别函数从欧式空间表示转换为角度空间表示,得到更新文本判别函数,包括:
[0035]
获取所述文本判别函数中的特征式,并将所述特征式通过余弦相似度的角度进行表示,得到角度特征式;
[0036]
通过所述角度特征式替换所述文本判别函数中的特征式,得到所述更新文本判别
函数。
[0037]
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
[0038]
至少一个处理器;以及,
[0039]
与所述至少一个处理器通信连接的存储器;其中,
[0040]
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的文本分类方法。
[0041]
为了解决上述问题,本发明还提供一种计算机可读存储介质,包括存储数据区和存储程序区,存储数据区存储创建的数据,存储程序区存储有计算机程序;其中,所述计算机程序被处理器执行时实现如上所述的文本分类方法。
[0042]
本发明实施例中,首先获取预训练的初始文本分类模型,并从初始文本分类模型中获取文本判别函数,之后将文本判别函数从欧式空间表示转换为角度空间表示,得到更新文本判别函数,然后获取预设的训练语句集,并根据训练语句集中的语句构建三元语句组,基于三元语句组,进行函数建模,得到三元损失函数,最后根据更新文本判别函数和三元损失函数构建模型目标函数,并通过模型目标函数构建文本分类模型,通过文本分类模型对预设待分类文本进行语义分类。由于本发明将初始文本判别模型中的文本判别函数的表示方式进行了转换,增强了判别函数的判别能力和对噪声的鲁棒性,并且根据训练语句组中的训练语句构建三元损失函数,使得损失函数可以学习医疗文本间语义相似性的顺序关系,进而实现提升文本分类模型在基于文本语义进行医疗文本分类的分类准确度的目的。
附图说明
[0043]
图1为本发明一实施例提供的一种文本分类方法的流程示意图;
[0044]
图2为本发明一实施例提供一种文本分类方法中一个步骤的详细流程示意图;
[0045]
图3为本发明一实施例提供一种文本分类方法中一个步骤的详细流程示意图;
[0046]
图4为本发明一实施例提供的文本分类装置的模块示意图;
[0047]
图5为本发明一实施例提供的实现文本分类方法的电子设备的内部结构示意图。
[0048]
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0049]
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0050]
本技术实施例提供一种文本分类方法。所述文本分类方法的执行主体包括但不限于服务端、终端等能够被配置为执行本技术实施例提供的该方法的电子设备中的至少一种。其中,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。换言之,所述文本分类方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。
[0051]
参照图1所示,为本发明一实施例提供的一种文本分类方法的流程示意图。在本实施例中,所述文本分类方法包括以下步骤s1-s6:
[0052]
s1、获取预训练的初始文本分类模型,并从所述初始文本分类模型中获取文本判别函数。
[0053]
本发明实施例中,所述初始文本分类模型为bert(bidirectional encoder representation from transformers)模型,还可称之为句子表征模型,所述初始文本分类模型是基于transformer中的encoder并加上双向的结构形式,除开可以用于文本分类任务外,还可用于命名实体识别任务、文本相似度判断任务、回归任务等。
[0054]
其中,所述初始文本分类模型由于是bert模型,因此,采用的预训练范式为自编码(ae)预训练,除此之外还有采用自回归(ar)预训练范式的gpt(generative pre-training)模型,又可称之为生成式预训练模型。在应用类型中,gpt模型更适合于文本生成任务,bert模型更适合文本理解任务以及文本理解任务派生的相关任务,如本方案所应用的文本分类任务。
[0055]
进一步地,所述初始文本分类模型为深度学习模型,能够应用于多种不同的领域中,如语音识别、医疗诊断、应用程度的测试等。
[0056]
其中,应用于医疗诊断领域时,可以通过从医学报告文本或者临床数据文本中自动识别患者的疾病或症状;将各种类型的医疗事件(如手术、门诊等)归类,帮助医院对工作流程进行优化和管理;以及基于患者临床病历或检查报告,做出病人情况综合分析,给予医生辅助决策支持等。
[0057]
本发明实施例中,所述文本判别函数为所述初始文本分类模型中对语句文本进行分类的函数。
[0058]
参考图2所示,进一步地,所述从所述初始文本分类模型中获取文本判别函数,包括:
[0059]
s101、获取预设的文本集合,并对所述文本集合中的初始文本进行数据增强,得到增强文本;
[0060]
s102、将所述文本集合中的初始文本按照预设批次划分方式划分批次后输入所述初始文本分类模型,得到多个初始文本分类特征集合;
[0061]
s103、将各个所述初始文本对应的增强文本按照所述批次划分方式划分批次后输入所述初始文本分类模型,得到多个增强文本分类特征集合;
[0062]
s104、将所述初始文本分类特征集合中的初始文本分类特征作为特征样本,所述初始文本分类特征集合对应的增强文本分类特征集合中的增强文本分类特征作为特征正样本,所述初始文本分类特征集合中其余初始文本分类特征作为特征负样本,构建所述文本判别函数。
[0063]
其中,所述数据增强为对已有数据进行改动或从已有数据新创建合成数据,以增加数据量的方法,所述初始文本分类特征集合中的各个特征均为同一划分批次中的特征,所述增强文本分类特征集合中的各个特征也均为同一划分批次中的特征。
[0064]
作为本发明的一个实施例,所述数据增强方法为dropout数据增强方法,通过减少所述初始文本的特征的方式获取所述初始文本对应的增强文本。
[0065]
例如,x、y、z为同一划分批次的初始文本,a、b、c为初始文本输入初始文本分类模
型后得到的初始文本特征,a、b、c为进行数据增强后的初始文本通过初始文本分类模型后得到的增强文本分类特征,则将x作为特征样本时,a作为特征正样本,b和c作为特征负样本。
[0066]
具体的,本方案中可通过构建特征正负样本获取文本判别函数的方法属于对比学习方式。
[0067]
本发明实施例中,所述文本判别函数又可称之为nt-xen目标函数:
[0068][0069]
其中,sim为相似度计算函数,τ为温度超参,hi为特征样本,为特征正样本,hj为特征负样本,n为特征负样本的选取个数。
[0070]
s2、将所述文本判别函数从欧式空间表示转换为角度空间表示,得到更新文本判别函数。
[0071]
本发明实施例中,所述欧式空间即为所述欧几里得空间,表示为对现实空间的规则抽象和推广,所述角度空间为将三维的欧几里得空间转化为二维的通过角度表示的平面空间。
[0072]
本发明实施例中,所述更新文本判别函数为从角度空间表示的所述文本判别函数。
[0073]
由于在欧式空间中,文本判别函数十分容易受到噪声数据的影响,往往一个细微的扰动都会造成所述文本判别函数产生错误的判别,因此,导致基于所述文本判别函数的初始文本分类模型用于文本分类的准确度下降。而将欧式空间转化为角度空间后得到更新文本判别函数,以此提升更新文本判别函数的模型鲁棒性。
[0074]
参考图3所示,进一步地,所述将所述文本判别函数从欧式空间表示转换为角度空间表示,得到更新文本判别函数,包括:
[0075]
s201、获取所述文本判别函数中的特征式,并将所述特征式通过余弦相似度的角度进行表示,得到角度特征式;
[0076]
s202、通过所述角度特征式替换所述文本判别函数中的特征式,得到所述更新文本判别函数。
[0077]
本发明实施例中,所述角度特征式为:
[0078][0079]
其中,hi为所述特征样本,hj为所述特征负样本,为所述特征样本的转置。
[0080]
本发明实施例中,所述更新文本判别函数:
[0081][0082]
其中,τ为温度超参,k为θ
i,j
的偏移量。
[0083]
s3、获取预设的训练语句集,并根据所述训练语句集中的训练语句构建三元语句
组。
[0084]
本发明实施例中,所述训练语句集用于构建三元语句组,所述训练语句为医疗领域内的语句。
[0085]
本发明实施例中,所述三元语句组为对所述训练语句集中的语句进行掩码后得到的句子,比如,任选一个句子作为样本句子,分别掩码20%和40%得到两个句子,这两个句子和样本句子构成三元语句组。
[0086]
进一步地,所述根据所述训练语句集中的训练语句构建三元语句组,包括:
[0087]
获取所述训练语句集中的任一训练语句作为样本语句,并对所述样本语句进行掩码,得到第一掩码语句和第二掩码语句;
[0088]
根据所述样本语句、第一掩码语句和第二掩码语句构建所述三元语句组。
[0089]
本发明实施例中,通过构建三元句组可以区分不同句子之间的轻微语义差异,明确句子间的语义顺序。
[0090]
s4、基于所述三元语句组进行函数建模,得到三元损失函数。
[0091]
本发明实施例中,所述三元损失函数为:
[0092][0093]
其中,ni为样本语句,n
′i为第一掩码语句,n
″i为第二掩码语句,sim为相似度计算函数,m为所述第一掩码语句和所述第二掩码语句距离间的偏移量。
[0094]
s5、根据所述更新文本判别函数和所述三元损失函数构建模型目标函数,并通过所述模型目标函数构建文本分类模型。
[0095]
本发明实施例中,所述模型目标函数为:
[0096][0097]
其中,为所述模型目标函数,为所述更新文本判别函数,λ为相关系数
[0098]
本发明实施例中,所述文本分类模型相较于所述初始文本分类模型而言增强了文本判别能力,并可以确定所述预设待分类文本的语义顺序。
[0099]
s6、获取待分类文本,通过所述文本分类模型对所述待分类文本进行语义分类。
[0100]
本发明实施例中,所述待分类文本为需要进行语义分类的文本,所述待分类文本的文本格式未做限定,可以为中文文本、英文文本或者其他格式的文本。
[0101]
其中,所述待分类文本可以为医疗领域的医疗文献、病例记录、药品说明等文本,对这些文本进行分类时,需要高度严谨、专业的语言知识和数理统计的分析能力。
[0102]
在一种可能的实现方式中,可以通过所述待分类文本测试所述文本分类模型处理文本分类任务时的准确性。
[0103]
本发明实施例中,首先获取预训练的初始文本分类模型,并从初始文本分类模型中获取文本判别函数,之后将文本判别函数从欧式空间表示转换为角度空间表示,得到更新文本判别函数,然后获取预设的训练语句集,并根据训练语句集中的语句构建三元语句组,基于三元语句组,进行函数建模,得到三元损失函数,最后根据更新文本判别函数和三元损失函数构建模型目标函数,并通过模型目标函数构建文本分类模型,通过文本分类模型对预设待分类文本进行语义分类。由于本发明将初始文本判别模型中的文本判别函数的表示方式进行了转换,增强了判别函数的判别能力和对噪声的鲁棒性,并且根据训练语句
组中的训练语句构建三元损失函数,使得损失函数可以学习医疗文本间语义相似性的顺序关系,进而实现提升文本分类模型在基于文本语义进行医疗文本分类的分类准确度的目的。
[0104]
如图4所示,是本发明文本分类装置的模块示意图。
[0105]
本发明所述文本分类装置100可以安装于电子设备中。根据实现的功能,所述文本分类装置可以包括判别函数更新模块101、损失函数构建模块102、分类模型构建模块103和文本语义分类模块104。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
[0106]
在本实施例中,关于各模块/单元的功能如下:
[0107]
所述判别函数更新模块101,用于获取预训练的初始文本分类模型,并从所述初始文本分类模型中获取文本判别函数,将所述文本判别函数从欧式空间表示转换为角度空间表示,得到更新文本判别函数;
[0108]
损失函数构建模块102,用于获取预设的训练语句集,并根据所述训练语句集中的训练语句构建三元语句组,基于所述三元语句组进行函数建模,得到三元损失函数;
[0109]
分类模型构建模块103,用于根据所述更新文本判别函数和所述三元损失函数构建模型目标函数,并通过所述模型目标函数构建文本分类模型;
[0110]
文本语义分类模块104,用于获取待分类文本,通过所述文本分类模型对所述待分类文本进行语义分类。
[0111]
详细地,本发明实施例中所述文本分类装置100中所述的各模块在使用时采用与上述图1至图3所述的文本分类方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
[0112]
如图5所示,是本发明实现文本分类方法的电子设备的结构示意图。
[0113]
所述电子设备可以包括处理器10、存储器11、通信总线12以及通信接口13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如文本分类程序。
[0114]
其中,所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(central processing unit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(control unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如执行文本分类程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。
[0115]
所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:sd或dx存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(smart media card,smc)、安全数字(secure digital,sd)卡、闪存卡(flash card)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据,例如文本分类程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数
据。
[0116]
所述通信总线12可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
[0117]
所述通信接口13用于上述电子设备与其他设备之间的通信,包括网络接口和用户接口。可选地,所述网络接口可以包括有线接口和/或无线接口(如wi-fi接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(display)、输入单元(比如键盘(keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organic light-emitting diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
[0118]
图5仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图5示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
[0119]
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、wi-fi模块等,在此不再赘述。
[0120]
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
[0121]
所述电子设备中的所述存储器11存储的文本分类程序是多个计算机程序的组合,在所述处理器10中运行时,可以实现:
[0122]
获取预训练的初始文本分类模型,并从所述初始文本分类模型中获取文本判别函数;
[0123]
将所述文本判别函数从欧式空间表示转换为角度空间表示,得到更新文本判别函数;
[0124]
获取预设的训练语句集,并根据所述训练语句集中的训练语句构建三元语句组;
[0125]
基于所述三元语句组进行函数建模,得到三元损失函数;
[0126]
根据所述更新文本判别函数和所述三元损失函数构建模型目标函数,并通过所述模型目标函数构建文本分类模型;
[0127]
获取待分类文本,通过所述文本分类模型对所述待分类文本进行语义分类。
[0128]
具体地,所述处理器10对上述计算机程序的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
[0129]
进一步地,所述电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以
包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)。
[0130]
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
[0131]
获取预训练的初始文本分类模型,并从所述初始文本分类模型中获取文本判别函数;
[0132]
将所述文本判别函数从欧式空间表示转换为角度空间表示,得到更新文本判别函数;
[0133]
获取预设的训练语句集,并根据所述训练语句集中的训练语句构建三元语句组;
[0134]
基于所述三元语句组进行函数建模,得到三元损失函数;
[0135]
根据所述更新文本判别函数和所述三元损失函数构建模型目标函数,并通过所述模型目标函数构建文本分类模型;
[0136]
获取待分类文本,通过所述文本分类模型对所述待分类文本进行语义分类。
[0137]
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
[0138]
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0139]
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
[0140]
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
[0141]
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
[0142]
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
[0143]
本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
[0144]
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中
陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
[0145]
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
技术特征:
1.一种文本分类方法,其特征在于,所述方法包括:获取预训练的初始文本分类模型,并从所述初始文本分类模型中获取文本判别函数;将所述文本判别函数从欧式空间表示转换为角度空间表示,得到更新文本判别函数;获取预设的训练语句集,并根据所述训练语句集中的训练语句构建三元语句组;基于所述三元语句组进行函数建模,得到三元损失函数;根据所述更新文本判别函数和所述三元损失函数构建模型目标函数,并通过所述模型目标函数构建文本分类模型;获取待分类文本,通过所述文本分类模型对所述待分类文本进行语义分类。2.如权利要求1所述的文本分类方法,其特征在于,所述从所述初始文本分类模型中获取文本判别函数,包括:获取预设的文本集合,并对所述文本集合中的初始文本进行数据增强,得到增强文本;将所述文本集合中的初始文本按照预设批次划分方式划分批次后输入所述初始文本分类模型,得到多个初始文本分类特征集合;将各个所述初始文本对应的增强文本按照所述批次划分方式划分批次后输入所述初始文本分类模型,得到多个增强文本分类特征集合;将所述初始文本分类特征集合中的初始文本分类特征作为特征样本,所述初始文本分类特征集合对应的增强文本分类特征集合中的增强文本分类特征作为特征正样本,所述初始文本分类特征集合中其余初始文本分类特征作为特征负样本,构建所述文本判别函数。3.如权利要求1所述的文本分类方法,其特征在于,所述将所述文本判别函数从欧式空间表示转换为角度空间表示,得到更新文本判别函数,包括:获取所述文本判别函数中的特征式,并将所述特征式通过余弦相似度的角度进行表示,得到角度特征式;通过所述角度特征式替换所述文本判别函数中的特征式,得到所述更新文本判别函数。4.如权利要求1所述的文本分类方法,其特征在于,所述根据所述训练语句集中的训练语句构建三元语句组,包括:获取所述训练语句集中的任一训练语句作为样本语句,并对所述样本语句进行掩码,得到第一掩码语句和第二掩码语句;根据所述样本语句、第一掩码语句和第二掩码语句构建所述三元语句组。5.如权利要求1所述的文本分类方法,其特征在于,所述文本判别函数为:其中,sim为相似度计算函数,τ为温度超参,h
i
为特征样本,为特征正样本,h
j
为特征负样本,n为特征负样本的选取个数。6.如权利要求1所述的文本分类方法,其特征在于,所述三元损失函数为:其中,n
i
为样本语句,n
′
i
为第一掩码语句,n
″
i
为第二掩码语句,sim为相似度计算函数,
m为所述第一掩码语句和所述第二掩码语句距离间的偏移量。7.一种文本分类装置,其特征在于,所述装置包括:判别函数更新模块,用于获取预训练的初始文本分类模型,并从所述初始文本分类模型中获取文本判别函数,将所述文本判别函数从欧式空间表示转换为角度空间表示,得到更新文本判别函数;损失函数构建模块,用于获取预设的训练语句集,并根据所述训练语句集中的训练语句构建三元语句组,基于所述三元语句组进行函数建模,得到三元损失函数;分类模型构建模块,用于根据所述更新文本判别函数和所述三元损失函数构建模型目标函数,并通过所述模型目标函数构建文本分类模型;文本语义分类模块,用于获取待分类文本,通过所述文本分类模型对所述待分类文本进行语义分类。8.如权利要求7所述的文本分类装置,其特征在于,所述将所述文本判别函数从欧式空间表示转换为角度空间表示,得到更新文本判别函数,包括:获取所述文本判别函数中的特征式,并将所述特征式通过余弦相似度的角度进行表示,得到角度特征式;通过所述角度特征式替换所述文本判别函数中的特征式,得到所述更新文本判别函数。9.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至6中任一项所述的文本分类方法。10.一种计算机可读存储介质,包括存储数据区和存储程序区,存储数据区存储创建的数据,存储程序区存储有计算机程序;其中,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的文本分类方法。
技术总结
本发明涉及自然语言技术领域,揭露一种文本分类方法,包括:获取预训练的初始文本分类模型,并从初始文本分类模型中获取文本判别函数;将文本判别函数从欧式空间表示转换为角度空间表示,得到更新文本判别函数;获取预设的训练语句集,并根据训练语句集中的训练语句构建三元语句组;基于三元语句组进行函数建模,得到三元损失函数;根据更新文本判别函数和三元损失函数构建模型目标函数,并根据模型目标函数构建文本分类模型;获取待分类文本,通过文本分类模型对待分类文本进行语义分类。本发明还提出一种文本分类装置、设备及存储介质。本发明可以提升医疗类文本分类的准确度。本发明可以提升医疗类文本分类的准确度。本发明可以提升医疗类文本分类的准确度。
技术研发人员:刘羲 蒋恒智 舒畅 陈又新
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2023.06.13
技术公布日:2023/8/5
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
