数据处理方法及装置与流程

未命名 07-27 阅读:107 评论:0


本发明涉及信息处理领域,具体涉及一种数据处理方法及装置。


背景技术:

随着大数据相关技术的发展,重视数据成为了人工智能等新兴领域的普遍共识。例如涉及医学知识的数据,尤其是对疾病症状的描述数据,通常会作为智能医疗领域训练人工智能模型的语料数据,或者用于构建医学方向的知识图谱。然而医学知识数据的良好应用必须建立在数据的一致性和规范性的基础上。但现有技术中为了丰富医学知识数据的来源,建立更为强大的医学知识语料库,医学教材、网络文章、电子病例、医学视频中语音转换的文本等都可以作为抓取医学知识数据的途径,然而互联网数据可信度不稳定、电子病历中语言表达的多样性、医学视频中语音转换的文本的不可靠性,都是这些数据来源的先天缺陷。相对地,仅从医学教材、工具书这样的正规途径所能得到的医学知识数据又是极为有限的,无法满足鲁棒的人工智能模型对语料数据的要求。因此,如何提高多来源的原始医学知识数据的质量是亟需解决的问题。此外,大数据背景下提高多来源的原始医学知识数据的质量通常涉及到大规模的计算成本,而医学知识数据具有其本身的特性,使得通用的高效数据处理方法适用性不强,因此如何提升原始医学知识数据的处理效率也是严峻的挑战。


技术实现要素:

本技术实施例的目的在于提供一种数据处理方法及装置。第一方面,本技术实施例提供一种数据处理方法,所述方法包括:对所获取的原始医学知识数据集中的医学数据进行初始聚类,得到所述原始医学知识数据集对应的各类簇;对所述各类簇进行离群检测处理,所述离群检测处理包括:如果类簇中数据点的总数小于设定阈值或类簇中不包含标签为医学教材的医学数据,则将类簇中的所有医学数据放入离群点候选集中;否则,依次计算类簇中各数据点到类簇中心的距离,并将距离大于半径且标签不是医学教材的医学数据放入离群点候选集中;其中,所述类簇中心为所述类簇中标签为医学教材的医学数据的矢量化均值;基于聚类算法,根据离群点候选集中数据点的标签对所述离群点候选集进行剪枝处理,得到剪枝后的离群点候选集;对剪枝后的离群点候选集中的数据点进行离群处理,确定数据点是否为离群点。可选地,所述基于聚类算法,根据离群点候选集中数据点的标签对所述离群点候选集进行剪枝处理,具体包括:对于标签为网络文章的数据点,当其在任意一轮聚类过程中离其聚类中心的距离为最远时,对该数据点进行剪枝处理;对于标签为电子病例的数据点,当其在任意一轮聚类过程中离其聚类中心的距离
为最远时,通过医学词典将该数据点进行矢量重计算,若使该数据点离聚类中心的距离变小,则保留矢量重计算后的数据点,否则对该数据点进行剪枝处理;对于标签为语音文本的的数据点,当其在任意一轮聚类过程中离其聚类中心的距离为最远时,计算该数据点的其他同族数据点离聚类中心的平均距离与该数据点到聚类中心距离的比值,若该比值小于转换所述语音文本所使用的语音识别模型的准确率,对该数据点进行剪枝处理。可选地,所述对所获取的原始医学知识数据集中的医学数据进行初始聚类,得到所述原始医学知识数据集对应的各类簇,具体包括:(1)在原始医学知识数据集中随机选取k个数据点作为初始质心,每个质心对应一个类簇;(2)对所述原始医学知识数据集中的其余数据点,逐个计算数据点到每一个质心的距离,将距离最近的质心所对应的类簇作为数据点所属的类簇;(3)计算类簇中数据点的均值,将均值作为新质心;(4)重复执行步骤(2)和步骤(3),直至计算得到的质心不再变化,得到数据集对应的k个类簇。可选地,所述计算类簇中各数据点到类簇中心的距离,具体包括:计算类簇中各数据点到类簇中心的欧式距离或者马氏距离或者汉明距离。可选地,所述方法还包括:在对各类簇进行离群检测处理之前,对类簇进行质量评估,丢弃不符合质量要求的类簇。可选地,所述对剪枝后的离群点候选集中的数据点进行离群处理,具体包括:基于密度的lof算法对剪枝后的离群点候选集中的数据点进行离群处理。第二方面,本技术实施例提供一种数据处理装置,所述装置包括:聚类模块,用于对所获取的原始医学知识数据集中的医学数据进行初始聚类,得到所述原始医学知识数据集对应的各类簇;离群检测模块,用于对所述各类簇进行离群检测处理,所述离群检测处理包括:如果类簇中数据点的总数小于设定阈值或类簇中不包含标签为医学教材的医学数据,则将类簇中的所有医学数据放入离群点候选集中;否则,依次计算类簇中各数据点到类簇中心的距离,并将距离大于半径且标签不是医学教材的医学数据放入离群点候选集中;其中,所述类簇中心为所述类簇中标签为医学教材的医学数据的矢量化均值;剪枝处理模块,用于基于聚类算法,根据离群点候选集中数据点的标签对所述离群点候选集进行剪枝处理,得到剪枝后的离群点候选集;离群处理模块,用于对剪枝后的离群点候选集中的数据点进行离群处理,确定数据点是否为离群点。可选地,所述剪枝处理模块具体包括:网络文章处理模块,用于对于标签为网络文章的数据点,当其在任意一轮聚类过程中离其聚类中心的距离为最远时,对该数据点进行剪枝处理;电子病例处理模块,用于对于标签为电子病例的数据点,当其在任意一轮聚类过程中离其聚类中心的距离为最远时,通过医学词典将该数据点进行矢量重计算,若使该数
据点离聚类中心的距离变小,则保留矢量重计算后的数据点,否则对该数据点进行剪枝处理;语音文本处理模块,用于对于标签为语音文本的的数据点,当其在任意一轮聚类过程中离其聚类中心的距离为最远时,计算该其他同族数据点离聚类中心的平均距离与该数据点到聚类中心距离的比值,若该比值小于转换所述语音文本所使用的语音识别模型的准确率,对该数据点进行剪枝处理。可选地,所述聚类模块包括:质心确定模块,用于在数据集中随机选取k个数据点作为初始质心,每个质心对应一个类簇;计算模块,用于对数据集中的其余数据点,逐个计算数据点到每一个质心的距离,将距离最近的质心所对应的类簇作为数据点所属的类簇;均值计算模块,用于计算类簇中数据点的均值;第二质心确定模块,用于将均值作为新质心;第二计算模块,用于根据所述新质心重新计算,直至计算得到的质心不再变化;类簇确定模块,用于得到数据集对应的k个类簇。可选地,所述计算类簇中各数据点到类簇中心的距离,具体包括:计算类簇中各数据点到类簇中心的欧式距离或者马氏距离或者汉明距离。本发明实施例提供的数据处理方法及装置,基于多来源医学知识数据各自的特点,通过专门适用于该应用场景的改进聚类和离群算法,对原始医学知识数据中的离群数据进行筛选处理,从而提高了医学知识数据的整体质量,有助于后续使用该数据作为训练医学领域人工智能模型的语料,还通过专门适用于该应用场景数据特点的剪枝算法,既保证离群处理的计算效率,也最大限度地保留了可用的医学知识数据。
附图说明
为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例中所需要使用的附图作简单地介绍。图1为本发明实施例提供的数据处理方法的流程示意图;图2为本发明实施例提供的剪枝方法的流程示意图;图3为本发明实施例提供的聚类方法的流程示意图;图4为本发明实施例提供的数据处理装置的结构示意图;图5为本发明实施例提供的聚类模块的结构示意图;图6为本发明实施例提供的剪枝处理模块的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。参看下面的说明以及附图,本发明的这些或其他特征和特点、操作方法、结构的相关元素的功能、部分的结合以及制造的经济性可以被更好地理解,其中说明和附图形成了说明书的一部分。然而,可以清楚地理解,附图仅用作说明和描述的目的,并不意在限定本
发明的保护范围。可以理解的是,附图并非按比例绘制。本发明中使用了多种结构图用来说明根据本发明的实施例的各种变形。如图1所示,是本发明实施例数据处理方法的一种流程图。所述方法包括以下步骤:步骤s101,对所获取的原始医学知识数据集中的医学数据进行初始聚类,得到所述原始医学知识数据集对应的各类簇。本发明实施例中医学知识数据主要是指用于建立医学数据语料库的相关文本数据,例如对不同症状的描述文本,或者对不同疾病的诊断文本,也可以是对对应疾病的药品适用说明文本等,本发明实施例不作具体限定。上述数据在人工智能与医疗相结合的应用场景中尤为重要,会作为智能医疗领域的训练人工智能模型的语料数据,或者用于构建医学方向的知识图谱。本步骤中,原始医学知识数据集主要是从医学教材、网络文章、电子病例、医学视频中语音转换的文本等主要条途径获取的。其中医学教材中对于医学知识的表述较为规范,但是表达方式单一会导致数据量较小,网络文章、电子病例、医学视频中语音转换的文本等数据,又会因此互联网数据可信度不稳定、电子病历中语言表达的多样性、医学视频中语音转换的文本的不可靠性等原因,体现出数据量大但质量参差不齐的问题。对于任何来源获取的一份医学知识数据,都会作为原始医学知识数据组成的数据集中的一个数据点,这些数据点在组成数据集之前可以做矢量化处理。在获取到大量多来源的原始医学知识数据组成的数据集后,本步骤首先要对该数据集进行聚类。聚类背后的原理为,例如对于症状描述数据而言,属于同一类簇的数据点代表的医学知识数据可能会在描述同一种类的症状。步骤s102,对所述各类簇进行离群检测处理,所述离群检测处理包括:如果类簇中数据点的总数小于设定阈值或类簇中不包含标签为医学教材的医学数据,则将类簇中的所有医学数据放入离群点候选集中;否则,依次计算类簇中各数据点到类簇中心的距离,并将距离大于半径且标签不是医学教材的医学数据放入离群点候选集中;其中,所述类簇中心为所述类簇中标签为医学教材的医学数据的矢量化均值。本发明实施例提供的数据处理方法,主要目的是对医学知识数据进行规范化,将医学知识数据中的离群数据进行离群处理,而离群数据正是医学知识语料数据质量下降的主要原因。在进行离群处理之前,先要对聚类得到的各类簇的医学知识数据进行离群检测处理,确定出离群点候选集。对于多来源的医学知识数据而言,每一份知识数据都会通过其来源标注上标签,标签可以定义为如下四种:医学教材标签,代表从医学领域教科书、工具书等具有公信力的来源通过文本分析算法所获取的数据;网络文章标签,代表从医学论坛、公众号等互联网资料中通过文本分析算法所获取的数据;电子病例标签,代表从医疗数据库中建档并由医生填写的电子化病历中获取的数据;语音文本标签,代表从医学播客、医学视频的音频流中通过语音识别模型生成而来医学文本中进而提取的数据。其中,标签为医学教材的医学知识数据被本发明实施例默认为标准数据,其在本发明实施例的各步骤的数据处理过程中进行参照作用。而在本步骤进行离群检测处理时,首先需要检测各类簇整体是否为潜在的离群
点。具体而言,如果一个类簇中的所有数据都不含标签为医学教材的医学数据,那么该类簇的可靠性会大为降低,因此需要将该类簇中的所有医学数据代表的数据点都放入离群点候选集中,待后续进一步进行离群处理。此外,如果一个类簇中数据点的总数较小,那么该类簇在本发明实施例中被认定为弱类簇,其作用语料数据的风险较高,因此也需要将该类簇中的所有医学数据代表的数据点都放入离群点候选集中,待后续进一步进行离群处理。如果类簇整体上不满足上述条件,该类簇在本发明实施例中会被认定为有效类簇。对于有效类簇,需要进一步识别类簇中潜在的离群点。此时不同于一般方法,由于标签为医学教材的医学知识数据被本发明实施例默认为标准数据,此时需要根据医学教材标签重新计算类簇中心并依次计算类簇中各数据点到类簇中心的距离,具体而言为类簇中心为所述类簇中标签为医学教材的医学数据的矢量化均值。此时判断潜在的离群点需要满足两个条件:首先,距离大于类簇的半径,表明该数据点与类簇的医学含义相距较远;其次,需要加入第二个限定条件,即标签不能是医学教材的医学数据,这是为了体现描述同一医学知识时,例如描述同一症状时,即使是来自医学教材的标准数据也会存在文本上相差较大的两种表述。因此,加入第二个条件的目的是为了不让高质量的标准数据被意外地剔除。在聚类过程中,对于数据集中的各数据点,其到自己所属类簇中心的距离可以是但不限于以下任意一种:欧式距离、或者马氏距离、或者汉明距离等。根据上述离群检测处理,可以将弱类簇整体、或有效类簇中的具体数据点筛选至离群点候选集中。步骤s103,对所述离群点候选集进行剪枝处理,得到剪枝后的离群点候选集。在对所生成的离群点候选集进行离群处理之前,离群点候选集的数据量可能异常庞大,尤其是对于大数据背景下所收集的海量原始医学知识数据而言。事实上,离群点候选集中有效数据和无效数据的比例可能都不会太低,因此,为了保证离群处理的计算效率,同时针对医学知识数据的特点最大限度地保留可用数据,需要在离群处理之前对离群点候选集进行剪枝处理。在现有技术的剪枝方法中,可以利用k-means聚类算法对离群点候选集作剪枝处理,本发明实施例也可以基于k-means聚类算法。但是现有的k-means聚类算法在做剪枝时剪枝条件是针对数据的数值本身而设计的,没有考虑到医学知识数据的特殊性,因此使用这种剪枝条件会导致剪枝后的数据质量较差。本步骤中,由于离群点候选集中仅存在标签为网络文章、电子病例和语音文本的数据点,因此需要根据这三类数据的特点来确定该数据点是否应该被剪枝处理。k-means聚类算法存在多轮聚类,现有的算法是在聚类完成后完成剪枝的识别和处理,对于海量数据而言,聚类的轮数和每轮聚类的计算量会变得非常大。因此,本步骤会在聚类的过程中就执行剪枝处理。如图2所示,剪枝处理的具体步骤如下。步骤s201,对于标签为网络文章的数据点,当其在任意一轮聚类过程中离其聚类中心的距离为最远时,对该数据点进行剪枝处理;步骤s202,对于标签为电子病例的数据点,当其在任意一轮聚类过程中离其聚类中心的距离为最远时,通过医学词典将该数据点进行矢量重计算,若使该数据点离聚类中心的距离变小,则保留矢量重计算后的数据点,否则对该数据点进行剪枝处理;
步骤s203,对于标签为语音文本的的数据点,当其在任意一轮聚类过程中离其聚类中心的距离为最远时,计算该数据点的其他同族数据点离聚类中心的平均距离与该数据点到聚类中心距离的比值,若该比值小于转换所述语音文本所使用的语音识别模型的准确率,对该数据点进行剪枝处理。具体而言,对于标签为网络文章的数据点,当其在任意一轮聚类过程中离其聚类中心的距离为最远时,对该数据点进行剪枝处理。本发明实施例中,网络文章的数据可信度相对最低,因此在每一轮聚类过程中,每一簇数据中离聚类中心最远的数据点如果是网络文章的数据点,都会被剪枝处理。相反地,不是离聚类中心最远的网络文章数据点,表明该数据点具有一定的可信度,应该得以保留进入下一轮的聚类计算。对于标签为电子病例的数据点,数据的可信度不足主要来源于,例如不同医生在电子病例中描述同一症状或同一诊断时使用的词汇不尽相同,同义或近义词汇在医学知识中较为常见,但是在数据矢量上会显示两个数据点的差距较大,因此,需要在离群检测时排除掉这类情况。当其在任意一轮聚类过程中标签为电子病例的数据点离其聚类中心的距离为最远时,不能如网络文章一样简单地将该数据点进行剪枝处理,需要通过医学词典工具将该数据点所表示的医学知识数据的词汇进行同义或近义替换后,重新判断该数据点离聚类中心的距离是否变小,如果变小,说明该轮聚类的结果收到了同义或近义医学词汇因素的影响,该数据点则不能被认定为离群点被剪枝,而是应该得到保留,同时还需要将使得数据点离聚类中心距离变小的同义或近义医学词汇替换掉原有词汇,进入下一轮的聚类计算。反之,如果该数据点无论进行何种同义或近义医学词汇替换,其离聚类中心距离仍然不变甚至会变大,则代表该数据点需要被剪枝处理。标签为语音文本的的数据点在进行剪枝判断时考虑因素又有所不同。在语音流、视频流资源逐渐丰富的背景下,医学播客、医学视频的音频流中通过语音识别模型生成而来医学文本中进而提取的医学知识数据也是医学知识数据的重要数据来源,然而由于语音流、视频流资源的质量不一,因此对语音识别模型提出的较高的要求。语音识别模型能力不足时,会导致所生成的医学知识数据与原视频/音频所要表达的实际内容不相符。此时,对于标签为语音文本的的数据点,当其在任意一轮聚类过程中离其聚类中心的距离为最远时,需要对该数据点设置一定的容忍度。该容忍度的数值与语音识别模型的准确率密切相关。具体而言可以该数据点的其他同族数据点离聚类中心的平均距离与该数据点到聚类中心距离的比值,若该比值小于转换所述语音文本所使用的语音识别模型的准确率,则代表该数据点的离群程度超出了这类数据的容忍程度,需要对该数据点进行剪枝处理。上述对离群点候选集中数据点进行剪枝处理的过程,不同于现有技术中在聚类完后根据数据点的基本数值进行统一剪枝操作的方式,而是根据不同标签医学知识数据的特点,对不同类型的可能被剪枝的数据点设置具体的判断条件,从而既保证离群处理的计算效率,也最大限度地保留了可用的医学知识数据。步骤s104,对剪枝后的离群点候选集中的数据点进行离群处理,确定数据点是否为离群点。具体地,可以利用lof算法对所述离群点候选集中的数据点进行离群处理。图3示出了本发明实施例中对数据集中的数据进行聚类的流程图,包括以下步骤:步骤s301,在原始医学知识数据集中随机选取k个数据点作为初始质心,每个质心
对应一个类簇;步骤s302,对所述原始医学知识数据集中的其余数据点,逐个计算数据点到每一个质心的距离,将距离最近的质心所对应的类簇作为数据点所属的类簇;步骤s303,计算类簇中数据点的均值,将均值作为新质心;步骤s304,重复执行步骤s302和步骤s303,直至计算得到的质心不再变化,得到数据集对应的k个类簇。通常,越紧密的类簇有着越高的类簇质量,但是,存在a类簇的点对的平均距离会小于b类簇的点对平均距离,结果是错误地判断a稀疏类簇质量高于b紧密类簇。实验中发现发生错误判断的原因是计算规模较大类簇中点对的平均距离时会考虑所有点对,当类簇中增加一个点时,会计算该点与类簇中其他所有点的平均距离,计算结果很大,从而导致评价结果与实际结果产生偏差。为此,在本发明方法另一非限制性实施例中,可以在对各类簇进行离群检测处理之前,对所述类簇进行质量评估,丢弃不符合质量要求的类簇。也就是说,对聚类得到的各类簇先通过质量评估筛选掉一些质量较低的类簇,以便更好地保证数据质量,并进一步减少后续计算的工作量。在实际应用中,具体可以采用基于密度的lof算法对所述离群点候选集中的数据点进行离群处理,也可以采用其他离群处理算法,本发明实施例此处不做具体限定。本发明实施例提供的数据处理方法,基于多来源医学知识数据各自的特点,通过专门适用于该应用场景的改进聚类和离群算法,对原始医学知识数据中的离群数据进行筛选处理,从而提高了医学知识数据的整体质量,有助于后续使用该数据作为训练医学领域人工智能模型的语料,还通过专门适用于该应用场景数据特点的剪枝算法,既保证离群处理的计算效率,也最大限度地保留了可用的医学知识数据。相应地,本发明实施例还提供一种数据处理装置,如图4所示,是所述数据处理装置的一种结构示意图。该实施例中,所述数据处理装置包括以下各模块:聚类模块401,用于对所获取的原始医学知识数据集中的医学数据进行初始聚类,得到所述原始医学知识数据集对应的各类簇;离群检测模块402,用于对所述各类簇进行离群检测处理,所述离群检测处理包括:如果类簇中数据点的总数小于设定阈值或类簇中不包含标签为医学教材的医学数据,则将类簇中的所有医学数据放入离群点候选集中;否则,依次计算类簇中各数据点到类簇中心的距离,并将距离大于半径且标签不是医学教材的医学数据放入离群点候选集中;其中,所述类簇中心为所述类簇中标签为医学教材的医学数据的矢量化均值;剪枝处理模块403,用于基于聚类算法,根据离群点候选集中数据点的标签对所述离群点候选集进行剪枝处理,得到剪枝后的离群点候选集;离群处理模块404,用于对剪枝后的离群点候选集中的数据点进行离群处理,确定数据点是否为离群点。进一步地,如图5所示,所述聚类模块401的一种具体结构可以包括以下各模块:质心确定模块501,用于在数据集中随机选取k个数据点作为初始质心,每个质心对应一个类簇;
计算模块502,用于对数据集中的其余数据点,逐个计算数据点到每一个质心的距离,将距离最近的质心所对应的类簇作为数据点所属的类簇;均值计算模块503,用于计算类簇中数据点的均值;第二质心确定模块504,用于将均值作为新质心;第二计算模块505,用于根据所述新质心重新计算,直至计算得到的质心不再变化;类簇确定模块506,用于得到数据集对应的k个类簇。如图6所示,剪枝处理模块403具体包括:网络文章处理模块601,用于对于标签为网络文章的数据点,当其在任意一轮聚类过程中离其聚类中心的距离为最远时,对该数据点进行剪枝处理;电子病例处理模块602,用于对于标签为电子病例的数据点,当其在任意一轮聚类过程中离其聚类中心的距离为最远时,通过医学词典将该数据点进行矢量重计算,若使该数据点离聚类中心的距离变小,则保留矢量重计算后的数据点,否则对该数据点进行剪枝处理;语音文本处理模块603,用于对于标签为语音文本的的数据点,当其在任意一轮聚类过程中离其聚类中心的距离为最远时,计算该其他同族数据点离聚类中心的平均距离与该数据点到聚类中心距离的比值,若该比值小于转换所述语音文本所使用的语音识别模型的准确率,对该数据点进行剪枝处理。上述各实施例中的模块及单元的具体实现方式可参考前面本发明方法实施例中的描述,在此不再赘述。需要说明的是,上面所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,为了便于清楚描述本技术实施例的技术方案,在本技术的实施例中,采用了“第一”、“第二”等字样对功能或作用基本相同的相同项或相似项进行区分,本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定。例如,第一信息和第二信息是用于区别不同的信息,而不是用于描述信息的特定顺序。需要说明的是,本发明实施例中,“示例性的”或者“例如”等词用于表示例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)、随机存储记忆体(randomaccessmemory,ram)、快闪存储器(flash memory)、硬盘(hard disk drive,缩写:hdd)或固态硬盘(solid-state drive,ssd)等;所述存储介质还可以包括上述种类的存储器的组合。
63.如在本技术所使用的,术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体,该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例
如,组件可以是,但不限于是:在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例,在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中,并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外,这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如,来自一个组件的数据,该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号,以本地和/或远程过程的方式进行通信。应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

技术特征:
1.一种数据处理方法,其特征在于,所述方法包括:对所获取的原始医学知识数据集中的医学数据进行初始聚类,得到所述原始医学知识数据集对应的各类簇;对所述各类簇进行离群检测处理,所述离群检测处理包括:如果类簇中数据点的总数小于设定阈值或类簇中不包含标签为医学教材的医学数据,则将类簇中的所有医学数据放入离群点候选集中;否则,依次计算类簇中各数据点到类簇中心的距离,并将距离大于半径且标签不是医学教材的医学数据放入离群点候选集中;其中,所述类簇中心为所述类簇中标签为医学教材的医学数据的矢量化均值;基于聚类算法,根据离群点候选集中数据点的标签对所述离群点候选集进行剪枝处理,得到剪枝后的离群点候选集;对剪枝后的离群点候选集中的数据点进行离群处理,确定数据点是否为离群点。2.如权利要求1所述的方法,其特征在于,所述基于聚类算法,根据离群点候选集中数据点的标签对所述离群点候选集进行剪枝处理,具体包括:对于标签为网络文章的数据点,当其在任意一轮聚类过程中离其聚类中心的距离为最远时,对该数据点进行剪枝处理;对于标签为电子病例的数据点,当其在任意一轮聚类过程中离其聚类中心的距离为最远时,通过医学词典将该数据点进行矢量重计算,若使该数据点离聚类中心的距离变小,则保留矢量重计算后的数据点,否则对该数据点进行剪枝处理;对于标签为语音文本的的数据点,当其在任意一轮聚类过程中离其聚类中心的距离为最远时,计算该数据点的其他同族数据点离聚类中心的平均距离与该数据点到聚类中心距离的比值,若该比值小于转换所述语音文本所使用的语音识别模型的准确率,对该数据点进行剪枝处理。3.如权利要求1所述的方法,其特征在于,所述对所获取的原始医学知识数据集中的医学数据进行初始聚类,得到所述原始医学知识数据集对应的各类簇,具体包括:(1)在原始医学知识数据集中随机选取k个数据点作为初始质心,每个质心对应一个类簇;(2)对所述原始医学知识数据集中的其余数据点,逐个计算数据点到每一个质心的距离,将距离最近的质心所对应的类簇作为数据点所属的类簇;(3)计算类簇中数据点的均值,将均值作为新质心;(4)重复执行步骤(2)和步骤(3),直至计算得到的质心不再变化,得到数据集对应的k个类簇。4.如权利要求1所述的方法,其特征在于,所述计算类簇中各数据点到类簇中心的距离,具体包括:计算类簇中各数据点到类簇中心的欧式距离或者马氏距离或者汉明距离。5.如权利要求1所述的方法,其特征在于,所述方法还包括:在对各类簇进行离群检测处理之前,对类簇进行质量评估,丢弃不符合质量要求的类簇。6.如权利要求1所述的方法,其特征在于,所述对剪枝后的离群点候选集中的数据点进行离群处理,具体包括:
基于密度的lof算法对剪枝后的离群点候选集中的数据点进行离群处理。7.一种数据处理装置,其特征在于,所述装置包括:聚类模块,用于对所获取的原始医学知识数据集中的医学数据进行初始聚类,得到所述原始医学知识数据集对应的各类簇;离群检测模块,用于对所述各类簇进行离群检测处理,所述离群检测处理包括:如果类簇中数据点的总数小于设定阈值或类簇中不包含标签为医学教材的医学数据,则将类簇中的所有医学数据放入离群点候选集中;否则,依次计算类簇中各数据点到类簇中心的距离,并将距离大于半径且标签不是医学教材的医学数据放入离群点候选集中;其中,所述类簇中心为所述类簇中标签为医学教材的医学数据的矢量化均值;剪枝处理模块,用于基于聚类算法,根据离群点候选集中数据点的标签对所述离群点候选集进行剪枝处理,得到剪枝后的离群点候选集;离群处理模块,用于对剪枝后的离群点候选集中的数据点进行离群处理,确定数据点是否为离群点。8.如权利要求7所述的装置,其特征在于,所述剪枝处理模块具体包括:网络文章处理模块,用于对于标签为网络文章的数据点,当其在任意一轮聚类过程中离其聚类中心的距离为最远时,对该数据点进行剪枝处理;电子病例处理模块,用于对于标签为电子病例的数据点,当其在任意一轮聚类过程中离其聚类中心的距离为最远时,通过医学词典将该数据点进行矢量重计算,若使该数据点离聚类中心的距离变小,则保留矢量重计算后的数据点,否则对该数据点进行剪枝处理;语音文本处理模块,用于对于标签为语音文本的的数据点,当其在任意一轮聚类过程中离其聚类中心的距离为最远时,计算该其他同族数据点离聚类中心的平均距离与该数据点到聚类中心距离的比值,若该比值小于转换所述语音文本所使用的语音识别模型的准确率,对该数据点进行剪枝处理。9.如权利要求7所述的装置,其特征在于,所述聚类模块包括:质心确定模块,用于在数据集中随机选取k个数据点作为初始质心,每个质心对应一个类簇;计算模块,用于对数据集中的其余数据点,逐个计算数据点到每一个质心的距离,将距离最近的质心所对应的类簇作为数据点所属的类簇;均值计算模块,用于计算类簇中数据点的均值;第二质心确定模块,用于将均值作为新质心;第二计算模块,用于根据所述新质心重新计算,直至计算得到的质心不再变化;类簇确定模块,用于得到数据集对应的k个类簇。10.如权利要求7所述的方法,其特征在于,所述计算类簇中各数据点到类簇中心的距离,具体包括:计算类簇中各数据点到类簇中心的欧式距离或者马氏距离或者汉明距离。

技术总结
本申请提供一种数据处理方法及装置,所述方法包括:得到原始医学知识数据集对应的各类簇;对所述各类簇进行离群检测处理,如果类簇中数据点的总数小于设定阈值或类簇中不包含标签为医学教材的医学数据,则将类簇中的所有医学数据放入离群点候选集中;根据离群点候选集中数据点的标签对所述离群点候选集进行剪枝处理;对剪枝后的离群点候选集中的数据点进行离群处理。本发明实施例提供的数据处理方法及装置,通过专门适用于该应用场景的改进聚类和离群算法,对原始医学知识数据中的离群数据进行筛选处理,还通过专门适用于该应用场景数据特点的剪枝算法,既保证离群处理的计算效率,也最大限度地保留了可用的医学知识数据。也最大限度地保留了可用的医学知识数据。也最大限度地保留了可用的医学知识数据。


技术研发人员:韩国权 吕灏 陈轮 祁纲 黄海峰 洒科进 李响
受保护的技术使用者:中电科大数据研究院有限公司
技术研发日:2023.03.29
技术公布日:2023/7/25
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐