一种基因异常识别方法与装置
未命名
08-15
阅读:207
评论:0
1.本发明属于基因数据处理技术领域,具体涉及一种基因异常识别方法与装置。
背景技术:
2.活检取样,是指从患者病变组织中取出少量样本进行病理评估,以判断组织是否存在癌变的方法,包括内镜、超声或ct引导下穿刺等多种手段,是肿瘤诊断的重要方法。然而,活检取样准确性受到医生操作水平、病变位置、取样位置、取样方法等多方面因素影响,有时存在取样误差,即未能取到病变最严重的部位,仅取到肿瘤旁正常组织,导致患者漏诊误诊。
3.研究表明,癌旁组织与完全健康的组织相比,虽然组织病理层面无显著差异,但其基因会有一定程度变化,处于“健康”和“肿瘤”的中间状态。若能以高灵敏度找出两者基因变化差异,有望减少因采样误差导致的漏诊误诊,增加早期肿瘤检出。
技术实现要素:
4.针对以上问题,本发明第一方面提供了一种基因异常识别方法,可以有效提高基因异常识别效率和识别精准性。
5.为达到以上目的,本发明采取的技术方案是:
6.一种基因异常识别方法,其特征在于,包括以下步骤:
7.通过提取基因指示序列的第一标签属性、第二标签属性,第三标签属性的多个标签属性特征量化值,进行基因异常识别;
8.所述第一标签属性包括功率属性、周期属性和/或紊乱程度属性;
9.所述第二标签属性包括离散属性、零一交叉属性和/或密度属性;
10.所述第三标签属性包括异常属性、三维体积属性和/或三维偏心距属性。
11.一些实施例中,所述通过提取基因指示序列的第一标签属性、第二标签属性,第三标签属性的多个标签属性特征量化值,进行基因异常识别,包括以下步骤:
12.获取基因序列,对所述基因序列进行数字映射,得到基因指示序列;
13.对所述基因指示序列进行第一标签属性的特征提取,获取第一标签属性对应的第一特征量化值,对所述基因指示序列进行图像转换,得到基因二值化图像,对基因二值化图像进行第二标签属性的特征提取,获取第二标签属性对应的第二特征量化值;
14.对所述基因二值化图像裁剪后进行三维重建,得到基因三维图像,对基因三维图像进行第三标签属性的特征提取,获取第三标签属性对应的第三特征量化值;
15.将所述第一特征量化值、第二特征量化值和第三特征量化值输入已训练的机器学习分类器进行分类,得到基因异常分类结果。
16.一些实施例中,所述对所述基因指示序列进行第一标签属性的特征提取,获取第一标签属性对应的第一特征量化值,包括以下步骤:
17.根据公式:
[0018][0019]
得到功率特征量化值label1,其中pua,pug,puc,pu
t
是基因4个指示序列对应4个功率谱中最大功率;
[0020]
根据公式:
[0021][0022]
得到周期特征量化值label2,n是功率谱的长度;
[0023]
根据公式:
[0024][0025]
得到紊乱程度特征量化值label3,4n是基因二值化图像像素值中个数,q是基因指示序列进入多周期时的频率。
[0026]
一些实施例中,所述基因指示序列进周期实现方法,包括以下步骤:
[0027]
通过傅里叶转换获得基因指示序列功率谱其中,k∈[1,n];
[0028]
根据公式对功率谱进行数据处理:
[0029][0030]
其中α∈[1,1+1
·
δ,2
·
δ
…i·
δ
…3·
kk],kk=0,1,2
…
且3
·
kk≤n,n∈[1,m],其中m为自然数,δ∈[0,1],这里不做具体限制;
[0031]
获取基因指示序列进入多周期时的频率。
[0032]
一些实施例中,所述对所述基因指示序列进行图像转换,得到基因二值化图像,包括一下步骤:
[0033]
获取基因指示序列长度n,则基因指示序列对应的基因二值化图像像素值中个数为4n;
[0034]
进行二值化图像宽高估算,假设基因指示序列对应的基因二值化图像宽和高大小相等,即w=h,且w2≥4n>(w-1)2;
[0035]
将作为基因二值化图像第一确定像素区域,得到
[0036]
1h,ua(0,w-1)
[0037]
2h,ug(0,w-1)
[0038]
3h,uc(0,w-1)
[0039]
4h,u
t
(0,w-1)
[0040]
其中h代表行;
[0041]
将作为基因二值化图像第k确定像素区域,得到:
[0042][0043]
将剩余放入w+1列,得到:
[0044][0045]
将基因二值化图像中剩余的像素区域用0进行填充。
[0046]
一些实施例中,所述对基因二值化图像进行第二标签属性的特征提取,获取第二标签属性对应的第二特征量化值,包括以下步骤:
[0047]
根据公式:
[0048][0049]
得到离散特征量化值label4,其中o
1i
(1xi,1yi)是基因二值化图像中像素值为1的像素点坐标,h是基因二值化图像高,w是基因二值化图像宽;
[0050]
根据公式:
[0051][0052]
得到零一交叉量化值label5,h是基因二值化图像高,w是基因二值化图像宽,c
ci
是基因二值化图像每列从1变为0的和从0变为1的总次数;
[0053]
根据公式:
[0054][0055]
得到密度量化值label6,cont是基因二值化图像中像素值为1的像素点个数,h是基因二值化图像高,w是基因二值化图像宽,4n是基因二值化图像像素值中个数。
[0056]
一些实施例中,所述对所述基因二值化图像裁剪后进行三维重建,得到基因三维图像,包括一下步骤:
[0057]
将所述基因二值化图像,裁剪成的小图;
[0058]
将所述裁剪后的小图通过vit三维建模软件沿z轴方向按照一定的图像间隔进行
叠加获得基因三维图像。
[0059]
一些实施例中,所述对基因三维图像进行第三标签属性的特征提取,获取第三标签属性对应的第三特征量化值,包括以下步骤:
[0060]
所述对基因三维图像进行第三标签属性的特征提取,获取第三标签属性对应的第三特征量化值,包括以下步骤:
[0061]
根据公式:
[0062][0063]
得到异常特征量化值label7,scorei是输出基因三维图像置信度,δ是图像三维重建时轴向间距;
[0064]
根据公式:
[0065]
label8=max(|1zi|)
·
max(|1xi|)
·
max(|1yi|)
[0066]
得到三维体积特征量化值label8,o
1i
(1xi,1yi,1zi)是三维坐标系中像素值为1的像素点坐标;
[0067]
根据公式:
[0068][0069]
得到三维偏心距特征量化值label9,w,h,l分别是基因三维图像的宽、高和轴向深度。
[0070]
一些实施例中,所述将所述多个第一特征量化值、多个第二特征量化值和多个第三特征量化值输入已训练的机器学习分类器进行分类,得到基因异常分类结果,包括:
[0071]
将所述第一特征量化值、第二特征量化值和第三特征量化值输入特征拟合子网络和分类子网络;
[0072]
采用所述特征拟合子网络对多个所述标签属性的特征量化值进行拟合处理,得到判定系数;
[0073]
基于所述判定系数,采用所述分类子网络进行分析,得到所述分类结果,所述分类结果为正常或者异常。
[0074]
本发明第一方面提供了一种基因异常识别方法,可以有效提高基因异常识别效率和识别精准性。
[0075]
为达到以上目的,本发明采取的技术方案是:
[0076]
一种基因异常识别装置,其特征在于,用于:
[0077]
通过提取基因指示序列的第一标签属性、第二标签属性,第三标签属性的多个标签属性特征量化值,进行基因异常识别;
[0078]
所述第一标签属性包括功率属性、周期属性和/或紊乱程度属性;
[0079]
所述第二标签属性包括离散属性、零一交叉属性和/或密度属性;
[0080]
所述第三标签属性包括异常属性、三维体积属性和/或三维偏心距属性。
[0081]
本发明中的基因异常识别方法,包括以下步骤:通过提取基因指示序列的第一标签属性、第二标签属性,第三标签属性的多个标签属性特征量化值,进行基因异常识别;所
述第一标签属性包括功率属性、周期属性和/或紊乱程度属性;所述第二标签属性包括离散属性、零一交叉属性和/或密度属性;所述第三标签属性包括异常属性、三维体积属性和/或三维偏心距属性。本发明提供的方法充分考量了基因指示序列、基因二值化图像及基因三维图像多个不同属性的特征量化值对基因序列处理的准确性及直观性影响,有效提高基因异常识别效率和识别精准性。
附图说明
[0082]
图1为本发明实施例中一种基因异常识别方法的流程图;
[0083]
图2为本发明实施例中基因异常识别方法的基因二值化示意图;
[0084]
图3为本发明实施例中基因异常识别方法的三维重建示意图;
[0085]
图4为本发明实施例中基因异常识别方法的功率谱示意图。
具体实施方式
[0086]
为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术的一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
[0087]
参见图1所示,本发明实施例第一方提供一种具有可解释性的图像异常程度量化方法包括以下步骤:
[0088]
s1.获取基因序列,对所述基因序列进行数字映射,得到基因指示序列;
[0089]
其中,待识别的基因序列是指需要进行基因指示序列化且进行基因异常识别的基因序列,该基因序列可以通过抽血的方法进行取样,也可以通过唾液进行取样来,还可以通过自身口腔黏膜细胞来进行取样。
[0090]
具体地,可以通过基因采样得到基因序列,也可以从计算机设备的存储器中预先存储的基因数据库中获取基因序列。
[0091]
其中,待识别的基因序列是指需要进行基因指示序列化且进行基因异常识别的基因序列,该基因序列可以通过抽血的方法进行取样,也可以通过唾液进行取样来,还可以通过自身口腔黏膜细胞来进行取样。
[0092]
具体地,可以通过基因采样得到基因序列,也可以从计算机设备的存储器中预先存储的基因数据库中获取基因序列。根据基因序列,进行数字映射得到基因指示序列。
[0093]
其中,在生物学中,把生物遗传信息的载体命名为,由四种核苷酸按一定顺序排列而成,四种核苷酸就是相应的四种碱基:腺嘌呤(adenine,a),鸟嘌呤(guanine,g),胞嘧啶(cytosine,c),胸腺嘧啶(thymine,t),简称为,a、t、g、c。而基因被定义为带有遗传信息的dna序列片段,因此dna并不等同于基因,因为dna中还有不带遗传信息的部分,这些序列不参与遗传信息的转录,但有可能参与调控遗传信息的表达或者在一些组织构造上发挥作用。在所有的基因识别算法中,最受广泛重视的方法是基于谱分析方法,借助频谱分析知识来发现基因编码区,再结合生物信息学方法进行序列端点定位。通常是将基因序列进行数值化映射后进行数据处理与分析,而数值化映射常用的方法为voss映射,令i={a,t,c,g},长度为n的任意基因序列可以表达为s={s(n)|s(n)∈i,n=0,1,2.....,n-1},现对于任意
确定的b∈i,令:称之为voss映射。假设给定一段基因序列为atcgtactga tcgtac,通过voss映射获取该基因序列对应的基因指示序列为
[0094]
s2.对所述基因指示序列进行第一标签属性的特征提取,获取第一标签属性对应的第一特征量化值,对所述基因指示序列进行图像转换,得到基因二值化图像,对基因二值化图像进行第二标签属性的特征提取,获取第二标签属性对应的第二特征量化值;
[0095]
一些实施例中,对所述基因指示序列进行第一标签属性的特征提取,获取第一标签属性对应的第一特征量化值,其中,第一预设属性是指基因指示序列的多个属性,例如,基因指示序列的功率属性、周期属性、紊乱程度属性等,第一特征量化值是指各个第一预设属性的特征对应的量化值。
[0096]
具体地,采用特征提取方法对基因指示序列进行特征提取,得到第一特征量化值,其中的特征提取方法可以是人工特征提取方法结合数据特征分析,计算得到第一特征量化值。本实施例中,通过对基因指示序列进行特征提取,获取对应的第一特征量化值,实现了对基因指示序列的各个第一预设属性的特征的量化计算,使得特征量化值更加全面丰富,以便后续基于该多个第一特征量化值进行准确直观的基因序列分析和识别,提高了对基因异常识别的准确率。
[0097]
一些实施例中,对所述基因指示序列进行图像转换,得到基因二值化图像,具体地,基因二值化图像生成方法包括:
[0098]
s21:获取基因指示序列长度n,则基因指示序列对应的基因二值化图像像素值中个数为4n;
[0099]
s22:进行二值化图像宽高估算,在一个具体实施案例中,基因指示序列对应的基因二值化图像宽和高大小相等,即w=h,且w2≥4n>(w-1)2;
[0100]
s23:将作为基因二值化图像第一确定像素区域,得到
[0101][0102]
其中h代表行,将
[0103]
[0104]
作为基因二值化图像第k确定像素区域,得到
[0105][0106]
s24:将剩余放入w+1列,得到
[0107][0108]
s25:将基因二值化图像中剩余的w
2-4n像素区域用0进行填充。
[0109]
一些实施例中,对基因二值化图像进行第二标签属性的特征提取,获取第二标签属性对应的第二特征量化值。
[0110]
其中,第二预设属性是指基因二值化图像的多个属性,例如,基因二值化图像的离散属性、零一交叉属性及密度属性等,第二特征量化值是指各个第二预设属性的特征对应的量化值。
[0111]
具体地,采用特征提取方法对基因二值化图像进行特征提取,得到第二特征量化值,其中的特征提取方法可以是人工特征提取方法结合基于图像特征分析的算法如像素邻域均值计算、最大像素值提取等,计算得到第二特征量化值,也可以是深度学习的特征提取方法,如,卷积神经网络cnn、unet++等,具体可根据第二预设属性的特征进行选取,此处不作限制。本实施例中,通过对基因二值化图像进行特征提取,获取对应的第二特征量化值,实现了对基因二值化图像的各个第二预设属性的特征的量化计算,使得特征量化值更加全面丰富,以便后续基于该多个第二特征量化值进行准确直观的基因序列分析和识别,提高了对基因异常识别的准确率。
[0112]
s3.对所述基因二值化图像裁剪后进行三维重建,得到基因三维图像,对基因三维图像进行第三标签属性的特征提取,获取第三标签属性对应的第三特征量化值;
[0113]
一些实施例中,对所述基因二值化图像裁剪后进行三维重建,得到基因三维图像,具体地,将所述基因二值化图像,裁剪成w
×
h的小图,在一个具体实施例中w=224,h=224。将所述裁剪后的小图通过vit三维建模软件沿z轴方向进行叠加获得基因三维图像,沿z轴方向叠加时图像间距为δ,其中δ>0,在一个具体实施例中δ=0.05,三维重建示意图如图3所示。
[0114]
一些实施例中,对基因三维图像进行第三标签属性的特征提取,获取第三标签属性对应的第三特征量化值。其中,第三预设属性是指基因三维图像的多个属性,例如,基因三维图像的异常属性、三维体积属性、三维偏心距属性等,第三特征量化值是指各个第三预设属性的特征对应的量化值。
[0115]
具体地,采用特征提取方法对基因三维图像进行特征提取,得到第三特征量化值,
其中的特征提取方法可以是人工特征提取方法结合基于图像特征分析的算法如像素邻域均值计算、最大像素值提取等,计算得到第三特征量化值,也可以是深度学习的特征提取方法,如,3d卷积神经网络等,具体可根据第三预设属性的特征进行选取,此处不作限制。本实施例中,通过对基因三维图像进行特征提取,获取对应的第三特征量化值,实现了对基因三维图像的各个第三预设属性的特征的量化计算,使得特征量化值更加全面丰富,以便后续基于该多个第三特征量化值进行准确直观的基因序列分析和识别,提高了对基因异常识别的准确率。
[0116]
s4.将所述第一特征量化值、第二特征量化值和第三特征量化值输入已训练的机器学习分类器进行分类,得到基因异常分类结果。
[0117]
其中,已训练的机器学习分类器可通过样本学习具备分类能力的机器学习算法模型实现,本实施例的机器学习分类器用于将不同的第一特征值集合、第二特征值集合以及第三特征值集合划分到正常结果或者异常结果中的一类。
[0118]
具体地,可以利用至少一个机器学习模型进行分类的分类器。其中的机器学习模型可以是如下的一个或者多个:神经网络(例如,卷积神经网络、bp神经网络等)、逻辑回归模型、支持向量机、决策树、随机森林、感知器以及其它机器学习模型。作为这样的机器学习模型的训练的部分,训练输入是各个第一特征量化值、各个第二特征量化值和各个第三特征量化值,例如,功率属性、周期属性、紊乱程度属性、离散属性、零一交叉属性、密度属性、异常属性、三维体积属性、三维偏心距属性等,通过训练,建立第一特征值集合、第二特征值集合、第三特征值集合与待识别的基因序列异常的对应关系的分类器,使得该预设分类器具备判断待识别的基因序列对应的分类结果是正常或者异常结果的能力。本实施例中,该分类器为二分类器,即得到2个分类结果,也即正常结果或者异常结果。可以理解地,本实施例中充分考量了基因序列的基因指示序列多个不同属性的特征量化值、基因二值化图像多个不同属性的特征量化值和基因三维图像多个不同属性对图像处理的准确性及直观性影响,通过提取信息量更加丰富的特征并对多个不同属性的特征进行量化及综合处理,提高了特征值量化的合理性,相较于传统的只考虑单一特征信息及单一的统计比较方法,大大提高了基因异常识别效率。
[0119]
上述实施例提供了基因异常识别方法,首先获取并根据待识别的基因序列获得基因指示序列,其次获取基因指示序列对应的多个第一特征量化值,其次根据基因指示序列得到基因二值化图像并获取基因二值化图像对应的多个第二特征量化值,其次根据基因二值化图像裁剪图像得到基因三维图像并获取基因三维图像对应的多个第三特征量化值,再次将多个第一特征量化值、多个第二特征量化值和多个第三特征量化值输入已训练的机器学习分类器,得到基因正常或者异常识别结果;本实施例充分考量了基因指示序列、基因二值化图像及基因三维图像多个不同属性的特征量化值对基因序列处理的准确性及直观性影响,有效提高基因异常识别效率和识别精准性。
[0120]
在一个实施例中,多个第一预设属性包括功率属性、周期属性、紊乱程度属性;对基因指示序列进行多个第一预设属性的特征提取,获取各个第一预设属性对应的第一特征量化值的步骤,包括:采用预设的功率量化方法确定基因指示序列功率量化结果;采用预设的周期量化方法确定基因指示序列周期量化结果;采用预设的紊乱程度量化方法确定基因指示序列紊乱程度量化结果。
[0121]
其中,将基因指示序列进行傅里叶变换是基因序列常用分析方法,由此可得到4个长度均为n的复数序列,计算每个复数序列的功率谱。
[0122]
具体地,通过傅里叶转换得到4个功率谱,获得四个功率谱的最大功率分别为pua,pug,puc,pu
t
,则功率量化值为
[0123]
其中,将基因指示序列进行傅里叶变换是基因序列常用分析方法,由此可得到4个长度均为n的复数序列,计算每个复数序列的功率谱,并相加得到获得整个基因序列的功率谱其中,k∈[1,n]。基因外显子与内含子序列片段的功率谱通常表现出不同的特性,以酵母基因为例,图4为酵母基因中的一段编码区序列(bk006948.2)在voss映射下的功率谱示意图。
[0124]
具体地,通过傅里叶转换得到4个功率谱,并将4个功率谱按序列相加,获得p(l)≥η时频率值l,其中η≥0.95
×
max(p(k)),则周期量化值为
[0125]
具体地,基因指示序列紊乱程度量化方法,包含以下步骤:
[0126]
s41:通过傅里叶转换获得基因指示序列功率谱其中,k∈[1,n];
[0127]
s42:对功率谱进行数据处理,其中α∈[1,1+1
·
δ,2
·
δ
…i·
δ
…3·
kk],kk=0,1,2
…
且3
·
kk≤n,n∈[1,m],其中m为自然数,如m=1500,这里不做具体限制,δ∈[0,1],如δ=0.01,这里不做具体限制;
[0128]
s43:获取基因指示序列进入多周期时的频率q,则紊乱程度量化值为
[0129]
在一个实施例中,多个第二预设属性包括离散属性、零一交叉属性、密度属性;对基因二值化图像进行多个第二预设属性的特征提取,获取各个第二预设属性对应的第二特征量化值的步骤,包括:采用预设的离散量化方法确定基因二值化图像离散量化结果;采用预设的零一交叉量化方法确定基因二值化图像零一交叉量化结果;采用预设的密度量化方法确定基因二值化图像密度量化结果。
[0130]
具体地,所述基因二值化图像中像素值为1的像素点坐标为o
1i
(1xi,1yi),则离散量化值为
[0131]
具体地,所述基因二值化图像每行从1变为0的和从0变为1的总次数c
rj
,其中,j≤h,h表示基因二值化图像高,所述基因二值化图像每列从1变为0的和从0变为1的总次数c
ci
,其中,i≤w,w表示基因二值化图像高,则零一交叉量化值为
[0132]
具体地,所述基因二值化图像中像素值为1的像素点个数为cont,则密度量化值为
[0133]
在一个实施例中,多个第三预设属性包括异常属性、三维体积属性、三维偏心距属性;对基因三维图像进行多个第三预设属性的特征提取,获取各个第三预设属性对应的第三特征量化值的步骤,包括:采用预设的异常计算方法确定基因三维图像异常结果;采用预设的三维体积量化方法确定基因三维图像三维体积量化结果;采用预设的三维偏心距量化方法确定基因三维图像三维偏心距量化结果。
[0134]
具体地,训练后的基因三维图像异常分类器是一种用于判断基因三维图像是否异常的学习模型,具体地,该训练后的基因三维图像异常分类器可以是通过3d-cnn络模型实现,这里不做限制,将单张基因三维图像输入训练后的基因三维图像异常分类器中进行识别,输出基因三维图像置信度为scorei,则基因三维图像异常值为其中δ为图像三维重建时轴向间距。
[0135]
具体地,所述基因三维图像中,以基因三维图像左上角顶点为坐标原点建立xyz三维坐标系,获得像素值为1的像素点坐标为o
1i
(1xi,1yi,1zi),则三维体积量化值为label8=max(|1zi|)
·
max(|1xi|)
·
max(|1yi|)。
[0136]
具体地,所述基因三维图像中,以基因三维图像左上角顶点为坐标原点建立xyz三维坐标系,获得像素值为1的像素点坐标为o
1i
(1xi,1yi,1zi),像素值为1等效质心则三维偏心距量化值为其中w,h,l分别为基因三维图像的宽、高和轴向深度。
[0137]
在一个实施例中,已训练的机器学习分类器包括特征拟合子网络和分类子网络;各个第一特征量化值、各个第二特征量化值和各个第三特征量化值输入已训练的机器学习分类器进行分类,得到基因序列异常的分类结果的步骤,包括:采用特征拟合子网络对各个第一特征量化值、各个第二特征量化值和各个第三特征量化值进行拟合处理,得到判定系数;基于判定系数,采用分类子网络进行分析,得到分类结果。
[0138]
具体地,通过特征拟合子网络各个第一特征量化值、各个第二特征量化值和各个第三特征量化值进行拟合处理进行拟合处理,根据拟合结果各个第一特征量化值、各个第二特征量化值和各个第三特征量化值进行拟合处理的对应的权重,继续以上述实施例中第一特征量化值label1~label3,第二特征量化值label4~label6,第三特征量化值label7~label9为例,利用决策树、随机森林等确定label1~label9,对应的权重分别为λ1~λ9,则此
时融合特征值为:分类结果为正常、异常结果。
[0139]
本发明中的基因异常识别方法,包括以下步骤:通过提取基因指示序列的第一标签属性、第二标签属性,第三标签属性的多个标签属性特征量化值,进行基因异常识别;所述第一标签属性包括功率属性、周期属性和/或紊乱程度属性;所述第二标签属性包括离散属性、零一交叉属性和/或密度属性;所述第三标签属性包括异常属性、三维体积属性和/或三维偏心距属性。本发明提供的方法充分考量了基因指示序列、基因二值化图像及基因三维图像多个不同属性的特征量化值对基因序列处理的准确性及直观性影响,有效提高基因异常识别效率和识别精准性。
[0140]
本发明实施例第二方面提供一种基因异常识别方法装置用于:
[0141]
通过提取基因指示序列的第一标签属性、第二标签属性,第三标签属性的多个标签属性特征量化值,进行基因异常识别;
[0142]
所述第一标签属性包括功率属性、周期属性和/或紊乱程度属性;
[0143]
所述第二标签属性包括离散属性、零一交叉属性和/或密度属性;
[0144]
所述第三标签属性包括异常属性、三维体积属性和/或三维偏心距属性。
[0145]
一些实施例中包括:
[0146]
采集模块,用于获取基因序列;
[0147]
映射模块,用于对所述基因序列进行数字映射,得到基因指示序列;
[0148]
特征提取模块,用于对所述基因指示序列进行第一标签属性的特征提取,获取第一标签属性对应的第一特征量化值;
[0149]
图像处理模块,用于对所述基因指示序列进行图像转换,得到基因二值化图像,
[0150]
特征提取模块,还用于对基因二值化图像进行第二标签属性的特征提取,获取第二标签属性对应的第二特征量化值;
[0151]
图像处理模块,还用于对所述基因二值化图像裁剪后进行三维重建,得到基因三维图像;
[0152]
特征提取模块,还用于对基因三维图像进行第三标签属性的特征提取,获取第三标签属性对应的第三特征量化值;
[0153]
生成模块,用于将所述第一特征量化值、第二特征量化值和第三特征量化值输入已训练的机器学习分类器进行分类,得到基因异常分类结果。
[0154]
一些实施例中,特征提取模块用于:
[0155]
所述对所述基因指示序列进行第一标签属性的特征提取,获取第一标签属性对应的第一特征量化值,包括以下步骤:
[0156]
根据公式:
[0157][0158]
得到功率特征量化值label1,其中pua,pug,puc,pu
t
是基因4个指示序列对应4个功率谱中最大功率;
[0159]
根据公式:
[0160][0161]
得到周期特征量化值label2,n是功率谱的长度;
[0162]
根据公式:
[0163][0164]
得到紊乱程度特征量化值label3,4n是基因二值化图像像素值中个数,q是基因指示序列进入多周期时的频率。
[0165]
其中,所述基因指示序列进周期实现方法,包括以下步骤:
[0166]
通过傅里叶转换获得基因指示序列功率谱其中,k∈[1,n];
[0167]
根据公式对功率谱进行数据处理:
[0168][0169]
其中α∈[1,1+1
·
δ,2
·
δ
…i·
δ
…3·
kk],kk=0,1,2
…
且3
·
kk≤n,n∈[1,m],其中m为自然数,δ∈[0,1],这里不做具体限制;
[0170]
获取基因指示序列进入多周期时的频率。
[0171]
一些实施例中,图像处理模块用于:
[0172]
对所述基因指示序列进行图像转换,得到基因二值化图像,包括一下步骤:
[0173]
获取基因指示序列长度n,则基因指示序列对应的基因二值化图像像素值中个数为4n;
[0174]
进行二值化图像宽高估算,假设基因指示序列对应的基因二值化图像宽和高大小相等,即w=h,且w2≥4n>(w-1)2;
[0175]
将作为基因二值化图像第一确定像素区域,得到
[0176]
1h,ua(0,w-1)
[0177]
2h,ug(0,w-1)
[0178]
3h,uc(0,w-1)
[0179]
4h,u
t
(0,w-1)
[0180]
其中h代表行;
[0181]
将作为基因二值化图像第k确定像素区域,得到:
[0182][0183]
将剩余放入w+1列,得到:
[0184][0185]
将基因二值化图像中剩余的像素区域用0进行填充。
[0186]
一些实施例中,特征提取模块还用于:
[0187]
对基因二值化图像进行第二标签属性的特征提取,获取第二标签属性对应的第二特征量化值,包括以下步骤:
[0188]
根据公式:
[0189][0190]
得到离散特征量化值label4,其中o
1i
(1xi,1yi)是基因二值化图像中像素值为1的像素点坐标,h是基因二值化图像高,w是基因二值化图像宽;
[0191]
根据公式:
[0192][0193]
得到零一交叉量化值label5,h是基因二值化图像高,w是基因二值化图像宽,c
ci
是基因二值化图像每列从1变为0的和从0变为1的总次数;
[0194]
根据公式:
[0195][0196]
得到密度量化值label6,cont是基因二值化图像中像素值为1的像素点个数,h是基因二值化图像高,w是基因二值化图像宽,4n是基因二值化图像像素值中个数。
[0197]
一些实施例中,图像处理模块还用于:
[0198]
所述基因二值化图像裁剪后进行三维重建,得到基因三维图像,包括一下步骤:
[0199]
将所述基因二值化图像,裁剪成的小图;
[0200]
将所述裁剪后的小图通过vit三维建模软件沿z轴方向按照一定的图像间隔进行叠加获得基因三维图像。
[0201]
一些实施例中,特征提取模块还用于:
[0202]
对基因三维图像进行第三标签属性的特征提取,获取第三标签属性对应的第三特
征量化值,包括以下步骤:
[0203]
根据公式:
[0204][0205]
得到异常特征量化值label7,scorei是输出基因三维图像置信度,δ是图像三维重建时轴向间距;
[0206]
根据公式:
[0207]
label8=max(|1zi|)
·
max(|1xi|)
·
max(|1yi|)
[0208]
得到三维体积特征量化值label8,o
1i
(1xi,1yi,1zi)是三维坐标系中像素值为1的像素点坐标;
[0209]
根据公式:
[0210][0211]
得到三维偏心距特征量化值label9,w,h,l分别是基因三维图像的宽、高和轴向深度。
[0212]
一些实施例中,生成模块用于:
[0213]
将所述多个第一特征量化值、多个第二特征量化值和多个第三特征量化值输入已训练的机器学习分类器进行分类,得到基因异常分类结果,包括:
[0214]
将所述第一特征量化值、第二特征量化值和第三特征量化值输入特征拟合子网络和分类子网络;
[0215]
采用所述特征拟合子网络对多个所述标签属性的特征量化值进行拟合处理,得到判定系数;
[0216]
基于所述判定系数,采用所述分类子网络进行分析,得到所述分类结果,所述分类结果为正常或者异常。
[0217]
在本技术的描述中,需要说明的是,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本技术的限制。除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本技术中的具体含义。
[0218]
需要说明的是,在本技术中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0219]
以上所述仅是本技术的具体实施方式,使本领域技术人员能够理解或实现本技术。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
技术特征:
1.一种基因异常识别方法,其特征在于,包括以下步骤:通过提取基因指示序列的第一标签属性、第二标签属性,第三标签属性的多个标签属性特征量化值,进行基因异常识别;所述第一标签属性包括功率属性、周期属性和/或紊乱程度属性;所述第二标签属性包括离散属性、零一交叉属性和/或密度属性;所述第三标签属性包括异常属性、三维体积属性和/或三维偏心距属性。2.如权利要求1所述的一种基因异常识别方法,其特征在于,所述通过提取基因指示序列的第一标签属性、第二标签属性,第三标签属性的多个标签属性特征量化值,进行基因异常识别,包括以下步骤:获取基因序列,对所述基因序列进行数字映射,得到基因指示序列;对所述基因指示序列进行第一标签属性的特征提取,获取第一标签属性对应的第一特征量化值;对所述基因指示序列进行图像转换,得到基因二值化图像,对基因二值化图像进行第二标签属性的特征提取,获取第二标签属性对应的第二特征量化值;对所述基因二值化图像裁剪后进行三维重建,得到基因三维图像,对基因三维图像进行第三标签属性的特征提取,获取第三标签属性对应的第三特征量化值;将所述第一特征量化值、第二特征量化值和第三特征量化值输入已训练的机器学习分类器进行分类,得到基因异常分类结果。3.如权利要求2所述的一种基因异常识别方法,其特征在于,所述对所述基因指示序列进行第一标签属性的特征提取,获取第一标签属性对应的第一特征量化值,包括以下步骤:根据公式:得到功率特征量化值label1,其中pu
a
,pu
g
,pu
c
,pu
t
是基因4个指示序列对应4个功率谱中最大功率;根据公式:得到周期特征量化值label2,n是功率谱的长度;根据公式:得到紊乱程度特征量化值label3,4n是基因二值化图像像素值中个数,q是基因指示序列进入多周期时的频率。4.如权利要求3所述的一种基因异常识别方法,其特征在于,还包括:通过傅里叶转换获得基因指示序列功率谱其中,k∈[1,n];根据公式对功率谱进行数据处理:
其中α∈[1,1+1
·
δ,2
·
δ
…
i
·
δ
…3·
kk],kk=0,1,2
…
且3
·
kk≤n,n∈[1,m],其中m为自然数,δ∈[0,1],这里不做具体限制;获取基因指示序列进入多周期时的频率q。5.如权利要求4所述的一种基因异常识别方法,其特征在于,所述对所述基因指示序列进行图像转换,得到基因二值化图像,包括以下步骤:获取基因指示序列长度n,使得基因指示序列对应的基因二值化图像像素值中个数为4n;进行二值化图像宽高估算,使基因指示序列对应的基因二值化图像宽w和高h大小相等,且w2≥4n>(w-1)2;将作为基因二值化图像第一确定像素区域,得到1h,u
a
(0,w-1)2h,u
g
(0,w-1)3h,u
c
(0,w-1)4h,u
t
(0,w-1)其中基因指示序列的行对应基因二值化图像的高h;将作为基因二值化图像第k确定像素区域,得到:将剩余放入w+1列,得到:将基因二值化图像中剩余的像素区域用0进行填充,得到基因二值化图像。6.如权利要求5所述的一种基因异常识别方法,其特征在于,所述对基因二值化图像进行第二标签属性的特征提取,获取第二标签属性对应的第二特征量化值,包括以下步骤:
根据公式:得到离散特征量化值label4,其中o
1i
(1xi,1yi)是基因二值化图像中像素值为1的像素点坐标,h是基因二值化图像高,w是基因二值化图像宽;根据公式:得到零一交叉量化值label5,h是基因二值化图像高,w是基因二值化图像宽,c
ci
是基因二值化图像每列从1变为0的和从0变为1的总次数;根据公式:得到密度量化值label6,cont是基因二值化图像中像素值为1的像素点个数,h是基因二值化图像高,w是基因二值化图像宽,4n是基因二值化图像像素值中个数。7.如权利要求6所述的一种基因异常识别方法,其特征在于,所述对所述基因二值化图像裁剪后进行三维重建,得到基因三维图像,包括以下步骤:将所述基因二值化图像进行裁剪;将所述裁剪后的图像沿z轴方向按照一定的图像间隔进行叠加获得基因三维图像。8.如权利要求7所述的一种基因异常识别方法,其特征在于,所述对基因三维图像进行第三标签属性的特征提取,获取第三标签属性对应的第三特征量化值,包括以下步骤:根据公式:得到异常特征量化值label7,score
i
是输出基因三维图像置信度,δ是图像三维重建时轴向间距;根据公式:label8=max(|1zi)
·
max(|1xi|)
·
max(|1yi|)得到三维体积特征量化值label8,o
1i
(1xi,1yi,1zi)是三维坐标系中像素值为1的像素点坐标;根据公式:得到三维偏心距特征量化值label9,w,h,l分别是基因三维图像的宽、高和轴向深度。9.如权利要求8所述的一种基因异常识别方法,其特征在于,所述将所述多个第一特征量化值、多个第二特征量化值和多个第三特征量化值输入已训练的机器学习分类器进行分类,得到基因异常分类结果,包括:将所述第一特征量化值、第二特征量化值和第三特征量化值输入特征拟合子网络和分
类子网络;采用所述特征拟合子网络对多个所述标签属性的特征量化值进行拟合处理,得到判定系数;基于所述判定系数,采用所述分类子网络进行分析,得到所述分类结果,所述分类结果为正常或者异常。10.一种基因异常识别装置,其特征在于,用于:通过提取基因指示序列的第一标签属性、第二标签属性,第三标签属性的多个标签属性特征量化值,进行基因异常识别;所述第一标签属性包括功率属性、周期属性和/或紊乱程度属性;所述第二标签属性包括离散属性、零一交叉属性和/或密度属性;所述第三标签属性包括异常属性、三维体积属性和/或三维偏心距属性。
技术总结
本发明公开了一种基因异常识别方法与装置,涉及基因数据处理技术领域,该方法包括以下步骤:通过提取基因指示序列的第一标签属性、第二标签属性,第三标签属性的多个标签属性特征量化值,进行基因异常识别;所述第一标签属性包括功率属性、周期属性和/或紊乱程度属性;所述第二标签属性包括离散属性、零一交叉属性和/或密度属性;所述第三标签属性包括异常属性、三维体积属性和/或三维偏心距属性。本发明提供的方法充分考量了基因指示序列、基因二值化图像及基因三维图像多个不同属性的特征量化值对基因序列处理的准确性及直观性影响,有效提高基因异常识别效率和识别精准性。性。性。
技术研发人员:吴练练
受保护的技术使用者:武汉大学人民医院(湖北省人民医院)
技术研发日:2023.05.31
技术公布日:2023/8/13
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
