基于三角多项式拟合的电导率异常值识别方法、系统与流程
未命名
08-27
阅读:138
评论:0
1.本发明属于电导率异常值识别技术领域,尤其涉及基于三角多项式拟合的电导率异常值识别方法、系统。
背景技术:
2.由于海气界面的热量和动量传递、洋流、风和潮汐效应等许多强迫因素的复杂相互作用,导致海洋调查数据具有高度的空间与时间可变性。尽管温度和盐度等海洋要素遵循某些特定的物理规律,但每个数据剖面都是不同的。这给海洋环境的测量带来了极大的挑战,也使得一些误差测量不可避免。海洋数据的质量在很大程度上取决于识别和去除这些误差测量导致的不良样本的能力,而决定数据的质量和检测异常值需要对数据和海洋学有深入的了解和经验。在经典的数据质量控制中,过去已有的方法多应用一系列阈值算法来识别异常数据,然后由处理人员目视检查每个已识别出的可疑样本。这种耗时的视觉质量控制的目标是发现“假阳性”数据并将其恢复为良好数据。因为每个样本数据不仅具有科学价值,而且具有经济价值。虽然这种质控方法可以得到最佳的数据质量,但在过去的几十年里,海洋学进行了前所未有的大量测量,这些测量每天都在增加,手动/视觉质量控制在处理大型数据集或实时数据流时变得不切实际。因此,海洋学数据的质量控制程序必须不断发展,以提高对大数据收集进行质量评估的能力,减少人力资源,补充经典的自动化质量控制程序,从而跟上海洋调查数据的不断增长。
3.几十年来,海洋专家为数据质量控制建立了复杂的半自动化工作流程,例如经典的范围检查和分布检查,并进行了大量支持和自动化质量控制的经典尝试。其中现有研究试图开发一种基于复杂经典统计方法的全自动质量控制方法,如范围检查、尖峰检测、移动窗口、稳健统计(中位数)等。最后发现,因为删除了太多好数据,无法达到可接受的坏数据检测率,这意味着该算法过于敏感。最终,不得不对大多数配置文件进行视觉检查,以创建高质量的数据集。虽然基于三次样条拟合的电导率异常值识别方法,在减少人为因素依赖性和结果明确性等方面有了较大提升和进步,将基于方差控制的电导率异常值识别方法的漏报率56.96%以及基于中位数滤波结合最大偏差的电导率异常值识别方法的漏报率23.28%降到了17.88%,误报率2.19%及0.31%降到了0.24%,但基于三次样条拟合的电导率异常值识别方法在独立点位置的选取,插值函数选取以及程序实现上较为复杂,而且需要在所有独立点处保持插值函数的二次可导性,这大大增加了计算量。
4.与此同时,三角函数因其本身的周期性和连续性,在数学、物理、化学、天文、经济、大地与海洋测量、农业和其他科学分支得到了广泛应用,近年来,在水下滑翔机不确定参数以及潮汐开边界条件构造等领域得到了良好的应用效果。此外,现有技术对三角多项式拟合方案与独立点方案进行了比较分析,发现三角多项式拟合具有更小的误差。
5.通过上述分析,现有技术存在的问题及缺陷为:现有技术在识别电导率异常值上识别的准确性和高效性方面有待提高。
技术实现要素:
6.为克服相关技术中存在的问题,本发明公开实施例提供了基于三角多项式拟合的电导率异常值识别方法、系统;本发明以三角函数为基函数对电导率剖面数据进行拟合,目的在于提出一种更为普适、更容易实施,稳定、准确、高效的异常值识别方法,为海洋数据的质量控制提供一种可供借鉴的思路。
7.所述技术方案如下:一种基于三角多项式拟合的电导率异常值识别方法,包括以下步骤:s1,利用三角函数为基函数,通过引入1/2倍周期,用于解决边界拟合震荡问题;s2,利用留一法交叉检验确定三角多项式项数,通过迭代拟合产生的最大拟合残差序列确定最优拟合次数,识别海洋调查数据中电导率异常值,并进行可视化示出,所述海洋调查数据包括:海水温度数据、电导率数据、深度数据。
8.在步骤s1中,1/2倍周期取;其中与分别为海水深度数据的最大值与最小值。
9.在步骤s1中,三角函数采用三角多项式拟合方法拟合电导率剖面数据,用于海水温盐深剖面数据的异常值检测或者缺失值弥补。
10.在步骤s2中,利用留一法交叉检验确定三角多项式项数,,通过迭代拟合产生的最大拟合残差序列确定每个电导率剖面数据的最优拟合次数。
11.在步骤s2中,识别海洋调查数据中电导率异常值,具体包括:把温盐深剖面数据数每10个分成一组,最后一组数量不足10个时无需补齐,共分成组;首先将每组的第个数据选取为检验点,,将检验点的电导率数据赋值为nan值,,给定最高三角多项式项,然后从1增加到50,每次均基于三角多项式拟合法对剖面数据拟合,得到拟合结果,并将所有检验点处的相对拟合残差取平均;依次遍历,最后计算遍历10次后的相对拟合残差平均值。
12.随机抽取剖面数据的10%个数据作为检验点,将检验点的数据赋值为nan值,为1到中随机的10%个位置,为重复随机抽取的次数,取;给定最高三角多项式项,然后从1增加到50,每次均基于三角多项式拟合法对剖面数据拟合,得到拟合结果,并将所有
检验点处的相对拟合残差取平均;依次遍历,最后计算遍历10次后的相对拟合残差平均值。
13.本发明的另一目的在于提供一种在数学、物理、化学、经济中异常值识别上的应用,实施所述的基于三角多项式拟合的电导率异常值识别方法。
14.本发明的另一目的在于提供一种在大地与海洋测量、农业领域中异常值识别上的应用,实施所述的基于三角多项式拟合的电导率异常值识别方法。
15.本发明的另一目的在于提供一种基于三角多项式拟合的电导率异常值识别系统,实施所述的基于三角多项式拟合的电导率异常值识别方法,该系统包括:1/2倍周期引入模块,利用三角函数为基函数,通过引入1/2倍周期,解决了边界拟合震荡问题;最优拟合次数确定模块,用于利用留一法交叉检验确定三角多项式项数,通过迭代拟合产生的最大拟合残差序列确定最优拟合次数;电导率异常值识别终端,用于识别海洋调查数据中电导率异常值,并进行可视化示出,所述海洋调查数据包括:海水温度、电导率、深度数据。
16.该系统还包括:两个同步观测的温盐深传感器,用于检测海水温度数据、电导率数据、深度数据。
17.结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明利用三角函数为基函数,对温盐深电导率剖面数据进行拟合。在不借助其他多项式的情况下,通过引入1/2倍周期,有效解决了边界拟合振荡问题;利用留一法交叉检验确定三角多项式项数,并利用迭代拟合产生的最大拟合残差序列确定最优拟合次数,准确识别了电导率异常值。与三次样条拟合法对比,三角多项式拟合法保持了电导率剖面数据的平滑性,使拟合结果更接近实际分布,具有更小的拟合误差和更高的稳定性;将基于三次样条拟合的电导率异常值识别方法的漏报率由3.73%降到了2%,误报率由0.28%降到了0.03%;同时,拟合过程更为简单易实施,计算量更小,在异常值识别的准确性和高效性方面具有显著优势。
18.本发明可应用于在数学、物理、化学、天文、经济、大地与海洋测量、农业等领域异常值快速准确识别上,以保证数据的可靠性,为各领域提供可靠的数据支撑。本发明的技术方案填补了国内外业内通过三角函数拟合实现电导率异常值识别方面的技术空白。本发明通过引入1/2倍周期解决了过去人们在不借助其他函数的前提下,一直无法解决边界拟合震荡问题的技术难题。本发明的技术方案克服了现有异常值识别技术无法快速准确识别所有异常值,以及在不借助其他函数的前提下无法解决边界拟合震荡问题的技术偏见。
附图说明
19.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理;图1是本发明实施例提供的基于三角多项式拟合的电导率异常值识别方法流程
图;图2-1是本发明实施例提供的在三角多项式中仅采用整数倍周期不加入1/2倍周期对实例c01(黑点)的拟合结果(灰线)示意图;图2-2是本发明实施例提供的在三角多项式中仅采用整数倍周期不加入1/2倍周期对实例c02(黑点)的拟合结果(灰线)示意图;图2-3是本发明实施例提供的在三角多项式中仅采用整数倍周期不加入1/2倍周期对实例c03(黑点)的拟合结果(灰线)示意图;图2-4是本发明实施例提供的在三角多项式中仅采用整数倍周期不加入1/2倍周期对实例c04(黑点)的拟合结果(灰线)示意图;图2-5是本发明实施例提供的在三角多项式中仅采用整数倍周期不加入1/2倍周期对实例c05(黑点)的拟合结果(灰线)示意图;图2-6是本发明实施例提供的在三角多项式中仅采用整数倍周期不加入1/2倍周期对实例c06(黑点)的拟合结果(灰线)示意图;图2-7是本发明实施例提供的在三角多项式中仅采用整数倍周期不加入1/2倍周期对实例c07(黑点)的拟合结果(灰线)示意图;图2-8是本发明实施例提供的在三角多项式中仅采用整数倍周期不加入1/2倍周期对实例c08(黑点)的拟合结果(灰线)示意图;图2-9是本发明实施例提供的在三角多项式中仅采用整数倍周期不加入1/2倍周期对实例c09(黑点)的拟合结果(灰线)示意图;图2-10是本发明实施例提供的在三角多项式中仅采用整数倍周期不加入1/2倍周期对实例c10(黑点)的拟合结果(灰线)示意图;图2-11是本发明实施例提供的在三角多项式中仅采用整数倍周期不加入1/2倍周期对实例c11(黑点)的拟合结果(灰线)示意图;图2-12是本发明实施例提供的在三角多项式中仅采用整数倍周期不加入1/2倍周期对实例c12(黑点)的拟合结果(灰线)示意图;图2-13是本发明实施例提供的在三角多项式中仅采用整数倍周期不加入1/2倍周期对实例c13(黑点)的拟合结果(灰线)示意图;图2-14是本发明实施例提供的在三角多项式中仅采用整数倍周期不加入1/2倍周期对实例c14(黑点)的拟合结果(灰线)示意图;图2-15是本发明实施例提供的在三角多项式中仅采用整数倍周期不加入1/2倍周期对实例c15(黑点)的拟合结果(灰线)示意图;图2-16是本发明实施例提供的在三角多项式中仅采用整数倍周期不加入1/2倍周期对实例c16(黑点)的拟合结果(灰线)示意图;图2-17是本发明实施例提供的在三角多项式中仅采用整数倍周期不加入1/2倍周期对实例c17(黑点)的拟合结果(灰线)示意图;图2-18是本发明实施例提供的在三角多项式中仅采用整数倍周期不加入1/2倍周期对实例c18(黑点)的拟合结果(灰线)示意图;图2-19是本发明实施例提供的在三角多项式中仅采用整数倍周期不加入1/2倍周期对实例c19(黑点)的拟合结果(灰线)示意图;
图2-20是本发明实施例提供的在三角多项式中仅采用整数倍周期不加入1/2倍周期对实例c20(黑点)的拟合结果(灰线)示意图;图3是本发明实施例提供的实例c01-c20的均匀交叉验证结果图;图4是本发明实施例提供的实例c01-c20的随机交叉验证结果图;图5是本发明实施例提供的最大拟合残差序列随着拟合次数的增加变化情况图;图6-1是本发明实施例提供的基于三角多项式加入1/2倍周期后拟合结果(灰线)及识别的实例c01(黑点)剖面数据中异常点结果(圆圈)图;图6-2是本发明实施例提供的基于三角多项式加入1/2倍周期后拟合结果(灰线)及识别的实例c02(黑点)剖面数据中异常点结果(圆圈)图;图6-3是本发明实施例提供的基于三角多项式加入1/2倍周期后拟合结果(灰线)及识别的实例c03(黑点)剖面数据中异常点结果(圆圈)图;图6-4是本发明实施例提供的基于三角多项式加入1/2倍周期后拟合结果(灰线)及识别的实例c04(黑点)剖面数据中异常点结果(圆圈)图;图6-5是本发明实施例提供的基于三角多项式加入1/2倍周期后拟合结果(灰线)及识别的实例c05(黑点)剖面数据中异常点结果(圆圈)图;图6-6是本发明实施例提供的基于三角多项式加入1/2倍周期后拟合结果(灰线)及识别的实例c06(黑点)剖面数据中异常点结果(圆圈)图;图6-7是本发明实施例提供的基于三角多项式加入1/2倍周期后拟合结果(灰线)及识别的实例c07(黑点)剖面数据中异常点结果(圆圈)图;图6-8是本发明实施例提供的基于三角多项式加入1/2倍周期后拟合结果(灰线)及识别的实例c08(黑点)剖面数据中异常点结果(圆圈)图;图6-9是本发明实施例提供的基于三角多项式加入1/2倍周期后拟合结果(灰线)及识别的实例c09(黑点)剖面数据中异常点结果(圆圈)图;图6-10是本发明实施例提供的基于三角多项式加入1/2倍周期后拟合结果(灰线)及识别的实例c10(黑点)剖面数据中异常点结果(圆圈)图;图6-11是本发明实施例提供的基于三角多项式加入1/2倍周期后拟合结果(灰线)及识别的实例c11(黑点)剖面数据中异常点结果(圆圈)图;图6-12是本发明实施例提供的基于三角多项式加入1/2倍周期后拟合结果(灰线)及识别的实例c12(黑点)剖面数据中异常点结果(圆圈)图;图6-13是本发明实施例提供的基于三角多项式加入1/2倍周期后拟合结果(灰线)及识别的实例c13(黑点)剖面数据中异常点结果(圆圈)图;图6-14是本发明实施例提供的基于三角多项式加入1/2倍周期后拟合结果(灰线)及识别的实例c14(黑点)剖面数据中异常点结果(圆圈)图;图6-15是本发明实施例提供的基于三角多项式加入1/2倍周期后拟合结果(灰线)及识别的实例c15(黑点)剖面数据中异常点结果(圆圈)图;图6-16是本发明实施例提供的基于三角多项式加入1/2倍周期后拟合结果(灰线)及识别的实例c16(黑点)剖面数据中异常点结果(圆圈)图;图6-17是本发明实施例提供的基于三角多项式加入1/2倍周期后拟合结果(灰线)及识别的实例c17(黑点)剖面数据中异常点结果(圆圈)图;
图6-18是本发明实施例提供的基于三角多项式加入1/2倍周期后拟合结果(灰线)及识别的实例c18(黑点)剖面数据中异常点结果(圆圈)图;图6-19是本发明实施例提供的基于三角多项式加入1/2倍周期后拟合结果(灰线)及识别的实例c19(黑点)剖面数据中异常点结果(圆圈)图;图6-20是本发明实施例提供的基于三角多项式加入1/2倍周期后拟合结果(灰线)及识别的实例c20(黑点)剖面数据中异常点结果(圆圈)图;图7是本发明实施例提供的三角多项式拟合法识别实例c01-c20异常点数量统计图;图8是本发明实施例提供的原始异常点数量与经过修正后的异常点数量图;图9是本发明实施例提供的三次样条拟合方法的异常点识别情况示意图;图10是本发明实施例提供的三角多项式拟合方法的异常点识别情况图。
具体实施方式
20.为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其他方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施的限制。
21.实施例1,如图1所示,本发明实施例提供的基于三角多项式拟合的电导率异常值识别方法包括以下步骤:s1,利用三角函数为基函数,通过引入1/2倍周期,解决边界拟合震荡问题;s2,利用留一法交叉检验确定三角多项式项数,通过迭代拟合产生的最大拟合残差序列确定最优拟合次数,识别海洋调查数据中电导率异常值,并进行可视化示出,所述海洋调查数据包括:海水温度、电导率、深度数据。
22.实施例2,作为本发明另一种实施方式,本发明实施例提供的电导率异常值识别方法使用的20个温盐深剖面数据与基于三次样条拟合的电导率异常值识别方法使用的数据完全一致,为了保持表述的一致性,令与分别表示异常电导率传感器与正常电导率传感器随时间同步获取的个水深、水温、电导率观测值组成的序列。其中为水深,为海水温度,为海水电导率,代表单个剖面数据的长度。存在明显异常值的20个电导率剖面数据用c01-c20表示。具体包括以下内容:(1)三角多项式拟合方法的操作步骤。
23.令,则形如下式的函数称作阶三角多项式:(1)其中:
;;与通过最小二乘法求解如下:在方程(1)中令:;;;则方程(1)可改写为:;根据最小二乘法,令:(2)对方程(2)求一阶导,并令其为0,有:;从而求得参数,及拟合结果。
24.上述公式表明可以利用三角多项式来拟合电导率剖面数据,为温盐深剖面数据的异常值检测或者缺失值弥补提供了一种可能。为海洋观测和研究提供现实意义的参考和支撑。
25.将拟合数据与原始数据做差得到拟合残差,最大拟合残差记为。如果,则将最大拟合残差点及拟合残差的点标记为异常点并剔除,否则将最大拟合残差点及拟合残差的点标记为异常点并剔除。
26.对新的电导率数据继续执行三角多项式拟合,新的拟合残差及最大拟合残差记为和。同理,如果,则将最大拟合残差点及拟合残差的点标记为异常点并剔除,否则将最大拟合残差点及拟合残差的点标记为异常点并剔除。
27.按照上述步骤迭代拟合次,大于等于异常点的最大可能数量,得到最大拟合残差序列。随着异常点不断被识别和剔除,最大拟合残差值不断减小,当重复执行次后,若继续进行三次样条拟合,存在正常点被误报为异常点,最大拟合残差不再继续减小甚至会增大。因此,将最大拟合残差序列中最小值对应的拟合次数作为最优拟合次数,最优拟合次数内识别的所有异常点即剖面数据的所有异常点。
28.(2)选取三角多项式项,在拟合过程中当仅采用整数倍周期拟合电导率数据时,在数据首尾处出现较为明显的震荡(图2-1至图2-20)。经过工作的事实证明,通过添加低阶多项式可以有效解决此类边界问题,并用实例说明了同时使用多项式和三角函数拟合的有效性。
29.(3)本发明在不引入其他多项式的情况下,单独使用三角函数,引入1/2倍周期,同样可以有效解决边界拟合振荡问题,其中与分别为海水深度数据的最大值与最小值,为周期。保持三角多项式项,引入1/2倍周期后有效的消除了边界拟合震荡,同时准确的识别出了剖面数据中的异常点,如图6-1至图6-20中加入1/2倍周期后对实例c01-c20(黑点)的拟合结果(灰线)及异常点(圆圈)所示;在三角多项式中加入1/2倍周期后,解决了电导率剖面数据边界拟合振荡问题,使得拟合数据与原始数据很好的吻合,从而可以作为异常值检测的判别依据。圆圈点是识别出的每个剖面数据中的异常值,可以看出效果显著,与不引入1/2倍周期的拟合结果(图2-1至图2-20)形成了鲜明的对比。
30.(4)在上述拟合过程中选取三角多项式项,下面通过留一法均匀交叉检验和随机交叉检验,说明三角多项式项数的最优性。
31.(4.1)把电导率剖面数据每10个分成一组,最后一组数量不足10个时无需补齐,共分成组。首先将每组的第个数据选取为检验点,,将检验点的数据赋值为nan值,,给定最高三角多项式项,然后从1增加到50,每次均基于三角多项式拟合法对剖面数据拟合,得到拟合结果,并将所有检验点处的相对拟合残差取平均。依次遍历,最后计算遍历10次后的相对拟合残差平均值。
32.如图3实例c01-c20的均匀交叉验证结果(20条浅色线分别代表20个实例的拟合相对误差,深黑线为20个实例验证结果的平均拟合相对误差)所示,当三角多项式阶数大于18
时,实例c07的拟合相对误差维持在2
‰‑3‰
左右,c03与c20的拟合相对误差维持在1
‰‑2‰
之间,其他大部分实例的拟合相对误差以及20个实例的平均拟合相对误差均小于1
‰
。在本发明实施例中,基于三角多项式拟合方法的其中一个主要参数就是多项式的项数。
33.(4.2)随机抽取剖面数据的10%个数据作为检验点,将检验点的数据赋值为nan值,为1到n中随机的10%个位置,为重复随机抽取的次数,取。给定最高三角多项式项,然后从1增加到50,每次均基于三角多项式拟合法对剖面数据拟合,得到拟合结果,并将所有检验点处的相对拟合残差取平均。依次遍历,最后计算遍历10次后的相对拟合残差平均值。
34.如图4实例c01-c20的随机交叉验证结果(20条浅色线分别代表20个实例的拟合相对误差,黑线为20个实例验证结果的平均拟合相对误差)所示,当三角多项式阶数大于18时,c03的拟合相对误差有所增大,基本维持在3
‰‑4‰
之间,c02、c07、c12、c16与c20的拟合相对误差维持在1
‰‑2‰
之间,其他大部分实例的拟合相对误差以及20个实例的平均拟合相对误差均小于1
‰
。
35.其中,图3和图4是分别通过均匀交叉检验和随机交叉检验来选取三角多项式的合理项数,两种检验结果都表明,当三角多项式的项数m取18时是最为合理的。
36.本发明通过留一法均匀交叉检验与随机交叉检验,当三角多项式项时,绝大部分实例的拟合相对误差以及20个实例的平均拟合相对误差均小于1
‰
。因此,三角多项式项数取18是最优的。
37.(5)引入1/2倍周期,三角多项式项取18,最大拟合残差序列随着拟合次数的增加变化情况如图5所示,绝大多数实例的最优拟合次数小于10。实例c03与c13的最优拟合次数分别为13与12,实例c05与c20的最优拟合次数较大,分别为29和22。从识别结果(图6-1至图6-20中的圆圈点)以及异常点数量统计结果(图7)也可以看出,实例c03、c13、c05与c20的异常点数量明显多于其他实例,从而导致这四个实例的最优拟合次数也同样较大。经过统计,20个实例基于三角多项式拟合法共识别出408个异常点。
38.其中,图5是针对c01-c20随着拟合次数的不断增加,最大拟合残差的变化情况。绝大多数实例的最优拟合次数小于10。实例c03与c13的最优拟合次数分别为13与12,实例c05与c20的最优拟合次数较大,分别为29和22。从识别结果(图6-1至图6-20中的圆圈点)以及异常点数量统计结果(图7)也可以看出,实例c03、c13、c05与c20的异常点数量明显多于其他实例,从而导致这四个实例的最优拟合次数也同样较大。
39.其中,图6-1至图6-20是基于三角多项式拟合识别的实例c01-c20剖面数据中异常
点结果(黑点为原始数据,灰线为拟合数据,圆圈为识别出的异常点),该方法识别出了所有的异常点,效果显著。
40.图7是对图6-1至图6-20识别的异常点结果的一个数量统计,可以更清楚的看出每个实例中识别的异常点数量。
41.本发明对三次样条拟合方法与三角多项式拟合方法进行比较分析,其中20个实例基于三次样条拟合方法共识别出497个异常点,采用异常点检测阈值0.1ms/cm,误报率为0.24%,漏报率为17.88%,并初步判断可能是由于两个同步观测的电导率传感器自身偏差导致了三次样条拟合方法的漏报率与误报率。
42.为此,进一步分析了有异常点和无异常点的两组电导率剖面数据,发现两组电导率数据在某些水层存在整体性的偏移,特别是在跃层等变化剧烈的水层整体性偏移尤为明显,但单独查看某一组电导率剖面数据,在这些对应的水层内并未发现离群现象。
43.因此对异常点的判别标准进行如下修正,将由于两组电导率数据整体偏移而非离群所导致的差值大于0.1ms/cm的数据作为正常点,其他差值大于0.1ms/cm的数据作为异常点。具体做法如下:假设,且有或,则认定为正常数据。其中为异常电导率传感器观测的第个数据,分别对应正常电导率传感器观测的第个数据。
44.经过上述修正后,真实异常点个数由481个变为401个(图8原始异常点数量(上面的星形折线)与经过修正后的异常点数量(下面的圆点折线))。c01,c03,c12,c13,c15及c18的异常值数据量在修正前后没有发生变化。c02,c08,c14,及c20的异常值数据量在修正前后变化较大,修正后的异常值数量分别减少了12、9、10和13。与其他实例相比,这四个实例的跃层更为显著,由此导致的两个电导率传感器的偏移也更为明显,从而导致异常点数量在修正前后变化较大。
45.经过修正,三次样条拟合方法误判点个数由97变为111,增加了14个,误报率由0.24%增加到0.28%;漏判点个数由86变为15,漏报率由17.88%降低到3.73%,漏报率显著降低。经过统计,三角多项式拟合方法共识别出的408个异常点中,误判点15个,误报率0.03%,漏判点8个,漏报率为2%。
46.从图9三次样条拟合方法的异常点识别情况(右边的浅灰点、中间黑点及左边深灰点分别为正报点、漏报点及误报点)以及图10三角多项式拟合方法的异常点识别情况(右边的浅灰点、中间黑点及左边深灰点分别为正报点、漏报点及误报点)所示,对于电导率差值大于0.3ms/cm的异常点,两种方法均能全部识别。对于(0.1-0.3)ms/cm差值范围内的异常点,三次样条拟合方法既有漏判点(15个)又有误判点(3个);三角函数拟合方法只有漏判点(8个),且数量少于三次样条拟合方法的漏判点数量。对于差值小于0.1ms/cm的数据,两种方法均有误判点,但三角函数拟合方法识别的误判点个数明显少于三次样条拟合方法识别的误判点个数。
47.在已往的温盐深剖面数据质量控制中,多应用一系列阈值算法来识别坏数据,但阈值的选取没有标准,需要人为多次尝试,常会引起较高的漏报率和误报率。因此,需要数据处理人员通过手动/视觉检查对已识别出的可疑数据进行重新判定,这种方法虽然可以
得到最佳的数据质量,但需要消耗大量的人力资源。随着海洋调查数据量的快速增长,海洋学数据质控方法也应该不断发展,以满足海洋观测数据质量控制的现实需求。虽然三次样条拟合方法相比于其他已有方法在节省人力资源,准确性和稳定性方面具有明显的提升和进步,将基于方差控制的电导率异常值识别方法的漏报率56.96%以及基于中位数滤波结合最大偏差的电导率异常值识别方法的漏报率23.28%降到了17.88%,误报率2.19%及0.31%降到了0.24%,但该方法在独立点位置的选取,插值函数选取以及程序实现上较为复杂,而且需要在所有独立点处保持插值函数的二次可导性,这大大增加了计算量。
48.关于三次样条拟合方法的漏报率与误报率,初步推断是由于两个电导率传感器本身的误差所导致,因此对20个同时观测的两组电导率剖面数据进行了进一步的对比分析,将由于剖面数据的整体偏移而非离群造成的差值大于0.1sm/cm的数据点修正为正常点。经过修正后,三次样条拟合方法的漏报率由17.88%减小为3.73%,但误报率由0.24%增加到了0.28%。
49.为了进一步减小拟合误差,降低漏报率和误报率,本发明以三角函数为基函数,对电导率剖面数据进行拟合。在不借助其他多项式的情况下,通过引入1/2倍周期,有效解决了边界拟合振荡问题;利用留一法交叉检验确定三角多项式项数,利用迭代拟合产生的最大拟合残差序列确定最优拟合次数,准确识别了电导率异常值。与三次样条拟合方法对比表明,三角多项式拟合保持了电导率剖面数据的平滑性,拟合结果更接近电导率剖面的实际分布,具有更小的拟合误差和更高的稳定性,将三次样条拟合方法的漏报率3.73%和误报率0.28%分别降到了2%和0.03%;同时,拟合过程简单易实施,具有更小的计算量,在异常值识别的准确性和高效性方面具有显著的优势,为其他海洋数据的质量控制提供了一种可供借鉴的思路。本发明解决了三次样条拟合方法,以及中位数滤波结合最大偏差法识别异常值效果都不理想的问题。
50.实施例2,作为本发明的一种实施方式,提供一种在数学、物理、化学、天文、经济、大地与海洋测量、农业等领域异常值识别上的应用,实施所述的基于三角多项式拟合异常值识别方法。
51.实施例3,作为本发明的一种实施方式,本发明提供一种基于三角多项式拟合的电导率异常值识别系统,实施所述的基于三角多项式拟合的电导率异常值识别方法,该系统包括:1/2倍周期引入模块,利用三角函数为基函数,通过引入1/2倍周期,解决边界拟合震荡问题;最优拟合次数确定模块,用于利用留一法交叉检验确定三角多项式项数,通过迭代拟合产生的最大拟合残差序列确定最优拟合次数;电导率异常值识别终端,用于识别海洋调查数据中电导率异常值,并进行可视化示出,所述海洋调查数据包括:海水温度、电导率、深度数据。
52.两个同步观测的电导率传感器,用于检测海水温度、电导率、深度数据。
53.在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
54.上述装置/单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
55.所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程。
56.基于上述本发明实施例记载的技术方案,进一步的可提出以下应用例。
57.根据本技术的实施例,本发明还提供了一种计算机设备,该计算机设备包括:至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。
58.本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。
59.本发明实施例还提供了一种信息数据处理终端,所述信息数据处理终端用于实现于电子装置上执行时,提供用户输入接口以实施如上述各方法实施例中的步骤,所述信息数据处理终端不限于手机、电脑、交换机。
60.本发明实施例还提供了一种服务器,所述服务器用于实现于电子装置上执行时,提供用户输入接口以实施如上述各方法实施例中的步骤。
61.本发明实施例还提供了一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行时可实现上述各个方法实施例中的步骤。
62.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、电载波信号、电信信号以及软件分发介质。例如u盘、移动硬盘、磁碟或者光盘等。
63.以上所述,仅为本发明较优的具体的实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
技术特征:
1.一种基于三角多项式拟合的电导率异常值识别方法,其特征在于,该方法包括以下步骤:s1,利用三角函数为基函数,通过引入1/2倍周期解决边界拟合震荡问题;s2,利用留一法交叉检验确定三角多项式项数,通过迭代拟合产生的最大拟合残差序列确定最优拟合次数,识别海洋调查数据中电导率异常值,并进行可视化示出;所述海洋调查数据包括:海水温度数据、电导率数据、深度数据。2.根据权利要求1所述的基于三角多项式拟合的电导率异常值识别方法,其特征在于,在步骤s1中,1/2倍周期取;其中与分别为海水深度数据的最大值与最小值,为周期。3.根据权利要求1所述的基于三角多项式拟合的电导率异常值识别方法,其特征在于,在步骤s1中,三角函数为基函数,采用三角多项式拟合方法拟合电导率剖面数据,用于海水温盐深剖面数据的异常值检测或者缺失值弥补。4.根据权利要求1所述的基于三角多项式拟合的电导率异常值识别方法,其特征在于,在步骤s2中,利用留一法交叉检验确定三角多项式项数,,为三角多项式项数,通过迭代拟合产生的最大拟合残差序列确定每个电导率剖面数据的最优拟合次数。5.根据权利要求1所述的基于三角多项式拟合的电导率异常值识别方法,其特征在于,在步骤s2中,识别海洋调查数据中电导率异常值,具体包括:把温盐深剖面数据数每10个分成一组,最后一组数量不足10个时无需补齐,共分成组;其中,为水深,为海水温度,为海水电导率,为单个剖面数据的长度,为组数;首先将每组的第个数据选取为检验点,,将检验点的电导率数据赋值为nan值,,给定最高三角多项式项,然后从1增加到50,每次均基于三角多项式拟合法对剖面数据拟合,得到拟合结果,并将所有检验点处的相对拟合残差取平均;依次遍历,最后计算遍历10次后的相对拟合残差平均值。6.根据权利要求5所述的基于三角多项式拟合的电导率异常值识别方法,其特征在于,还包括:随机抽取剖面数据的10%个数据作为检验点,将检验点的数据赋值为nan值,为1到中随机的10%个位置,为重复随机抽取的次数,取;给定最高三角多项式项,然后从1增加到50,每次
均基于三角多项式拟合法对剖面数据拟合,得到拟合结果,并将所有检验点处的相对拟合残差取平均;依次遍历,最后计算遍历10次后的相对拟合残差平均值。7.根据权利要求1-6任意一项所述的基于三角多项式拟合的电导率异常值识别方法,其特征在于,该方法在数学、物理、化学、经济中异常值识别上的应用。8.根据权利要求1-6任意一项所述的基于三角多项式拟合的电导率异常值识别方法,其特征在于,该方法在大地与海洋测量、农业领域中异常值识别上的应用。9.一种基于三角多项式拟合的电导率异常值识别系统,其特征在于,实施权利要求1-6任意一项所述的基于三角多项式拟合的电导率异常值识别方法,该系统包括:1/2倍周期引入模块,利用三角函数为基函数,通过引入1/2倍周期,解决了边界拟合震荡问题;最优拟合次数确定模块,用于利用留一法交叉检验确定三角多项式项数,通过迭代拟合产生的最大拟合残差序列确定最优拟合次数;电导率异常值识别终端,用于识别海洋调查数据中电导率异常值,并进行可视化示出,所述海洋调查数据包括:海水温度、电导率、深度数据。10.根据权利要求9所述的基于三角多项式拟合的电导率异常值识别系统,其特征在于,该系统还包括:两个同步观测的温盐深传感器,用于检测海水温度数据、电导率数据、深度数据。
技术总结
本发明属于电导率异常值识别技术领域,公开了基于三角多项式拟合的电导率异常值识别方法、系统。该方法利用三角函数为基函数,通过引入1/2倍周期,解决了边界拟合震荡问题;利用留一法交叉检验确定三角多项式项数,通过迭代拟合产生的最大拟合残差序列确定最优拟合次数,识别海洋调查数据中电导率异常值,并进行可视化示出,所述海洋调查数据包括:海水温度、电导率、深度数据。本发明将基于三次样条拟合的电导率异常值识别方法的漏报率由3.73%降到了2%,误报率由0.28%降到了0.03%;同时,拟合过程更为简单易实施,计算量更小,在异常值识别的准确性和高效性方面具有显著优势。的准确性和高效性方面具有显著优势。的准确性和高效性方面具有显著优势。
技术研发人员:于龙 郭延良 孙佳 鞠霞
受保护的技术使用者:自然资源部第一海洋研究所
技术研发日:2023.07.24
技术公布日:2023/8/24
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
