一种基于DE-LSSVM的AIS数据修复方法

未命名 07-23 阅读:150 评论:0

一种基于de-lssvm的ais数据修复方法
技术领域
1.本发明涉及数据挖掘的技术领域,具体而言,尤其涉及一种基于de-lssvm的ais数据修复方法。


背景技术:

2.船舶自动识别系统(automatic identification system,ais)产生的船舶状态数据是航运数据中一类十分重要的数据,这些数据中蕴藏着丰富的物流、航运、水上交通等重要信息,数据清洗与修复是保证数据质量的一种手段,其能够识别数据中的错误记录,并对记录进行修正,能尽最大可能够确保交付数据的准确性和一致性。数据修复算法的目的是对数据中缺失的数据进行修复填充,保证修复完的数据尽可能符合数据趋势,进而确保数据挖掘的质量。常用的插值方法对于短距离缺失数据有着良好的修复效果,但在长距离数据缺失的情况下修复结果并不理想,而通过机器学习对缺失数据进行回归预测很好的解决了这个问题。


技术实现要素:

3.根据上述背景技术中提到的技术问题,而提供一种基于de-lssvm的ais数据修复方法。为提高ais数据准确性与完备性,提高船舶ais数据挖掘质量,结合内河航道特点,本发明提出了一种基于de-lssvm的ais数据修复方法,利用相似ais历史数据对缺失数据进行预测。最小二乘支持向量机需要训练集对模型进行训练,引入了相似数据查询方法,基于改进欧式距离的评判方法作为相似数据检索的指标。
4.本发明采用的技术手段如下:
5.一种基于de-lssvm的ais数据修复方法,包括以下步骤:
6.s1:通过自动识别系统获取船舶ais数据,将ais原始数据进行解码,将船舶水上移动通信业务标识码、经度、纬度、航速与航向作为所述船舶ais数据;
7.s2:对所述船舶ais数据进行预处理;
8.s3:在预处理后的船舶ais数据中筛选长距离缺失ais数据;
9.s4:以基于改进欧氏距离的相似度判定方法作为指标对长距离缺失ais数据进行相似历史数据检索,获取与长距离缺失ais数据最相似的ais历史数据:
10.s5:将得到的相似数据作为训练集训练回归模型,为确保lssvm方法对相似样本数据的建模精度,采用差分进化算法进行参数寻优,在长距离缺失数据情况下较为精准的还原ais数据。
11.进一步地,对于步骤s2中,所述船舶ais数据进行预处理,包括以下步骤:
12.剔除数据中的重复数据、速度异常点和离群点;
13.检测短距离缺失数据,采用三次样条插值方法对短距离缺失数据进行修复,从而获得较为完整的船舶轨迹数据。
14.进一步地,对于所述预处理后的数据中筛选长距离缺失ais数据,包括以下步骤:
15.对所研究的b类船,ais原始数据解码统计后,将在1分钟内数据点个数小于2个定义为短距离缺失数据;在大于5分钟时间段内无数据这种缺失类型定义为长距离缺失数据。
16.进一步地,对于所述预以基于改进欧氏距离的相似度判定方法作为指标对长距离缺失ais数据进行相似历史数据检索,获取与长距离离缺失ais数据最相似的ais历史数据,包括以下步骤:
17.找到缺失数据两个端点经纬度坐标,选择第一个端点前35个数据点和第二个端点后10个数据点为待匹配数据的匹配点;
18.经统计数据航速最高为15节,一个ais数据周期内船舶运动距离不超过232米,以240米作为半径保证相近轨迹点被选中;
19.以两个匹配点经纬度为中心,240m为半径,在此范围内数据为初步筛选数据集;
20.通过基于改进欧氏距离的相似度判定方法,计算评价指标,选择评价指标最小的为相似数据。
21.进一步地,所述基于改进欧氏距离的相似度判定方法,在将待匹配数据中每隔3个点进行采样,计算采样点与初步筛选数据集点的欧氏距离,并取最小值,将其与缺失数据集与待匹配数据集之差做乘积运算,获得相似度评价指标。
22.进一步地,对于所述将得到的相似数据作为训练集训练回归模型,为确保lssvm方法对相似样本数据的建模精度,采用差分进化算法进行参数寻优,在长距离缺失数据情况下较为精准的还原ais数据,包括以下步骤:
23.通过差分进化算法优化最小二乘支持向量机中表达式中参数γ,径向基核函数参数δ2;当拟合结果达到要求后,进行缺失数据的预测,从而达到ais长距离缺失数据修复的要求。
24.较现有技术相比,本发明具有以下优点:
25.1、本发明考虑了利用回归预测修复缺失数据时相似数据查找并无统一方法的问题,
26.引入了基于改进欧氏距离计算轨迹相似度评判方法。旨在寻求最佳相似数据,使数据修复模型取得的结果更加精确。
27.2、基于相似历史数据的轨迹相似性,采用优化效率高、参数设置简单、鲁棒性好的差分进化算法对lssvm进行参数优化,更加精确的修复经度、纬度、航向与船速。航向与航速并无规律可循,插值法对于此两项的数据修复效果并不理想,而本发明提出的方法很好的解决了这个问题。
附图说明
28.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
29.图1为本发明长距离缺失数据修复方法流程图。
30.图2为本发明相似历史数据筛选示意图。
31.图3为本发明案例获取到的相似历史数据结果图。
32.图4为本发明差分进化算法流程图。
33.图5为本发明长距离ais数据缺失修复结果图。其中,(a)为经度修复结果图;(b)为纬度修复结果图;(c)为航速修复结果图;(d)为航向修复结果图。
具体实施方式
34.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
35.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
36.如图1所示,本发明提供了一种基于de-lssvm的ais数据修复方法,其中,de-lssv表示差分进化算法优化最小二乘支持向量机;ais表示船舶自动识别系统(automatic identification system)包括:
37.s1、由自动识别系统获取船舶轨迹数据,所述船舶轨迹数据为ais原始数据解码后的数据,包括mmsi码,船舶的经纬度,航速,航向,对地航向,船首向。本发明选区的修复数据为船舶的经纬度,航速,航向。ais数据质量对于数据挖掘问题至关重要。
38.s2、对船舶ais数据进行预处理。具体来说,内河航运环境较为复杂,ais数据接受会受到干扰。另一方面,由于ais没有完整的信息验证机制,实际的应用中ais数据带有大量的异常数据,这些问题数据主要包括重复数据、离群数据、缺失数据等。重复数据主要是相邻两条或多条数据相同,离群数据主要包括两种,其一是明显偏离航线的点或者位置数据中经度大于180度或者纬度大于90度的点;其二是数据不连贯点,偏离船舶行驶航迹。
39.s3、缺失数据分为短距离缺失数据与长距离缺失数据,对于b类船将将在1分钟内数据点个数小于2个定义为短距离缺失数据;在大于5分钟时间段内无数据这种缺失类型定义为长距离缺失数据。对于短距离缺失数据进行三次样条插值进行修复,对于长距离缺失数据采用本发明提出的方法进行修复。
40.s4、所谓利用ais历史数据对丢失数据进行修复就是利用船舶过去ais数据的观测值来估计丢失值。实际上是假设原始数据中的丢失值和观测值存在着一种函数关系。因此,数据修复的方法就是试图寻找一个能确定丢失值和观测值之间关系的函数,也就是说利用ais历史数据修复丢失数据的问题与回归问题在本质上是相似的。相似数据检索主要包括:
41.s401、找到缺失数据两个端点经纬度坐标,选择第一个端点前35个数据点和第二个端点后10个数据点为待匹配数据的匹配点;
42.s402、经统计数据航速最高为15节,一个ais数据周期(30秒)内船舶运动距离不超
过232米,以240米作为半径保证相近轨迹点被选中,如图2所示,以两个匹配点经纬度为中心,240m为半径,在此范围内数据为初步筛选数据集;
43.s403、基于改进欧氏距离的相似度判定方法,计算评价指标,将待匹配数据中每隔3个点进行采样,如图2红色点所示,计算采样点与初步筛选数据集点的欧氏距离,并取最小值,将其与缺失数据集与待匹配数据集之差做乘积运算,获得相似度评价指标,选择评价指标最小的为相似数据,评价指标计算方式如下:
[0044][0045][0046]
ρ(i,j)为欧氏距离,每隔3个采样点将待匹配数据与筛选数据集中的每支船舶轨迹点进行计算,取每次最小值,将结果累加,|n
i-nj±
1|为公式补充项,ni为待匹配数据个数,nj为匹配数据个数,1是为了防止补充项为0。
[0047]
在船舶轨迹信息中,主要两类信息即航向特征与航速特征。欧氏距离计算相似度可以表征航向特征,但航速特征无法表述,引入公式补充项,即同一距离轨迹点个数差,可以表示在此距离内船舶的航速特征,航速越大则收集的ais数据越少,航速越小收集的ais数据越多。
[0048]
以2021年5月2日长江武汉段采集数据为例,mmsi码为413782327,人为去除15条数据,通过本发明的相似数据检索算法得到的相似历史数据如图3所示,可验证方法的实用性。
[0049]
s5、对于所述将得到的相似数据作为训练集训练回归模型,为确保lssvm方法对相似样本数据的建模精度,采用差分进化算法进行参数寻优,在长距离缺失数据情况下较为精准的还原ais数据,包括:
[0050]
s501、利用差分进化算法优化最小二乘支持向量机中表达式中参数γ,径向基核函数参数δ2,其步骤如图4所示;
[0051]
s502、采用优化后的参数进行预测建模,当拟合结果达到要求后,进行缺失数据的预测,从而达到ais长距离缺失数据修复的要求。
[0052]
步骤s501利用de算法寻找最优的rbf向基核函数参数δ2和lssvm参数γ具体方法为:
[0053]
s501.1:初始化种群,并初始化lssvm系数γ和rbf核函数参数δ2。设定γ和δ2的取值范围在上界100与下界0.01之间;
[0054]
s501.2:本实验中de算法的适应度函数为lssvm结果的均方误差(mse):
[0055][0056]
其中yi为真实值,为预测值,均方误差应尽量小。
[0057]
s501.3:随机生成初始种群,本例中,种群规模为30,迭代次数为100次,每个目标个体xi'=(γi,δ
i2
)
t
,计算每组适应度,选择适应度最优的γ和δ2值作为初始的最优参数(gambest,sig2best)。
[0058]
s501.4:对于种群的每个目标进行变异、交叉、选择操作,计算经过变异交叉选择后的个体的适应度值,并与(gambest,sig2best)进行比较,若此次适应度更优则将最优参数更新。
[0059]
s501.5:当达到迭代次数或者适应值满足条件时,停止迭代,获得最优的一组的lssvm参数;否则返回步骤s501.3。
[0060]
进一步地,s501.4所述变异过程如下:
[0061]
对于s501.3所述的目标矢量x
′i,进行变异操作:
[0062][0063]
r1,r2,r3∈{1,2,

,np},为互不相同的整数,且r1,r2,r3与当前目标矢量索引i不同,因此种群规模np≥4。f为缩放因子,取值范围为[0,2],控制差分矢量缩放,t为第几代群体。
[0064]
进一步地,s501.4所述交叉过程如下:
[0065]
对于群体中目标矢量个体将与变异矢量进行交叉操作,产生实验个体为保证个体的进化,首先通过随机选择,使得是的一个贡献值,对于其他位,可以选择一个交叉因子cr,决定中哪个由贡献,哪个由贡献,交叉操作公式为:
[0066][0067]
式中rand(j)∈[0,1]为均匀分布的随机数,j表示第j个变量(基因),cr为交叉概率常数,取值范围为[0,1]。randn(i)∈[1,2,...,d],为随机选择的维数变量索引,以保证试验矢量至少有一维变量由变异矢量贡献,否则试验矢量有可能与目标矢量相同而不能生成新个体。
[0068]
进一步地,s501.4所述选择过程为,经过变异与交叉操作后生成的试验个体与进行竞争,只有当的适应度较更优时才被选作子代,否则,直接将作为子代。以lssvm结果的均方误差最小为标准,选择操作的方程为:
[0069][0070]
经过de参数寻优,我们得到lssvm的参数γ为44.9119和δ2为22.3890,将参数带入lssvm预测模型中,得到长距离缺失数据预测结果如图5所示,左上为经度修复结果,右上为纬度修复结果,左下为航速修复结果,右下为航向修复结果。可以看出基于de-lssvm长距离数据修复结果在经纬度、航向各方面准确率较高,而航速方面都在3节左右,也比较接近实际,由此可验证本方法的准确性。
[0071]
表1 de_lssvm修复评价指标表
[0072]
评价指标de_lssvm经度均方误差1.7553e-08经度决定系数0.9974纬度均方误差3.5511e-09
纬度决定系数0.99682航向均方误差0.14753航向决定系数0.97528航速均方误差0.0046806航速决定系数0.42902
[0073]
均方误差(mse)
[0074][0075]
其中yi为真实值,为预测值,均方误差应尽量小
[0076]
决定系数(r2)
[0077][0078]
其中分子部分表示真实值与预测值的平方差之和,类似于均方差mse;分母部分表示真实值与均值的平方差之和,类似于方差,如果结果是0,说明模型拟合效果很差;如果结果是1,说明模型无错误。
[0079]
以上结果为对本发明的验证,选取数据为2021年5月2日长江武汉段采集数据,mmsi码为413782327,人为去除15条数据,进而验证本发明可行性与准确性。
[0080]
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。在本技术所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。
[0081]
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

技术特征:
1.一种基于de-lssvm的ais数据修复方法,其特征在于,包括以下步骤:s1:通过自动识别系统获取船舶ais数据,将ais原始数据进行解码,将船舶水上移动通信业务标识码、经度、纬度、航速与航向作为所述船舶ais数据;s2:对所述船舶ais数据进行预处理;s3:在预处理后的船舶ais数据中筛选长距离缺失ais数据;s4:以基于改进欧氏距离的相似度判定方法作为指标对长距离缺失ais数据进行相似历史数据检索,获取与长距离缺失ais数据最相似的ais历史数据:s5:将得到的相似数据作为训练集训练回归模型,为确保lssvm方法对相似样本数据的建模精度,采用差分进化算法进行参数寻优,在长距离缺失数据情况下较为精准的还原ais数据。2.根据权利要求1所述的一种基于de-lssvm的ais数据修复方法,其特征在于,对于步骤s2中,所述船舶ais数据进行预处理,包括以下步骤:剔除数据中的重复数据、速度异常点和离群点;检测短距离缺失数据,采用三次样条插值方法对短距离缺失数据进行修复,从而获得较为完整的船舶轨迹数据。3.根据权利要求1所述的一种基于de-lssvm的ais数据修复方法,其特征在于,对于所述预处理后的数据中筛选长距离缺失ais数据,包括以下步骤:对所研究的b类船,ais原始数据解码统计后,将在1分钟内数据点个数小于2个定义为短距离缺失数据;在大于5分钟时间段内无数据这种缺失类型定义为长距离缺失数据。4.根据权利要求1所述的一种基于de-lssvm的ais数据修复方法,其特征在于,对于所述预以基于改进欧氏距离的相似度判定方法作为指标对长距离缺失ais数据进行相似历史数据检索,获取与长距离离缺失ais数据最相似的ais历史数据,包括以下步骤:找到缺失数据两个端点经纬度坐标,选择第一个端点前35个数据点和第二个端点后10个数据点为待匹配数据的匹配点;经统计数据航速最高为15节,一个ais数据周期内船舶运动距离不超过232米,以240米作为半径保证相近轨迹点被选中;以两个匹配点经纬度为中心,240m为半径,在此范围内数据为初步筛选数据集;通过基于改进欧氏距离的相似度判定方法,计算评价指标,选择评价指标最小的为相似数据。5.根据权利要求4所述的一种基于de-lssvm的ais数据修复方法,其特征在于,所述基于改进欧氏距离的相似度判定方法,在将待匹配数据中每隔3个点进行采样,计算采样点与初步筛选数据集点的欧氏距离,并取最小值,将其与缺失数据集与待匹配数据集之差做乘积运算,获得相似度评价指标。6.根据权利要求1所述的一种基于de-lssvm的ais数据修复方法,其特征在于,对于所述将得到的相似数据作为训练集训练回归模型,为确保lssvm方法对相似样本数据的建模精度,采用差分进化算法进行参数寻优,在长距离缺失数据情况下较为精准的还原ais数据,包括以下步骤:通过差分进化算法优化最小二乘支持向量机中表达式中参数γ,径向基核函数参数δ2;当拟合结果达到要求后,进行缺失数据的预测,从而达到ais长距离缺失数据修复的要求。

技术总结
本发明提供一种基于DE-LSSVM的AIS数据修复方法,包括:由自动识别系统获取船舶AIS数据;对船舶AIS数据进行预处理;筛选长距离缺失AIS数据;以基于改进欧氏距离的相似度判定方法作为指标对长距离缺失AIS数据进行相似历史数据检索,获取与长距离离缺失AIS数据最相似的AIS历史数据;将得到的相似数据作为训练集训练回归模型,为确保LSSVM方法对相似样本数据的建模精度,采用差分进化算法进行参数寻优,在长距离缺失数据情况下较为精准的还原AIS数据。本发明在考虑数据修复基础上,基于相似历史数据的轨迹相似性,采用优化效率高、参数设置简单、鲁棒性好的差分进化算法对LSSVM进行参数优化,更加精确的修复经度、纬度、航向与船速。与船速。与船速。


技术研发人员:刘畅 阚泽屹 凌源 嵇祥瑞 梅玉 张仕泽 桑丞伯 景文凯
受保护的技术使用者:大连海事大学
技术研发日:2023.02.21
技术公布日:2023/7/22
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐