基于进出口快件业务报关单涉税风险的特征处理方法与流程

未命名 08-09 阅读:112 评论:0


1.本发明涉及进出口关税领域,特别是指基于进出口快件业务报关单涉税风险的特征处理方法。


背景技术:

2.随着我国加入wto,对外贸易迅速增长,进出口企业在拉动国内经济发展,促进多元化的国际市场中发挥着越来越重要的作用。进出口企业通过对生产经营过程中的涉税事宜进行事前筹划,合理安排,减少其所缴纳的税款。然而,由于我国的市场经济还不完善,各项法律制度正处于不断健全的过程中,税收政策的复杂多变等各种因素,导致进出口企业涉税风险的发生。
3.目前还没有有效的方法能够评判进出口快件业务报关单涉税风险。


技术实现要素:

4.本发明的主要目的在于克服现有技术中的上述缺陷,提出一种基于进出口快件业务报关单涉税风险的特征处理方法,通过本发明提出的方法对特征维度进行升维降维处理,再输入预判模型进行评判,极大地提高了涉税风险评判的召回率和精确率。
5.本发明采用如下技术方案:
6.基于进出口快件业务报关单涉税风险的特征处理方法,包括,
7.将海关数据分为基础特征和专家特征,所述基础特征包括人物画像数据和报关单申报数据,所述专家特征包括业务组合特征,并对特征进行升维,得到高维度空间特征;
8.根据高维度空间特征的特点,进行高维度空间特征降维,得到处理后的特征;
9.将处理后的特征输入预判模型进行测试验证。
10.具体地,对特征进行升维,得到高维度空间特征,具体包括:
11.对城市特征字段进行labelencoder编码,在数据聚类训练时将城市字段进行set集合字典编码,并将字典缓存在服务器端;
12.对国别特征字段记录数少于512个的特征字段进行one-hot编码,在编码时将国别特征字段进行get_dummies增维处理,对于训练集中没有的国别特征字段的进行哑变量处理;
13.只有两个值类型的特征字段,编码为0,1,进行二分类处理;
14.对年龄特征字段,采用fico评分卡建模方法对年龄字段进行分箱处理,在年龄分箱中对woe值差值小于阈值的箱子进行合并处理,其中woe值的计算公式:
15.weight of evidence公式如下:
[0016][0017][0018]
其中,good(i)表示第i组中标签为good的数量,good(总)为good的总数量,p
good
为第i组正常报关单占比;bad(i)表示第i组中标签为bad的数量,bad(总)为bad的总数量,p
bad
为第i组异常报关单占比;i=1,2,3...n,n为组数,根据iv值来调整分箱结构并重新计算woe和iv,直到iv达到最大值。
[0019]
具体地,根据高维度空间特征的特点,进行高维度空间特征降维,得到处理后的特征,具体包括:
[0020]
计算特征字段的数据缺失比,对特征中数据缺失比例高于设定阈值的特征列进行降维;
[0021]
计算特征字段的数据变化趋势,对特征字段中数据变化趋势相似的数据列利用高相关滤波进行降维;
[0022]
利用xgb算法计算所有特征对目标识别的贡献度分值,筛选出值贡献度值小于千分之一的特征列进行降维移除;
[0023]
利用主成分分析pca算法进行特征降维处理,通过正交变换将原始的高维数据集变换到一个主成分的低维数据集中,并按照保留85%的信息压缩矩阵要求执行。
[0024]
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
[0025]
本发明提出一种基于进出口快件业务报关单涉税风险的特征处理方法,将海关数据分为基础特征和专家特征,所述基础特征包括人物画像数据和报关单申报数据,所述专家特征包括业务组合特征,并对特征进行升维,得到高维度空间特征;根据高维度空间特征的特点,进行高维度空间特征降维,得到处理后的特征;将处理后的特征输入预判模型进行测试验证;通过本发明提出的方法对特征维度进行升维降维处理,再输入预判模型进行评判,极大地提高了涉税风险评判的召回率和精确率。
附图说明
[0026]
图1为本发明是实施例提供的一种基于进出口快件业务报关单涉税风险的特征处理方法流程图。
[0027]
以下结合附图和具体实施例对本发明作进一步详述。
具体实施方式
[0028]
本发明提出了一种基于进出口快件业务报关单涉税风险的特征处理方法,通过本
发明提出的方法对特征维度进行升维降维处理,再输入预判模型进行评判,极大地提高了涉税风险评判的召回率和精确率。
[0029]
如图1,为本发明是实施例提供的一种基于进出口快件业务报关单涉税风险的特征处理方法流程图,具体包括:
[0030]
步骤s1:对基础特征进行分析,利用特征算法进行数据升维,将海关数据分为基础特征和专家特征,所述基础特征包括人物画像数据和报关单申报数据,所述专家特征包括业务组合特征,并对特征进行升维,得到高维度空间特征;
[0031]
根据海关数据特点其数据特征分为基础特征和专家特征两类,基础特征涵盖了人物画像数据和报关单申报相关数据,通过以上两类数据特征可生成派生特征,例如通过接收某一自然人身份证信号码生成性别、出生地、年龄等派生特征,再对派生特征年龄进行数据分箱生成分箱的独热编码维度;专家特征是由海关专家根据业务特点构建的组合特征或派生特征,如通过收件人的同证件异电话特征加工出新的风险派生特征。针对特征维度的研究是将研究目标的数据维度升入高维度空间,在更高的维度空间里进行数据分析研究,让业务专家更容易洞察数据间的相似度和关联性。
[0032]
步骤s1中的特征升维方法及字典编码方式:子步骤1,对“城市”特征字段进行labelencoder编码,在数据聚类训练时将所有城市进行set集合字典编码,并将字典缓存在服务器端,从而保证训练集、验证集、测试集中所有的编码一致,以上几个数据集中含有额外城市值时,将新“城市”编码加入到set集合里。如'发件人城市'、'收件人城市'等特征字段都进行labelencoder编码处理。
[0033]
子步骤2,对“国别”特征字段进行处理,其记录数少于512个的特征字段需进行one-hot编码,在编码时将所有国别进行get_dummies增维处理,对于在验证集和测试集中出现了训练集中没有的国别时,对其进行哑变量处理。同时对'发件人国别'、'收件人国别'等特征字段都进行one-hot编码处理。
[0034]
子步骤3,对只有两个值类型的特征,将其编码为0,1进行二分类处理。如“性别”特征。
[0035]
子步骤4,对“年龄”特征的字段,采用fico评分卡建模方式对年龄字段进行分箱处理,在年龄分箱中对woe值相近的箱子进行合并处理。
[0036]
weight of evidence公式如下:
[0037][0038][0039]
其中,good(i)表示第i组中标签为good的数量,good(总)为good的总数量,p
good

第i组正常报关单占比;bad(i)表示第i组中标签为bad的数量,bad(总)为bad的总数量,p
bad
为第i组异常报关单占比;i=1,2,3...n,n为组数,根据iv(information value)值来调整分箱结构并重新计算woe和iv,直到iv达到最大值;iv衡量某一个变量的信息量。
[0040]
iv用来表示一个变量的预测能力。根据iv值来调整分箱结构并重新计算woe和iv,直到iv达到最大值,此时的分箱效果最好。在分组中尽量保证部分分组中的iv值尽可能高。分箱后的年龄区域按预测能力划分如下表:
[0041]
iv预测能力《0.03无预测能力0.03≤iv<0.1低0.1≤iv<0.3中0.3≤iv<0.5高≥0.5极高
[0042]
步骤s2:充分保留原数据特性信息,有效数据降维,根据高维度空间特征的特点,进行高维度空间特征降维,得到处理后的特征;
[0043]
由于异常报关单在某些维度空间上关联紧密,具有高度相似性,而在其他维度空间上则不具相似性。模型依据统计结果结合智能算法生成所有维度对预判目标的贡献度分值,将那些没有区分度即信息熵比较低的维度进行降维。针对人的数据特征的研究,可以让业务专家和智能算法将更多的精力放在贡献度分值较高的数据维度上进行洞察与分析。
[0044]
步骤s2中的有效降维方法:在高维度空间里进行数据研究可以让专家更容易洞察数据间的相似度和关联性。利用更多维度也带来了一定的观测难度和模型计算复杂度,导致计算越来月慢。本发明实施例采用了五类处理方式对高维数据进行降维处理:
[0045]
第一类是对特征中数据包含太多缺失值的数据列进行降维,其包含有用信息的可能性较少。如果缺失比例高于50%则进行删除,例如成交方式、用途等信息,低于50%的则利用可能值或定义为其它的类型对缺失值进行插补,例如实征关税额、减免关税额;
[0046]
第二类是对特征数据中信息量很小的数据列进行降维,利用低方差滤波将数据列方差小的列被移除。在采用该方法前需要对数据做归一化处理,例如进出口标志;
[0047]
第三类是对特征数据中两列数据变化趋势相似的数据列进行降维,使用相似列中的一列就可以满足机器学习模型。利用高相关滤波将数据相似列移除。在采用该方法前需要对数据做归一化处理,例如历史黑名单,历史异常报关次数,利用高相关滤波将移除历史黑名单字段;
[0048]
第四类是对特征数据列批量删除处理,判别对异常报关识别影响微弱的数据列进行降维,利用xgb算法进行历史数据训练,计算所有特征对目标识别的贡献度分值,取xgb_model.feature_importances_数据,筛选出值贡献度值大于千分之一以上的特征列,将信息熵比较低的特征进行降维移除。
[0049]
第五类是对特征维度进行压缩处理,利用主成分分析pca算法进行信息降维处理,通过正交变换将原始的高维数据集变换到一个主成分的低维数据集中。降维后的信息完整度要求尽可能高,按照保留85%的信息压缩矩阵要求执行;pca_ins=pca(n_components=0.85)经过特征降维处理后其251个维度的信息总和为85%以上,本发明实施例通过实验验证,将维度数量值调整为256个维度以便后续的算法进行计算和处理。
[0050]
利用全局配置参数设置算法计算维度pca_dim=256
[0051]
pca_ins=pca(n_components=pca_dim)。
[0052]
步骤s3:利用生产测试集进行测试,并验证特征处理后的风险模型预判的准确程度,将处理后的特征输入预判模型进行测试验证。
[0053]
利用2021年1月至8月份的实时生产数据,并对实时数据进行特征处理后作为测试集。将8个月的切片数据输入到智能模型进行测试,并将实测结果作为最终判断依据,实验证明测试精确率提升30%,召回率提升25%。
[0054]
结束后,接入生产实时数据,对生产报关单进行即时预判。
[0055]
接入生产实时批量数据;接收实时报关数据进行特征处理,将处理后的数据存储到智能模型本地端。接下来预判每一张报关单的风险分值,并结合申报单位的风险贡献度进行命中,最后推送给前台业务平台进行布控。
[0056]
本发明提出的一种通过特征预处理算法有效辅助智能算法解决进出口快件业务报关单涉税风险精确率的方法。
[0057]
通过特征维度升维算法、特征维度降维算法、建模数据分箱算法、主成分分析算法构建了智能算法输入数据矩阵的特征预处理算法模型。该特征预处理算法利用在海关进出口非贸快件业务的报关数据处理上。
[0058]
从特征预处理算法模型效果上看,其成效突出。以快件业务来说,通过本算法recall召回率提升了25%,precision精确率提升了30%。同时利用pca主成分分析算法进行数据降维,将大量的特征数据正交投影到低维线性空间上,更加方便业务专家直观地洞察样本数据的分布情况,从而更方便的辅助专家进行数据特点分析。
[0059]
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。

技术特征:
1.基于进出口快件业务报关单涉税风险的特征处理方法,其特征在于,包括,将海关数据分为基础特征和专家特征,所述基础特征包括人物画像数据和报关单申报数据,所述专家特征包括业务组合特征,并对特征进行升维,得到高维度空间特征;根据高维度空间特征的特点,进行高维度空间特征降维,得到处理后的特征;将处理后的特征输入预判模型进行测试验证。2.根据权利要求1所述的基于进出口快件业务报关单涉税风险的特征处理方法,其特征在于,对特征进行升维,得到高维度空间特征,具体包括:对城市特征字段进行labelencoder编码,在数据聚类训练时将城市字段进行set集合字典编码,并将字典缓存在服务器端;对国别特征字段记录数少于512个的特征字段进行one-hot编码,在编码时将国别特征字段进行get_dummies增维处理,对于训练集中没有的国别特征字段的进行哑变量处理;只有两个值类型的特征字段,编码为0,1,进行二分类处理;对年龄特征字段,采用fico评分卡建模方法对年龄字段进行分箱处理,在年龄分箱中对woe值差值小于阈值的箱子进行合并处理,其中woe值的计算公式:weight of evidence公式如下:evidence公式如下:evidence公式如下:其中,good(i)表示第i组中标签为good的数量,good(总)为good的总数量,p
good
为第i组正常报关单占比;bad(i)表示第i组中标签为bad的数量,bad(总)为bad的总数量,p
bad
为第i组异常报关单占比;i=1,2,3...n,n为组数,根据iv值来调整分箱结构并重新计算woe和iv,直到iv达到最大值。3.根据权利要求2所述的基于进出口快件业务报关单涉税风险的特征处理方法,其特征在于,根据高维度空间特征的特点,进行高维度空间特征降维,得到处理后的特征,具体包括:计算特征字段的数据缺失比,对特征中数据缺失比例高于设定阈值的特征列进行降维;计算特征字段的数据变化趋势,对特征字段中数据变化趋势相似的数据列利用高相关滤波进行降维;利用xgb算法计算所有特征对目标识别的贡献度分值,筛选出值贡献度值小于千分之一的特征列进行降维移除;利用主成分分析pca算法进行特征降维处理,通过正交变换将原始的高维数据集变换
到一个主成分的低维数据集中,并按照保留85%的信息压缩矩阵要求执行。

技术总结
本发明提出了基于进出口快件业务报关单涉税风险的特征处理方法,包括,将海关数据分为基础特征和专家特征,所述基础特征包括人物画像数据和报关单申报数据,所述专家特征包括业务组合特征,并对特征进行升维,得到高维度空间特征;根据高维度空间特征的特点,进行高维度空间特征降维,得到处理后的特征;将处理后的特征输入预判模型进行测试验证,通过本发明提出的方法对特征维度进行升维降维处理,再输入预判模型进行评判,极大地提高了涉税风险评判的召回率和精确率。评判的召回率和精确率。评判的召回率和精确率。


技术研发人员:王良 林铠欣 张荣杰 刘键涛 魏秋新
受保护的技术使用者:福建电子口岸股份有限公司
技术研发日:2022.01.28
技术公布日:2023/8/8
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐