商品风险识别方法、装置及电子设备与流程
未命名
10-19
阅读:120
评论:0
1.本技术属于计算机领域,涉及风险管控技术领域,尤其涉及一种商品风险识别方法、装置及电子设备。
背景技术:
2.在电商平台的店铺中进行销售的商品,可能会存在虚假以及违规等风险商品。目前,对风险商品主要通过专业人员依靠经验进行识别,由于商品的种类和数量繁多,专业人员的识别能力有限,导致对商品风险的识别覆盖率低、识别准确性和识别速度不佳。
3.若无法解决商品风险的识别覆盖率低、识别准确性和识别速度不佳的技术问题,将会影响店铺以及电商平台正常运营。
技术实现要素:
4.鉴于以上内容,有必要提供一种商品风险识别方法、装置及电子设备,能够解决商品风险的识别覆盖率低、识别准确性和识别速度不佳的技术问题。
5.一方面,本技术提供一种商品风险识别方法,方法包括:获取多个待识别商品的商品信息,将每个待识别商品的商品信息输入至预先训练的多个预测模型中的每个预测模型,得到每个预测模型对于每个待识别商品输出的预测风险概率,对多个待识别商品对应在同一预测模型上的多个预测风险概率进行排序,确定每个待识别商品的一个初始排序结果,重复执行本步骤,直至获得每个待识别商品对应在多个预测模型的多个初始排序结果,根据每个待识别商品的多个初始排序结果,计算每个待识别商品的风险排序结果,根据风险排序结果,对多个待识别商品进行风险识别。
6.在一些实施例中,在将每个待识别商品的商品信息输入至预先训练的多个预测模型中的每个预测模型之前,方法还包括:对于在预设观察期内上架的每个商品,根据预设观察期与预设观察期对应的预设表现期确定一时间区间,并获取每个商品在时间区间内的历史成交记录,根据历史成交记录确定预设观察期内的所有上架商品中的第一高风险商品和第一低风险商品,根据第一高风险商品和第一低风险商品的商品信息生成多个训练数据集,根据每个训练数据集的数据分布为每个训练数据集在预设网络框架中匹配一机器学习算法,使用每个训练数据集对匹配的机器学习算法进行训练,得到多个预测模型。
7.在一些实施例中,历史成交记录包括成交数量和成交数量对应的客诉数量,根据历史成交记录确定预设观察期内的所有上架商品中的第一高风险商品和第一低风险商品包括:根据客诉数量与成交数量,确定每个商品的客诉占比,将大于预设阈值的客诉占比在所有上架商品中对应的商品确定为第一高风险商品,并将小于或者等于预设阈值的客诉占比在所有上架商品中对应的商品确定为第一低风险商品。
8.在一些实施例中,根据第一高风险商品和第一低风险商品的商品信息生成多个训练数据集包括:根据第一高风险商品的商品信息构建高风险数据集,并根据第一低风险商品的商品信息构建低风险数据集,统计第一高风险商品的第一数量,并根据第一数量与预
设的第一比例系数,对低风险数据集进行划分,得到多个子数据集,将高风险数据集与任一个子数据集进行组合,得到一训练数据集。
9.在一些实施例中,根据每个待识别商品的多个初始排序结果,计算每个待识别商品的风险排序结果包括:基于每个待识别商品的多个初始排序结果与多个初始排序结果的数量,确定风险排序结果,或者,根据每个待识别商品的每个初始排序结果与对应的预测风险概率确定第一统计值,并根据多个预测风险概率对应的第二统计值和第一统计值,确定风险排序结果。
10.在一些实施例中,根据风险排序结果,对多个待识别商品进行风险识别包括:从由低至高排序的风险排序结果中选择预设数量个排序靠前的风险排序结果对应的待识别商品,作为目标高风险商品,并将目标高风险商品的风险商品名单推送至预设的终端设备。
11.在一些实施例中,方法还包括:根据风险排序结果,对多个待识别商品关联的店铺进行风险识别。
12.在一些实施例中,根据风险排序结果,对多个待识别商品关联的店铺进行风险识别包括:根据预设的第二比例系数以及多个待识别商品的第二数量,计算高风险商品数量,并根据预设的第三比例系数以及第二数量,计算低风险商品数量,根据高风险商品数量,从由低至高排序的风险排序结果中选择排序靠前的多个风险排序结果对应的待识别商品,作为第二高风险商品,并根据低风险商品数量,从由低至高排序的风险排序结果中选择排序靠后的多个风险排序结果对应的待识别商品,作为第二低风险商品,若多个待识别商品关联多个店铺,计算第二高风险商品在每个关联的店铺中的第一占比,并计算第二低风险商品在每个关联的店铺中的第二占比,根据第一占比和/或第二占比,对关联的每个店铺进行风险识别。
13.另一方面,本技术提供一种商品风险识别装置,运行于电子设备,装置包括:获取单元,用于获取多个待识别商品的商品信息;输入单元,用于将每个待识别商品的商品信息输入至预先训练的多个预测模型中的每个预测模型,得到每个预测模型对于每个待识别商品输出的预测风险概率;排序单元,用于对多个待识别商品对应在同一预测模型上的多个预测风险概率进行排序,确定每个待识别商品的一个初始排序结果,重复执行本步骤,直至获得每个待识别商品对应在多个预测模型的多个初始排序结果;计算单元,用于根据每个待识别商品的多个初始排序结果,计算每个待识别商品的风险排序结果;风险识别单元,用于根据风险排序结果,对多个待识别商品进行风险识别。
14.另一方面,本技术提供一种电子设备,电子设备包括:存储器,存储至少一个指令;及处理器,执行至少一个指令以实现所述的商品风险识别方法。
15.通过上述实施方式,由于多个预测模型采用了不同的训练数据集进行训练,因此多个预测模型之间具有参数差异性。在使用多个预测模型对商品进行风险识别时,能够提高商品的识别数量以及识别覆盖率。通过使用多个预测模型对多个商品进行风险识别,可以不再需要借助人工花费大量时间对商品进行识别,因此,能够提高对商品风险的识别速度。此外,由于每个待识别商品的风险排序结果融合了多个预测模型对应的多个初始排序结果,每个商品的风险排序结果具有更高的代表性和准确性,因此能够提高对商品风险的识别准确度。
附图说明
16.图1是本技术一实施例提供的电子设备的结构图。
17.图2是本技术一实施例提供的商品风险识别方法的流程图。
18.图3是本技术一实施例提供的多个预测模型的训练方法的流程图。
19.图4是本技术一实施例提供的多个训练数据集的生成方法的流程图。
20.图5是本技术一实施例提供的对关联的店铺进行风险识别的方法的流程图。
21.图6是本技术一实施例提供的商品风险识别装置的功能模块图。
具体实施方式
22.为了使本技术的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本技术进行详细描述。
23.需要说明的是,本技术中“至少一个”是指一个或者多个,“多个”是指两个或多于两个。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b可以表示:单独存在a,同时存在a和b,单独存在b的情况,其中a,b可以是单数或者复数。本技术的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不是用于描述特定的顺序或先后次序。
24.在本技术实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本技术实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
25.电商平台的各家店铺中上架销售的商品的数量巨大,有时能够达到千万或者上亿级别,电商平台上的商家每时每刻都在上架、下架以及更新无数的商品,存在风险的商品在上架之后如果没有及时识别并进行处置,随着后续产生的成交订单越多,将会产生更多的退款及投诉订单,从而对电商平台以及电商平台上的正常店铺的运营均产生不利影响,对电商平台和正常店铺都会产生较大的损失。
26.基于上述情况,需要及时对电商平台上的商品进行风险识别,当前风险商品的识别主要是通过专业人员(例如,风控人员)依靠经验来进行识别。由于商品数量繁多,所以人工的方式对商品的识别覆盖率低,并且无法及时和准确地进行风险筛查,人工识别的环节严重滞后。此外,目前对商品风险的识别方式过于单一,无法应对实际的使用需求,造成对商品风险的识别准确率不高以及不可控的问题,从而不能有效的对商品风险进行管理。
27.为了解决上述技术问题,本技术提供一种商品风险识别方法、装置及电子设备,能够提高商品风险的识别覆盖率、识别速度和识别准确度。本技术实施例提供的商品风险识别方法可应用于一个或者多个电子设备中。
28.如图1所示,是本技术一实施例提供的电子设备的结构图。该电子设备10可以为手机、平板电脑、笔记本电脑、自移动设备等电子设备,本技术实施例对电子设备的具体类型不作任何限制。
29.如图1所示,该电子设备10可以包括通信模块101、存储器102、处理器103、输入/输出(input/output,i/o)接口104及总线105。处理器103通过总线105分别耦合于通信模块101、存储器102、输入/输出接口104。
30.通信模块101可以包括有线通信模块和/或无线通信模块。有线通信模块可以提供通用串行总线(universalserialbus,usb)、控制器局域网总线(can,controllerareanetwork)等有线通信的解决方案中的一种或多种。无线通信模块可以提供无线保真(wirelessfidelity,wi-fi),蓝牙(bluetooth,bt),移动通信网络,调频(frequencymodulation,fm),近距离无线通信技术(nearfieldcommunication,nfc),红外技术(infrared,ir)等无线通信的解决方案中的一种或多种。
31.存储器102可以包括一个或多个随机存取存储器(randomaccessmemory,ram)和一个或多个非易失性存储器(non-volatilememory,nvm)。随机存取存储器可以由处理器103直接进行读写,可以用于存储或其他正在运行中的程序的可执行程序(例如机器指令),还可以用于存储用户及应用的数据等。随机存取存储器可以包括静态随机存储器(staticrandom-accessmemory,sram)、动态随机存储器(dynamicrandomaccessmemory,dram)、同步动态随机存储器(synchronousdynamicrandomaccessmemory,sdram)、双倍资料率同步动态随机存取存储器(doubledataratesynchronousdynamicrandomaccessmemory,ddrsdram)等。
32.非易失性存储器也可以存储可执行程序和存储用户及应用的数据等,可以提前加载到随机存取存储器中,用于处理器110直接进行读写。非易失性存储器可以包括磁盘存储器件、快闪存储器(flashmemory)。
33.存储器102用于存储一个或多个计算机程序。一个或多个计算机程序被配置为被处理器103执行。该一个或多个计算机程序包括多个指令,多个指令被处理器103执行时,可实现在电子设备10上执行的商品风险识别方法。
34.在其他实施例中,如图1所示的电子设备10还包括外部存储器接口,用于连接外部的存储器,实现扩展电子设备10的存储能力。
35.处理器103可以包括一个或多个处理单元,例如:处理器103可以包括应用处理器(applicationprocessor,ap),调制解调处理器,图形处理器(graphicsprocessingunit,gpu),图像信号处理器(imagesignalprocessor,isp),控制器,视频编解码器,数字信号处理器(digitalsignalprocessor,dsp),和/或神经网络处理器(neural-networkprocessingunit,npu)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
36.处理器103提供计算和控制能力,例如,处理器103用于执行存储器102内存储的计算机程序,以实现上述的商品风险识别方法。
37.输入/输出接口104用于提供用户输入或输出的通道,例如输入/输出接口104可用于连接各种输入输出设备,例如,鼠标、键盘、触控装置、显示屏等,使得用户可以录入信息,或者使信息可视化。
38.总线105至少用于提供电子设备10中的通信模块101、存储器102、处理器103、输入/输出接口104之间相互通信的通道。
39.可以理解的是,本技术实施例示意的结构并不构成对电子设备10的具体限定。在本技术另一些实施例中,电子设备10可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
40.如图2所示,是本技术一实施例提供的商品风险识别方法的流程图。根据不同的需求,该流程图中各个步骤的顺序可以根据实际要求进行调整,某些步骤可以省略。所述方法的执行主体为电子设备,例如图1所示的电子设备10。
41.s11,获取多个待识别商品的商品信息。
42.在一些实施例中,电子设备可以通过多种方式获取待识别商品的商品信息。例如,电子设备可以将电商平台在预先确定的观察期(下文简称为“预定观察期”)内上架的所有商品作为待识别商品,并从电商平台的数据库中获取每个待识别商品的商品信息。
43.在本技术一实施例中,预定观察期可以是指多个待识别商品对应的上架时间。预定观察期可以为多个,多个预定观察期均可自行设置或更新,本技术对此不作限制。例如,预定观察期可以包括2023年01月01日、2023年01月02日和2023年01月03日。电子设备可以将电商平台在2023年01月01日、2023年01月02日和2023年01月03日这三天内上架的所有商品为待识别商品。
44.商品信息可以包括,但不限于:每个待识别商品及每个待识别商品关联的店铺的基础信息、交易信息、客诉信息和禁限售信息。
45.其中,每个待识别商品及关联的店铺的基础信息包括,但不限于:商品类别、所有上架时间、折扣率、是否包邮、在包邮时的邮费、首次上架的时间与预定观察期之间的时间间隔(单位为:/天)、距离预定观察期最近的一次上架的时间与预定观察期之间的时间间隔(单位为:/天)、累计上架次数。店铺在与预定观察期最近的预设天数内上架的商品数量、店铺内的总商品数量、店铺在与预定观察期最近的预设天数内下架的商品数量等。其中,商品类别包括每个待识别商品的多级分类(比如,1-3级分类)。例如,一件男士衬衫的1-3级分类可为:衣服-男士衣服-男士衬衫。
46.每个待识别商品及关联的店铺的交易信息包括,但不限于:首次交易时间与预定观察期之间的时间间隔(单位为:/天)、累计成交单数、平均成交金额、该商品上架金额与历史累计成交金额相比折扣率、首次交易时间与预定观察期之间的时间间隔(单位为:/天)、距离预定观察期最近的一次交易时间与预定观察期之间的时间间隔(单位为:/天)。店铺的累计成交金额、店铺在与预定观察期最近的预设天数内的成交金额、店铺的累计交易天数、店铺首次交易与预定观察期之间的时间间隔(单位为:/天)、平台同类商品的平均交易价格、商品上架价格相比同类商品平均价格的折扣率等。
47.每个待识别商品及所属店铺的客诉信息包括,但不限于:每个待识别商品以及所属店铺的历史客诉数量、历史客诉金额、在与预定观察期最近的预设天数内的客诉数量、在与预定观察期最近的预设天数内的客诉金额、距离预定观察期最近的一次客诉时间与预定观察期之间的时间间隔(单位为:/
48.天)、第一次客诉时间与预定观察期之间的时间间隔(单位为:/天)、客诉数量/客诉金额的变动情况等。
49.其中,预设天数可以自行设置,本技术实施例对此不作限制。例如,预设天数可以为1天、7天、30天或者365天。
50.每个待识别商品及关联的店铺的禁限售信息包括,但不限于:每个待识别商品及所属店铺是否侵权、在侵权时的侵权信息和禁限售标签等。
51.在本实施例中,为了使得下文中的每个预测模型能够充分了解每个待识别商品,
需要获取每个待识别商品的足够多的商品信息,上述商品信息与关联店铺信息可作为参考,但实际应用中不局限于上述举例。
52.s12,将每个待识别商品的商品信息输入至预先训练的多个预测模型中的每个预测模型,得到每个预测模型对于每个待识别商品输出的预测风险概率。
53.在一些实施例中,多个预测模型可以是二分类模型,多个预测模型包括,但不限于:xgboost、lightgbm、catboost、randomforest以及k近邻等模型。例如,多个预测模型的数量可以为13个,实际应用中可以更多或更少。二分类模型是一种用于将输入数据分为两个类别的机器学习模型。二分类模型是监督学习的一种形式,可以对训练的数据级进行标注,标注可以使用标签或类别来表示,例如“是”和“不是”。
54.在本技术一实施例中,可以对每个待识别商品的商品信息进行向量化处理,得到每个待识别商品的商品信息对应的信息向量。在每个信息向量中可以使用不同的数字或者字母等代表不同的商品信息。再将每个信息向量输入至每个预测模型中,得到每个预测模型对于每个待识别商品输出的预测风险概率。
55.在本技术的另一些实施例中,若一预测模型为xgboost模型,xgboost模型包括特征提取层、全连接层和分类层,电子设备可直接将每个待识别商品的商品信息输入至预先训练的多个预测模型中的每个预测模型,得到每个预测模型对于每个待识别商品输出的预测风险概率。具体地,电子设备使用特征提取层对每个待识别商品的商品信息进行特征提取,得到特征向量,然后电子设备使用全连接层对特征向量进行全连接操作,以对特征向量进行降维,得到分类向量,并使用分类层对分类向量进行分类,得到该待识别商品的预测风险概率。
56.其中,特征提取层可以为卷积层、分类层可以为softmax分类器。
57.在本实施例中,通过使用多个预测模型对多个待识别商品进行风险识别,可以不再需要借助人工花费大量时间对商品进行识别,因此,能够提高对商品风险的识别效率。
58.s13,对多个待识别商品对应在同一预测模型上的多个预测风险概率进行排序,确定每个待识别商品的一个初始排序结果。
59.在一些实施例中,电子设备可对多个预测风险概率进行升序排序或者降序排序,从而确定每个待识别商品的一个初始排序结果。由于每个待识别商品对应每个预测模型有一个初始排序结果,因此,在重复执行多次排序后,每个待识别商品对应多个预测模型将具有多个初始排序结果。多个初始排序结果的数量与多个预测模型的数量相同。
60.例如,若有4个待识别商品,分别为第一待识别商品、第二待识别商品、第三待识别商品及第四待识别商品(比如,第一待识别商品为水杯、第二待识别商品的洗衣机、第三待识别商品为手机、第四待识别商品为电视),有3个预测模型,分别为第一预测模型、第二预测模型及第三预测模型。其中,第一待识别商品对应第一预测模型的预测风险概率为0.76,第二待识别商品对应第一预测模型的预测风险概率为0.85,第三待识别商品对应第一预测模型的预测风险概率为0.9,第四待识别商品对应第一预测模型的预测风险概率为0.82。对第一待识别商品、第二待识别商品、第三待识别商品及第四待识别商品对应在第一预测模型上的4个预测风险概率进行降序排序后得到0.9、0.85、0.82及0.76,由此可得到第一待识别商品对应第一预测模型的初始排序结果为4、第二待识别商品对应第一预测模型的初始排序结果为2、第三待识别商品对应第一预测模型的初始排序结果为1、第四待识别商品对
应第一预测模型的初始排序结果为3。依次类推,能够分别获得第一待识别商品、第二待识别商品、第三待识别商品及第四待识别商品对应第二预测模型及第三预测模型的初始排序结果。
61.在本实施例中,将每个预测风险概率转换为初始排序结果,使用每个初始排序结果相比于直接使用每个预测风险概率对每个待识别商品的风险高低进行衡量,效果更加平滑。
62.s14,判断是否获得每个待识别商品对应多个预测模型的多个初始排序结果。
63.在一些实施例中,在尚未获得每个待识别商品对应多个预测模型的多个初始排序结果时,流程返回至步骤s13,电子设备继续执行确定每个待识别商品的一个初始排序结果的步骤,直至获得每个待识别商品对应在多个预测模型的多个初始排序结果。在获得每个待识别商品对应多个预测模型的多个初始排序结果时,电子设备执行步骤s15。
64.s15,根据每个待识别商品的多个初始排序结果,计算每个待识别商品的风险排序结果。
65.在一些实施例中,电子设备根据每个待识别商品的多个初始排序结果,计算每个待识别商品的风险排序结果包括:电子设备基于每个待识别商品的多个初始排序结果与多个初始排序结果的数量,确定风险排序结果。
66.在一实施例中,电子设备可以将每个待识别商品的多个初始排序结果之间的和值与多个初始排序结果的数量之间的比值确定为每个待识别商品的风险排序结果。
67.例如,承接上述实施例,若多个待识别商品包括第一待识别商品、第二待识别商品、第三待识别商品及第四待识别商品,多个预测模型的模型数量为3个,分别为第一预测模型、第二预测模型及第三预测模型,第一待识别商品在第一预测模型的初始排序结果为4、第一待识别商品在第二预测模型的初始排序结果为3及第一待识别商品在第三预测模型的初始排序结果为2,则第一待识别商品的3个初始排序结果之间的和值为4+3+2=9,第一待识别商品的风险排序结果为和值9/模型数量3=3。以此类推,能够分别获得第二待识别商品、第三待识别商品和第四待识别商品的风险排序结果。
68.在本实施例中,由于每个待识别商品的风险排序结果融合了多个预测模型对应的多个初始排序结果,因此每个待识别商品的风险排序结果具有更高的代表性和准确性。
69.在本技术的另一实施例中,电子设备根据每个待识别商品的多个初始排序结果,计算每个待识别商品的风险排序结果包括:电子设备根据每个待识别商品的每个初始排序结果与对应的预测风险概率确定第一统计值,并根据多个预测风险概率对应的第二统计值和第一统计值,确定风险排序结果。
70.在一些实施例中,电子设备计算每个待识别商品的每个初始排序结果与对应的预测风险概率之间的概率乘积,并将多个初始排序结果对应的多个概率乘积之间的和值确定为第一统计值。第二统计值为多个预测风险概率之间的和值。电子设备将第一统计值与第二统计值之间的比值确定为每个待识别商品的风险排序结果。
71.例如,承接上述实施例,若第一待识别商品在第一预测模型的预测风险概率为0.76、初始排序结果为4,若第一待识别商品在第二预测模型的预测风险概率为0.72、初始排序结果为3,若第一待识别商品在第三预测模型的预测风险概率为0.8、初始排序结果为2。第一待识别商品在第一预测模型的预测风险概率0.76与初始排序结果4之间的概率乘积
为0.76*4=3.04,第一待识别商品在第二预测模型的预测风险概率0.76与初始排序结果4之间的概率乘积为0.72*3=2.16,第一待识别商品在第三预测模型的预测风险概率0.8与初始排序结果2之间的概率乘积为0.8*2=1.6。所述第一统计值为
72.3.04+2.16+1.6=6.8,所述第二统计值为0.76+0.72+0.8=2.28,第一统计值6.8与第二统计值2.28之间的比值约为3,因此第一待识别商品的风险排序结果为3。依次类推,能够分别获得第二待识别商品、第三待识别商品和第四待识别商品的风险排序结果。
73.在本技术的其它实施例中,电子设备还可以根据预设权重对每个待识别商品的多个初始排序结果进行加权平均运算,得到每个待识别商品的风险排序结果。其中,预设权重可以自行设置,本技术对此不作限制。例如,可以将预测准确率高的模型的权重设置为更高,并将预测准确率低的模型的权重设置为更低。
74.s16,根据风险排序结果,对多个待识别商品进行风险识别。
75.在一些实施例中,电子设备对多个待识别商品的多个风险排序结果进行排序,依据由高至低的顺序,从风险排序结果中选择预设数量(例如,100)个排序靠前的风险排序结果对应的待识别商品,作为目标高风险商品,并将目标高风险商品的风险商品名单推送至预设的终端设备,例如,预先设定的通信设备。在其他实施例中,也可以将风险商品名单推送至预设邮箱地址或者存储至预设的存储空间,例如,云盘等。
76.其中,预设数量可根据对风险商品的识别需求进行设定和/或修改,还可以结合电商平台的风控人员每天的识别工作量进行设置。例如,风控人员每天的识别工作量为100件,则预设数量为100件。可以根据多个目标高风险商品的名称生成风险商品名单。
77.电子设备还可以根据风险排序结果,对多个待识别商品关联的店铺进行风险识别,对关联的店铺进行风险识别的具体方法将在下文的步骤s161-s164进行详细介绍。
78.在本技术的实施例中,由于每个待识别商品的商品信息中包括客诉信息以及侵权信息等不同维度的多类信息,在将每个待识别商品的商品信息输入至每个预测模型时,每个预测模型能够充分地了解每个待识别商品的客诉情况及退款情况等异常交易情况,并根据了解到的异常交易情况准确地对每个商品的风险进行预测,在一待识别商品的异常交易情况较多时,预测模型会认为该待识别商品具有较高的风险,从而能够从多个待识别商品中初步筛选出由多个预测模型确定具有较大风险的目标高风险商品。
79.在本实施例中,通过将目标高风险商品的风险商品名单推送至预设的终端设备,有利于提醒用户(例如,风控人员)及时对高风险商品进行进一步地确认,如此可以实现通过多个预测模型对商品风险进行识别,而不需要人工花费大量时间进行商品信息的筛选与识别,因此能够提高风险商品的识别效率。在用户(风控人员)确认模型推送的目标高风险商品为高风险商品时,对用户确认的高风险商品进行及时处置(比如提醒卖家、商品下架以及停止支付等),从而能够准确及时地处置高风险商品。具体的处置措施可以根据高风险商品的数量等因素进行确定。此外,通过用户确认的高风险商品还可以对所关联的店铺的风险水平进行衡量,以便于对高风险的店铺进行及时处置。通过及时地处置高风险商品和高风险店铺,能够有效地提高了对高风险商品的处置能力,以及避免更多客诉等问题的发生,从而能够提高电商交易的安全性。
80.通过上述实施方式,由于多个预测模型采用了不同的训练数据集进行训练,因此多个预测模型之间具有参数差异性。在使用多个预测模型对商品进行风险识别时,能够提
高商品的识别数量以及识别覆盖率。通过使用多个预测模型对多个商品进行风险识别,可以不再需要借助人工花费大量时间对商品进行识别,因此,能够提高对商品风险的识别速度。此外,由于每个待识别商品的风险排序结果融合了多个预测模型对应的多个初始排序结果,每个商品的风险排序结果具有更高的代表性和准确性,因此能够提高对商品风险的识别准确度。
81.在使用多个预测模型对多个待识别商品进行识别之前,需要对多个机器学习算法进行训练,得到所述多个预测模型。如图3所示,是本技术一实施例提供的多个预测模型的训练方法的流程图,包括以下步骤:
82.s21,对于在预设观察期内上架的每个商品,根据预设观察期以及与预设观察期对应的预设表现期确定一时间区间,并获取每个商品在时间区间内的历史成交记录。
83.在一些实施例中,预设观察期和预设表现期均可以为多个,多个预设观察期对应的预设表现期可以相同,也可以不相同。
84.例如,若多个预设观察期为2023年01月01日和2023年01月02日,预设观察期2023年01月01日对应的预设表现期可以为30天,预设观察期2023年01月02日对应的预设表现期可以为29天。在预设观察期2023年01月01日对应的预设表现期为30天时,预设观察期2023年01月01日与预设表现期30天对应的时间区间为2023年01月01日-2023年01月30日。在预设观察期2023年01月02日对应的预设表现期为29天时,预设观察期2023年01月02日与预设表现期29天对应的时间区间为2023年01月02日-2023年01月30日。或者,若多个预设观察期为2023年01月01日和2023年01月02日,预设观察期2023年01月01日和2023年01月02日对应的预设表现期均可以为30天。预设观察期2023年01月01日与预设表现期30天对应的时间区间为2023年01月01日-2023年01月30日。预设观察期2023年01月02日与预设表现期30天对应的时间区间为2023年01月02日-2023年01月31日。
85.在一些实施例中,为了丰富下文中的多个训练数据集,预设观察期可以为多个,而不局限于上述举例,例如,多个预设观察期可以包括2023年01月01日-2023年03月31日中的每一天。
86.在一些实施例中,对于电商平台在预设观察期内上架的每个商品,电子设备从电商平台的数据库中获取到每个商品在时间区间内的历史成交记录。或者,电子设备也可以接收用户上传的信息作为历史成交记录。
87.s22,根据历史成交记录确定预设观察期内的所有上架商品中的第一高风险商品和第一低风险商品。
88.在一些实施例中,历史成交记录包括成交数量和成交数量对应的客诉数量,电子设备根据历史成交记录确定预设观察期内的所有上架商品中的第一高风险商品和第一低风险商品包括:根据客诉数量与成交数量,确定每个商品的客诉占比,将大于预设阈值的客诉占比在所有上架商品中对应的商品确定为第一高风险商品,并将小于或者等于预设阈值的客诉占比在所有上架商品中对应的商品确定为第一低风险商品。
89.其中,客诉占比可以为客诉数量与成交数量之间的比值。例如,若任一商品的成交数量为1000,任一商品的客诉数量为10,则任一商品的客诉占比为10/1000*100%=1%。预设阈值可以自行设置,本技术对此不作限制。例如,预设阈值可以为20%。
90.s23,根据第一高风险商品和第一低风险商品的商品信息生成多个训练数据集。
91.在一些实施例中,电子设备可以从电商平台的数据库中获取第一高风险商品和第一低风险商品的商品信息。此外,本技术实施例还会对获取到的第一高风险商品和第一低风险商品的商品信息进行数据预处理(例如数据清洗等)。例如,可以滤除成交数量与客诉数量均为1的商品对应的商品信息。
92.在一些实施例中,在通常情况下,第一高风险商品通常会远远少于第一低风险商品,例如,在大多数情况下,第一高风险商品在所有上架商品中的占比通常为1%,甚至在所有上架商品足够多时,第一高风险商品在所有上架商品中的占比仅为0.1%。因此第一高风险商品的商品信息也会远远少于第一低风险商品的商品信息,第一高风险商品的商品信息的数量与第一低风险商品的商品信息的数量极端不平衡。
93.若直接使用极端不平衡的第一高风险商品的商品信息和第一低风险商品的商品信息对多个机器学习算法训练,会导致训练出的预测模型的预测准确性低。或者,若对第一低风险商品的商品信息进行抽样,将抽样获得的第一低风险商品的商品信息与第一高风险商品的商品信息组合为训练样本,然后使用训练样本对多个机器学习算法进行训练。然而,训练样本中的第一低风险商品的商品信息仅为所有第一低风险商品的商品信息的部分信息,使用训练样本对多个机器学习算法进行训练,会导致训练得到的多个预测模型对于第一低风险商品的商品信息的数据分布的学习不充分,从而造成多个预测模型的预测准确性不佳。具体表现为在使用多个预测模型对待识别商品进行预测时,会将大量的低风险商品误判为高风险商品,从而造成风控人员在对多个预测模型推荐的高风险商品的识别效率低。
94.为了解决这一问题,本技术实施例会根据预设的第一比例系数对第一低风险商品的商品信息进行划分,再将划分得到的每份第一低风险商品的商品信息与第一高风险商品的商品信息进行组合以构建多个训练数据集,从而使用每个训练数据集训练出对应的预测模型。根据预设的第一比例系数对第一低风险商品的商品信息进行划分是为了保证第一高风险商品的商品信息在每个训练数据集中的占比处于第一比例系数对应的范围中。其中,第一比例系数通过多次验证/测试得到,能够使得每个预测模型能够充分地学习到低风险商品的商品信息,从而能够提高每个预测模型的预测准确性。
95.s24,根据每个训练数据集的数据分布为每个训练数据集在预设网络框架中匹配一机器学习算法,使用每个训练数据集对匹配的机器学习算法进行训练,得到多个预测模型。
96.在一些实施例中,预设网络框架为googleautogluon框架。
97.googleautogluon框架是一个开源的机器学习平台,支持多种算法和框架,例如tensorflow、pytorch等,并且可以自动调整超参数以优化模型性能。googleautogluon框架可以对输入的训练数据集的数据分布进行分析和学习,并根据输入的每个训练数据集的数据分布情况自动选择合适的机器学习算法进行训练,得到每个训练数据集对应的预测模型。此外,googleautogluon框架还提供可视化界面,为用户展示输入的每个训练数据集的数据分布,googleautogluon框架的机器学习算法搜索功能也支持用户手动选择机器学习算法。
98.在本技术的另外一些实施例中,在训练得到多个预测模型之后,需要对多个预测模型的预测性能进行验证才会将多个预测模型投入使用。为了对训练完成的多个预测模型
的预测性能进行评估,电子设备可以获取验证数据集,并将验证数据集分别输入至多个预测模型中,使用预设指标对每个预测模型针对验证数据集的预测性能进行评估,在多个预测模型的预测性能满足预设条件时,才会将多个预测模型对待识别商品进行风险预测。
99.其中,验证数据集由在多个预设观察期之外上架的多个商品的商品信息构成。预设指标包括,但不限于:roc曲线下面积(areaundercurve,auc)和kolmogorov-smirnov距离(kolmogorov-smirnov,ks)。auc是衡量模型预测正确率的一种指标。roc曲线是一条以f1得分为横坐标、真正例率(truepositiverate,tpr)为纵坐标的曲线,其中,tpr表示实际为正例的样本(低风险商品)中被正确预测为正例的样本(低风险商品)的比例。auc的取值范围为[0,1],auc的值越接近1,表示预测模型的预测性能越好。
[0100]
kolmogorov-smirnov距离可以用来比较模型预测结果与真实标签之间的差异程度。ks的取值范围为[0,1],ks的值越接近0,表示预测模型的预测性能越好。
[0101]
预设条件可以自行设置,本技术对此不作限制。例如,在一预测模型的auc值大于0.8时,电子设备确定该预测模型可以对待识别商品进行风险预测,和/或,在一预测模型的kolmogorov-smirnov距离小于0.2时,电子设备确定该预测模型可以对待识别商品进行风险预测。
[0102]
如上文所述,需要根据第一高风险商品和第一低风险商品的商品信息生成多个训练数据集。如图4所示,是本技术一实施例提供的多个训练数据集的生成方法的流程图,包括以下步骤:
[0103]
s231,根据第一高风险商品的商品信息构建高风险数据集,并根据第一低风险商品的商品信息构建低风险数据集。
[0104]
在一些实施例中,若第一高风险商品为多个,电子设备将多个第一高风险商品的商品信息构成的数据集作为高风险数据集。低风险数据集的构建过程与高风险数据集的构建过程基本相同,故本技术不再重复描述。通常情况下,第一低风险商品的数量远大于第一高风险商品的数量,因此低风险数据集的数据量也是远大于高风险数据集的数据量。
[0105]
s232,统计第一高风险商品的第一数量,并根据第一数量与预设的第一比例系数,对低风险数据集进行划分,得到多个子数据集。
[0106]
在一些实施例中,第一比例系数可以由多次测试以及验证得到。例如,第一比例系数可以为5%。
[0107]
在本技术的另外一些实施例中,第一比例系数可以自行设置,本技术对此不作限制。
[0108]
在一些实施例中,每个子数据集中均为第一低风险商品,电子设备根据第一数量与预设的第一比例系数,对低风险数据集进行划分,得到多个子数据集包括:电子设备计算第一数量与第一比例系数的比值,并将计算得到的比值与第一数量之间的差值作为每个子数据集的预估商品数量,然后基于每个子数据集的预估商品数量对低风险数据集进行完全拆分,从而得到多个子数据集。其中,第一数量在由高风险数据集与任一子数据集组合成的训练数据集中的总数量的占比为第一比例系数左右。
[0109]
例如,若第一比例系数为5%,第一高风险商品的第一数量为10个,低风险数据集包含的第一低商品的总数量为1330个,第一数量10与第一比例系数5%的比值为200,因此每个子数据集的预估商品数量为200-10=190个。为了确保能够将低风险数据集中的1330
个第一低风险商品完全拆分以及确保拆分得到的每个子数据集与第一数量10的比值在5%左右,计算1330与190相除的结果,得到整数7,因此可以将低风险数据集分为7个子数据集,每个子数据集的数量为190个。
[0110]
在一些实施例中,由于电商平台上架的商品具有不确定性,根据第一高风险商品的第一数量难以对低风险数据集进行均等拆分,因此拆分得到的每个子数据集的数据量与第一数量的比值很难完全符合第一比例系数,因此本技术实施例只需要确保第一数量在由高风险数据集与拆分得到的任一子数据集组合而成的训练数据集中的总数量的占比约为第一比例系数即可。在实际应用过程中,对低风险数据集的拆分可能会遇到多种情况,因此可按照实际需求对低风险数据集进行灵活拆分。
[0111]
s233,将高风险数据集与任一个子数据集进行组合,得到一训练数据集。
[0112]
在一些实施例中,电子设备将高风险数据集与每个子数据集进行组合,从而得到多个训练数据集。
[0113]
在本实施例中,由于第一比例系数可以由多次测试以及验证得到,以及多个训练数据集是用于对相应的机器学习算法进行训练以得到相应的机器学习算法对应的预测模型,因此确保第一数量在由高风险数据集与拆分得到的任一子数据集组合而成的训练数据集中的总数量的占比约为第一比例系数,能够使得每个机器学习算法能够充分学习到第一高风险商品的商品信息与第一低风险商品的商品信息,从而能够提高每个预测模型的预测效果。
[0114]
如图5所示,是本技术一实施例提供的对关联的店铺进行风险识别的方法的流程图,包括以下步骤:
[0115]
s161,根据预设的第二比例系数以及多个待识别商品的第二数量,计算高风险商品数量,并根据预设的第三比例系数以及第二数量,计算低风险商品数量。
[0116]
在一些实施例中,第二比例系数和第三比例系数是通过多次验证以及测试得到。例如,第二比例系数可以为30%(0.3),第二比例系数可以为50%。第二数量为多个待识别商品的数量。
[0117]
在本实施例中,电子设备可以将第二比例系数与第二数量的乘积作为高风险商品数量,并将第三比例系数与第二数量的乘积作为低风险商品数量。
[0118]
s162,根据高风险商品数量,从由低至高排序的风险排序结果中选择排序靠前的多个风险排序结果对应的待识别商品,作为第二高风险商品,并根据低风险商品数量,从由低至高排序的风险排序结果中选择排序靠后的多个风险排序结果对应的待识别商品,作为第二低风险商品。
[0119]
在一些实施例中,在由低至高排序的风险排序结果中,排序越靠前的风险排序结果的风险越高。电子设备从由低至高排序的风险排序结果中选择第一数量(例如,高风险商品数量)的排序靠前的多个风险排序结果对应的待识别商品,作为第二高风险商品,并从由低至高排序的风险排序结果中选择第二数量(例如,低风险商品数量)的排序靠后的多个风险排序结果对应的待识别商品,作为第二低风险商品。
[0120]
例如,所述多个待识别商品为7个,分别为第一待识别商品、第二待识别商品、第三待识别商品
……
第七待识别商品,第一待识别商品的风险排序结果为3、第二待识别商品的风险排序结果为4,第三待识别商品的风险排序结果为1,第四待识别商品的风险排序结果
为2,第五待识别商品的风险排序结果为6,第六待识别商品的风险排序结果为7,第七待识别商品的风险排序结果为5,在高风险商品数量为3时,从由低至高排序的风险排序结果中选择排序靠前的3个风险排序结果对应的待识别商品作为第二高风险商品,因此所述第二高风险商品分别是第三待识别商品、第四待识别商品及第一待识别商品。在低风险商品数量为2时,从由低至高排序的风险排序结果中选择排序靠后的2个风险排序结果对应的待识别商品作为第二低风险商品,因此所述第二低风险商品分别是第五待识别商品及第六待识别商品。在一些实施例中,第二高风险商品和第二低风险商品均为多个。
[0121]
在本实施例中,由于第二比例系数和第三比例系数是通过验证以及测试得到,因此通过高风险商品数量选取第二高风险商品,并通过低风险商品数量选取第二低风险商品,能够在一定程度上保证第二高风险商品和第二低风险商品的准确性。
[0122]
s163,若多个待识别商品关联多个店铺,计算第二高风险商品在每个关联的店铺中的第一占比,并计算第二低风险商品在每个关联的店铺中的第二占比。
[0123]
在一些实施例中,由于电商平台上在预定观察期内上架商品的店铺通常为多个,因此多个待识别商品通常关联多个店铺。电子设备确定每个第二高风险商品和每个第二低风险商品关联的店铺,将每个关联的店铺在预定观察期内上架的总商品数量与该店铺中第二高风险商品的数量之间的比值作为第一占比,并将每个关联的店铺在预定观察期内上架的总商品数量与该店铺中第二低风险商品的数量之间的比值作为第二占比。
[0124]
例如,每个关联的店铺在预定观察期内上架的总商品数量为1000件,该店铺中第二高风险商品的数量为1件,该店铺中第二高风险商品的数量为999件,则第一占比为1/999。
[0125]
在本实施例中,越大的第一占比对应的每个关联的店铺中的第二高风险商品越多,越小的第二占比对应的每个关联的店铺中的第二低风险商品越多,因此第一占比和第二占比可作为衡量每个关联的店铺的风险高低的两个关键维度。
[0126]
s164,根据第一占比和/或第二占比,对关联的每个店铺进行风险识别。
[0127]
在一些实施例中,电子设备可以使用多种方式根据第一占比和/或第二占比对关联的每个店铺进行风险识别。例如,电子设备可以将每个关联的店铺的第一占比与第一预设值进行比较,并将该店铺的第二占比与第二预设值进行比较,在第一占比大于第一预设值以及第二占比小于或者等于第二预设值时,电子设备确定该店铺为高风险店铺。或者,在每个关联的店铺的第一占比大于第一预设值时,电子设备确定该店铺为高风险店铺。或者,在每个关联的店铺的第二占比小于第二预设值时,电子设备确定该店铺为高风险店铺。
[0128]
其中,上述举例仅为示例,实际情况中电子设备可以使用更多方式灵活地对每个关联的店铺进行风险评估。
[0129]
在本实施例中,识别出电商平台上的高风险店铺,有利于及时地采取相应措施对高风险店铺进行处置(例如向高风险店铺发送警示信息使高风险店铺进行整改或者关闭店铺等),从而能够维护电商平台的良好运营环境,减少客诉等情况带来的损失。
[0130]
如图6所示,是本技术一实施例提供的商品风险识别装置的功能模块图。商品风险识别装置11包括获取单元110、输入单元111、排序单元112、计算单元113以及风险识别单元114。本技术所称的模块/单元是指一种能够被图1中的处理器103所获取,并且能够完成固定功能的一系列计算机可读指令段,其存储在图1中的存储器102中。在本实施例中,关于各
模块/单元的功能将在后续的实施例中详述。
[0131]
获取单元110用于获取多个待识别商品的商品信息。
[0132]
在一些实施例中,获取单元还用于对于在预设观察期内上架的每个商品,根据预设观察期与预设观察期对应的预设表现期确定一时间区间,并获取每个商品在时间区间内的历史成交记录,根据历史成交记录确定预设观察期内的所有上架商品中的第一高风险商品和第一低风险商品,根据第一高风险商品和第一低风险商品的商品信息生成多个训练数据集,根据每个训练数据集的数据分布为每个训练数据集在预设网络框架中匹配一机器学习算法,使用每个训练数据集对匹配的机器学习算法进行训练,得到多个预测模型。
[0133]
在一些实施例中,历史成交记录包括成交数量和成交数量对应的客诉数量,获取单元110还包括确定子单元和生成子单元,确定子单元用于根据客诉数量与成交数量,确定每个商品的客诉占比,将大于预设阈值的客诉占比在所有上架商品中对应的商品确定为第一高风险商品,并将小于或者等于预设阈值的客诉占比在所有上架商品中对应的商品确定为第一低风险商品;生成子单元用于根据第一高风险商品的商品信息构建高风险数据集,并根据第一低风险商品的商品信息构建低风险数据集,统计第一高风险商品的第一数量,并根据第一数量与预设的第一比例系数,对低风险数据集进行划分,得到多个子数据集,将高风险数据集与任一个子数据集进行组合,得到一训练数据集。
[0134]
输入单元111用于将每个待识别商品的商品信息输入至预先训练的多个预测模型中的每个预测模型,得到每个预测模型对于每个待识别商品输出的预测风险概率。
[0135]
排序单元112用于对对多个待识别商品对应在同一预测模型上的多个预测风险概率进行排序,确定每个待识别商品的一个初始排序结果,重复执行本步骤,直至获得每个待识别商品对应在多个预测模型的多个初始排序结果。
[0136]
计算单元113用于根据每个待识别商品的多个初始排序结果,计算每个待识别商品的风险排序结果。
[0137]
在一些实施例中,计算单元113,还用于基于每个待识别商品的多个初始排序结果与多个初始排序结果的数量,确定风险排序结果,或者,根据每个待识别商品的每个初始排序结果与对应的预测风险概率确定第一统计值,并根据多个预测风险概率对应的第二统计值和第一统计值,确定风险排序结果。
[0138]
风险识别单元114用于根据风险排序结果,对多个待识别商品进行风险识别。
[0139]
在一些实施例中,风险识别单元,还用于从由低至高排序的风险排序结果中选择预设数量个排序靠前的风险排序结果对应的待识别商品,作为目标高风险商品,并将目标高风险商品的风险商品名单推送至预设的终端设备。
[0140]
在一些实施例中,风险识别单元,还用于根据风险排序结果,对多个待识别商品关联的店铺进行风险识别。
[0141]
在一些实施例中,风险识别单元,还用于根据预设的第二比例系数以及多个待识别商品的第二数量,计算高风险商品数量,并根据预设的第三比例系数以及第二数量,计算低风险商品数量,根据高风险商品数量,从由低至高排序的风险排序结果中选择排序靠前的多个风险排序结果对应的待识别商品,作为第二高风险商品,并根据低风险商品数量,从由低至高排序的风险排序结果中选择排序靠后的多个风险排序结果对应的待识别商品,作为第二低风险商品,若多个待识别商品关联多个店铺,计算第二高风险商品在每个关联的
店铺中的第一占比,并计算第二低风险商品在每个关联的店铺中的第二占比,根据第一占比和/或第二占比,对关联的每个店铺进行风险识别。
[0142]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
[0143]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0144]
在本技术所提供的实施例中,应该理解到,所揭露的装置/电子设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/电子设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
[0145]
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0146]
以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围,均应包含在本技术的保护范围之内。
技术特征:
1.一种商品风险识别方法,其特征在于,所述方法包括:获取多个待识别商品的商品信息;将每个待识别商品的商品信息输入至预先训练的多个预测模型中的每个预测模型,得到每个预测模型对于所述每个待识别商品输出的预测风险概率;对所述多个待识别商品对应在同一预测模型上的多个预测风险概率进行排序,确定每个待识别商品的一个初始排序结果,重复执行本步骤,直至获得所述每个待识别商品对应在所述多个预测模型的多个初始排序结果;根据所述每个待识别商品的所述多个初始排序结果,计算每个待识别商品的风险排序结果;根据所述风险排序结果,对所述多个待识别商品进行风险识别。2.如权利要求1所述的商品风险识别方法,其特征在于,在将每个待识别商品的商品信息输入至预先训练的多个预测模型中的每个预测模型之前,所述方法还包括:对于在预设观察期内上架的每个商品,根据所述预设观察期与所述预设观察期对应的预设表现期确定一时间区间,并获取所述每个商品在所述时间区间内的历史成交记录;根据所述历史成交记录确定所述预设观察期内的所有上架商品中的第一高风险商品和第一低风险商品;根据所述第一高风险商品和所述第一低风险商品的商品信息生成多个训练数据集;根据每个训练数据集的数据分布为每个训练数据集在预设网络框架中匹配一机器学习算法,使用每个训练数据集对匹配的机器学习算法进行训练,得到所述多个预测模型。3.如权利要求2所述的商品风险识别方法,其特征在于,所述历史成交记录包括成交数量和所述成交数量对应的客诉数量,所述根据所述历史成交记录确定所述预设观察期内的所有上架商品中的第一高风险商品和第一低风险商品包括:根据所述客诉数量与所述成交数量,确定每个商品的客诉占比;将大于预设阈值的客诉占比在所述所有上架商品中对应的商品确定为所述第一高风险商品,并将小于或者等于所述预设阈值的客诉占比在所述所有上架商品中对应的商品确定为所述第一低风险商品。4.如权利要求2所述的商品风险识别方法,其特征在于,所述根据所述第一高风险商品和所述第一低风险商品的商品信息生成多个训练数据集包括:根据所述第一高风险商品的商品信息构建高风险数据集,并根据所述第一低风险商品的商品信息构建低风险数据集;统计所述第一高风险商品的第一数量,并根据所述第一数量与预设的第一比例系数,对所述低风险数据集进行划分,得到多个子数据集;将所述高风险数据集与任一个子数据集进行组合,得到一训练数据集。5.如权利要求1所述的商品风险识别方法,其特征在于,所述根据所述每个待识别商品的所述多个初始排序结果,计算每个待识别商品的风险排序结果包括:基于所述每个待识别商品的多个初始排序结果与所述多个初始排序结果的数量,确定所述风险排序结果;或者根据每个待识别商品的每个初始排序结果与对应的预测风险概率确定第一统计值,并根据所述多个预测风险概率对应的第二统计值和所述第一统计值,确定所述风险排序结
果。6.如权利要求1所述的商品风险识别方法,其特征在于,所述根据所述风险排序结果,对所述多个待识别商品进行风险识别包括:从由低至高排序的风险排序结果中选择预设数量个排序靠前的风险排序结果对应的待识别商品,作为目标高风险商品,并将所述目标高风险商品的风险商品名单推送至预设的终端设备。7.如权利要求1所述的商品风险识别方法,其特征在于,所述方法还包括:根据所述风险排序结果,对所述多个待识别商品关联的店铺进行风险识别。8.如权利要求7所述的商品风险识别方法,其特征在于,所述根据所述风险排序结果,对所述多个待识别商品关联的店铺进行风险识别包括:根据预设的第二比例系数以及所述多个待识别商品的第二数量,计算高风险商品数量,并根据预设的第三比例系数以及所述第二数量,计算低风险商品数量;根据所述高风险商品数量,从由低至高排序的风险排序结果中选择排序靠前的多个风险排序结果对应的待识别商品,作为第二高风险商品,并根据所述低风险商品数量,从由低至高排序的风险排序结果中选择排序靠后的多个风险排序结果对应的待识别商品,作为第二低风险商品;若所述多个待识别商品关联多个店铺,计算所述第二高风险商品在每个关联的店铺中的第一占比,并计算所述第二低风险商品在每个关联的店铺中的第二占比;根据所述第一占比和/或所述第二占比,对所述关联的每个店铺进行风险识别。9.一种商品风险识别装置,运行于电子设备,其特征在于,所述装置包括:获取单元,用于获取多个待识别商品的商品信息;输入单元,用于将每个待识别商品的商品信息输入至预先训练的多个预测模型中的每个预测模型,得到每个预测模型对于所述每个待识别商品输出的预测风险概率;排序单元,用于对所述多个待识别商品对应在同一预测模型上的多个预测风险概率进行排序,确定每个待识别商品的一个初始排序结果,重复执行本步骤,直至获得所述每个待识别商品对应在所述多个预测模型的多个初始排序结果;计算单元,用于根据所述每个待识别商品的所述多个初始排序结果,计算每个待识别商品的风险排序结果;风险识别单元,用于根据所述风险排序结果,对所述多个待识别商品进行风险识别。10.一种电子设备,其特征在于,所述电子设备包括:存储器,存储至少一个指令;及处理器,执行所述至少一个指令以实现如权利要求1至7中任意一项所述的商品风险识别方法。
技术总结
本申请提供一种商品风险识别方法、装置及电子设备。所述方法包括:获取多个待识别商品的商品信息;将每个待识别商品的商品信息输入至预先训练的多个预测模型中的每个预测模型,得到每个预测模型对于每个待识别商品输出的预测风险概率;对多个待识别商品对应在同一预测模型上的多个预测风险概率进行排序,确定每个待识别商品的一个初始排序结果,重复执行本步骤,直至获得每个待识别商品对应在多个预测模型的多个初始排序结果;根据每个待识别商品的多个初始排序结果,计算每个待识别商品的风险排序结果;根据风险排序结果,对多个待识别商品和关联的店铺进行风险识别。使用上述方法,能够提高商品风险的识别覆盖率、识别速度和识别准确度。和识别准确度。和识别准确度。
技术研发人员:刘涛
受保护的技术使用者:广州商研网络科技有限公司
技术研发日:2023.07.07
技术公布日:2023/10/15
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
