一种AI模型的自动化训练方法与流程

未命名 07-13 阅读:150 评论:0

一种ai模型的自动化训练方法
技术领域
1.本发明属于模型训练技术领域,具体涉及一种ai模型的自动化训练方法。


背景技术:

2.ai亦称智械、机器智能,指由人制造出来的机器所表现出来的智能;通常人工智能是指通过普通计算机程序来呈现人类智能的技术;人工智能于一般教材中的定义领域是“智能主体(intelligentagent)的研究与设计”,智能主体指一个可以观察周遭环境并作出行动以达致目标的系统;约翰
·
麦卡锡于1955年的定义是“制造智能机器的科学与工程”;安德里亚斯
·
卡普兰(andreaskaplan)和迈克尔
·
海恩莱因(michaelhaenlein)将人工智能定义为“系统正确解释外部数据,从这些数据中学习,并利用这些知识通过灵活适应实现特定目标和任务的能力”;人工智能的研究是高度技术性和专业的,各分支领域都是深入且各不相通的,因而涉及范围极广。
3.ai的核心问题包括建构能够跟人类似甚至超卓的推理、知识、规划、学习、交流、感知、移物、使用工具和操控机械的能力等;当前有大量的工具应用了人工智能,其中包括搜索和数学优化、逻辑推演;而基于仿生学、认知心理学,以及基于概率论和经济学的算法等等也在逐步探索当中;思维来源于大脑,而思维控制行为,行为需要意志去实现,而思维又是对所有数据采集的整理,相当于数据库,所以人工智能最后可能会演变为机器替换人类。
4.在人工智能中,面对大量用户输入的数据/素材,如果要在杂乱无章的内容准确、容易地识别,输出我们期待输出的图像/语音,并不是那么容易的。因此算法就显得尤为重要了,算法就是我们所说的模型;当然,算法的内容,除了核心识别引擎,也包括各种配置参数,例如:语音智能识别的比特率、采样率、音色、音调、音高、音频、抑扬顿挫、方言、噪音等参数;成熟的识别引擎,核心内容一般不会经常变化的,为实现”识别成功“这一目标,我们只能对配置参数去做调整。
5.申请号为202110363657.4的一种ai模型的自动化训练方法及ai模型训练系统,该专利公开了所述训练平台获取多组数据对,每组数据对包括第一图像和第二图像,所述第一图像的图像质量高于所述第二图像的图像质量;所述训练平台获取待训练的第一ai模型的模型结构和调参信息,所述调参信息用于指示所述第一ai模型训练过程中的参数调整策略和图像处理策略;所述训练平台将所述每组数据对作为训练样本,基于所述调参信息训练所述第一ai模型得到第二ai模型,所述第二ai模型具备修复所述第二图像得到所述第一图像的能力;所述训练平台在所述linux系统将所述第二ai模型转换成开放神经网络交互onnx模型,将所述onnx模型转换成适配windows系统的第三ai模型;所述训练平台将所述第三ai模型拷贝至所述测试平台的所述windows系统;所述训练平台通过所述linux系统操作所述测试平台在所述windows系统,将多个第三图像作为输入,运行所述第三ai模型得到多个第四图像;所述训练平台在所述linux系统操作所述测试平台在所述windows系统,对所述多个第四图像进行测试,得到所述第二ai模型的测试指标,所述测试指标包括拒识率frr和峰值信噪比;所述训练平台根据所述测试指标调整所述第二ai模型,得到第四ai模型。
6.进入了ai领域,深度学习模型训练是十分关键和有挑战性的,深度学习其实就是一个反复调整模型参数的过程,收敛速度过慢,训练时间过长,一方面使得相同总训练时间内的迭代次数变少,从而影响准确率,另一方面使得训练次数变少,从而减少了尝试不同超参数的机会。


技术实现要素:

7.本发明的目的在于提供一种ai模型的自动化训练方法,提高训练的效率,从而提高准确率。
8.为实现上述目的,本发明提供如下技术方案:一种ai模型的自动化训练方法,包括构造模块、预处理模块;
9.所述构造模块用于构造基础数据;
10.所述预处理模块和构造模块通信连接,通过预处理模块对构造的基础数据进行预处理;
11.所述方法如下:
12.步骤一:通过构造模块构造基础数据,通过预处理模块对构造的基础数据进行预处理;
13.步骤二:将预处理后的数据输入神经网络,每个神经元先输入值加权累加再输入激活函数作为该神经元的输出值,正向传播,得到得分;
14.步骤三:将“得分”输入误差函数lossfunction,并减少参数量、增大样本量,减少特征量,与期待值比较得到误差,多个则为和,通过误差判断识别程度;
15.步骤四:通过反向传播,来确定梯度向量;
16.步骤五:通过梯度向量来调整每一个权值,使误差趋于0或收敛的趋势调节;
17.步骤六:循环调用训练过程,直到设定次数或损误差失的平均值不再下降。
18.作为本发明的一种优选的技术方案,所述增大样本量使用tensorflow。
19.作为本发明的一种优选的技术方案,所述减少特征量使用dropout,将神经网络某一层的输出节点数据随机丢弃。
20.作为本发明的一种优选的技术方案,所述梯度向量采用随机梯度下降法以及adagard的配合;adagard主要是为了解决随机梯度下降法遇到鞍点或者极小值点后学习变慢的问题;不同的参数对学习结果的影响很大,如果设置的值较小,会导致学习花费较多的时间,学习率大了就会导致学习发散而不能正常的进行;考虑避免人为的介入,根据需要让程序自己动态地设置学习率,对于遇到鞍点的情况,参数变化很小,基本不会改变,那么这个方法就会设置一个较大的学习率,跨过鞍点。
21.作为本发明的一种优选的技术方案,所述循环调用训练过程,每轮都包括
22.前向计算:把输入数据传入模型,然后得到输出;
23.损失函数
24.后向传播:根据前向计算得到的输出通过梯度下降,从后向前优化网络中的参数。
25.作为本发明的一种优选的技术方案,所述梯度弥散时需要进行优化;深度学习利用正向传播来提取特征,同时利用反向传播来调整参数;反向传播中梯度值逐渐减小,神经网络层数较多时,传播到前面几层时,梯度接近于0,无法对参数做出指导性调整了,此时基
本起不到训练作用;这就称为梯度弥散,梯度弥散使得模型网络深度不能太大,网络越深,提取的特征越高阶,泛化性越好。
26.作为本发明的一种优选的技术方案,所述优化采用relu代替sigmoid激活函数;残差网络;sigmoid函数值在[0,1],relu函数值在[0,+无穷];relu函数,x》0时的导数为1,而sigmoid函数,当x稍微远离0,梯度就会大幅减小,几乎接近于0,所以在反向传播中无法指导参数更新;残差网络resnet将一部分输入值不经过正向传播网络,而直接作用到输出中,可以提高原始信息的完整性,从而在反向传播中,可以指导前面几层的参数的调整;使用了残差网络的resnet,将网络深度提高,大大提高了模型的泛化性,提高了预测准确率。
[0027]
作为本发明的一种优选的技术方案,所述减少参数量使用小卷积核来代替大卷积核,两个串联小卷积核来代替一个大卷积核,非对称卷积核,全局平均池化代替全连接层;非对称卷积核中,卷积效果相同的情况下,大大减少了参数量,同时还提高了卷积的多样性。
[0028]
与现有技术相比,本发明的有益效果是:
[0029]
1.减少参数量、增大样本量,减少特征量,提高训练的效率,从而提高准确率;
[0030]
2.采用relu代替sigmoid激活函数;残差网络对梯度弥散进行优化,大大提高了模型的泛化性,提高了预测准确率;
[0031]
3.梯度向量采用随机梯度下降法以及adagard的配合;adagard解决随机梯度下降法遇到鞍点或者极小值点后学习变慢的问题,从而保证ai模型的自动化训练。
附图说明
[0032]
图1为本发明的方法图。
具体实施方式
[0033]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0034]
实施例1
[0035]
请参阅图1,为本发明的第一个实施例,该实施例提供一种ai模型的自动化训练方法,包括构造模块、预处理模块;
[0036]
构造模块用于构造基础数据;
[0037]
预处理模块和构造模块通信连接,通过预处理模块对构造的基础数据进行预处理;
[0038]
方法如下:
[0039]
步骤一:通过构造模块构造基础数据,通过预处理模块对构造的基础数据进行预处理;
[0040]
步骤二:将预处理后的数据输入神经网络,每个神经元先输入值加权累加再输入激活函数作为该神经元的输出值,正向传播,得到得分;
[0041]
步骤三:将“得分”输入误差函数lossfunction,并减少参数量、增大样本量,减少
特征量,与期待值比较得到误差,多个则为和,通过误差判断识别程度;
[0042]
步骤四:通过反向传播,来确定梯度向量;
[0043]
步骤五:通过梯度向量来调整每一个权值,使误差趋于0或收敛的趋势调节;
[0044]
步骤六:循环调用训练过程,直到设定次数或损误差失的平均值不再下降。
[0045]
本实施例中,优选的,减少特征量使用dropout,将神经网络某一层的输出节点数据随机丢弃。
[0046]
本实施例中,优选的,梯度向量采用随机梯度下降法以及adagard的配合;adagard主要是为了解决随机梯度下降法遇到鞍点或者极小值点后学习变慢的问题;不同的参数对学习结果的影响很大,如果设置的值较小,会导致学习花费较多的时间,学习率大了就会导致学习发散而不能正常的进行;考虑避免人为的介入,根据需要让程序自己动态地设置学习率,对于遇到鞍点的情况,参数变化很小,基本不会改变,那么这个方法就会设置一个较大的学习率,跨过鞍点。
[0047]
本实施例中,优选的,循环调用训练过程,每轮都包括
[0048]
前向计算:把输入数据传入模型,然后得到输出;
[0049]
损失函数
[0050]
后向传播:根据前向计算得到的输出通过梯度下降,从后向前优化网络中的参数。
[0051]
本实施例中,优选的,梯度弥散时需要进行优化;深度学习利用正向传播来提取特征,同时利用反向传播来调整参数;反向传播中梯度值逐渐减小,神经网络层数较多时,传播到前面几层时,梯度接近于0,无法对参数做出指导性调整了,此时基本起不到训练作用;这就称为梯度弥散,梯度弥散使得模型网络深度不能太大,网络越深,提取的特征越高阶,泛化性越好。
[0052]
本实施例中,优选的,优化采用relu代替sigmoid激活函数;残差网络;sigmoid函数值在[0,1],relu函数值在[0,+无穷];relu函数,x》0时的导数为1,而sigmoid函数,当x稍微远离0,梯度就会大幅减小,几乎接近于0,所以在反向传播中无法指导参数更新;残差网络resnet将一部分输入值不经过正向传播网络,而直接作用到输出中,可以提高原始信息的完整性,从而在反向传播中,可以指导前面几层的参数的调整;使用了残差网络的resnet,将网络深度提高,大大提高了模型的泛化性,提高了预测准确率。
[0053]
本实施例中,优选的,减少参数量使用小卷积核来代替大卷积核,两个串联小卷积核来代替一个大卷积核,非对称卷积核,全局平均池化代替全连接层;非对称卷积核中,卷积效果相同的情况下,大大减少了参数量,同时还提高了卷积的多样性。
[0054]
实施例2
[0055]
请参阅图1,为本发明的第二个实施例,该实施例基于上一个实施例,不同的是:
[0056]
增大样本量使用tensorflow;tensorflow是一种计算图模型,即用图的形式来表示运算过程的一种模型;tensorflow程序一般分为图的构建和图的执行两个阶段;图的构建阶段也称为图的定义阶段,该过程会在图模型中定义所需的运算,每次运算的的结果以及原始的输入数据都可称为一个节点op。
[0057]
深度学习通过前向计算和反向传播,不断调整参数,来提取最优特征,以达到预测的目的,其中调整的参数就是weight和bias,深度学习训练时几乎所有的工作量都是来求解神经网络中的weight和bias;模型训练本质上就是调整weight和bias的过程,将他们初
始化为一个合理的值,能够加快收敛速度。
[0058]
尽管已经示出和描述了本发明的实施例,详见上述详尽的描述,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

技术特征:
1.一种ai模型的自动化训练方法,其特征在于:包括构造模块、预处理模块;所述构造模块用于构造基础数据;所述预处理模块和构造模块通信连接,通过预处理模块对构造的基础数据进行预处理;所述方法如下:步骤一:通过构造模块构造基础数据,通过预处理模块对构造的基础数据进行预处理;步骤二:将预处理后的数据输入神经网络,每个神经元先输入值加权累加再输入激活函数作为该神经元的输出值,正向传播,得到得分;步骤三:将“得分”输入误差函数loss function,并减少参数量、增大样本量,减少特征量,与期待值比较得到误差,多个则为和,通过误差判断识别程度;步骤四:通过反向传播,来确定梯度向量;步骤五:通过梯度向量来调整每一个权值,使误差趋于0或收敛的趋势调节;步骤六:循环调用训练过程,直到设定次数或损误差失的平均值不再下降。2.根据权利要求1所述的一种ai模型的自动化训练方法,其特征在于:所述增大样本量使用tensorflow。3.根据权利要求1所述的一种ai模型的自动化训练方法,其特征在于:所述减少特征量使用dropout,将神经网络某一层的输出节点数据随机丢弃。4.根据权利要求1所述的一种ai模型的自动化训练方法,其特征在于:所述梯度向量采用随机梯度下降法以及adagard的配合。5.根据权利要求1所述的一种ai模型的自动化训练方法,其特征在于:所述循环调用训练过程,每轮都包括前向计算:把输入数据传入模型,然后得到输出;损失函数后向传播:根据前向计算得到的输出通过梯度下降,从后向前优化网络中的参数。6.根据权利要求1所述的一种ai模型的自动化训练方法,其特征在于:所述梯度弥散时需要进行优化。7.根据权利要求6所述的一种ai模型的自动化训练方法,其特征在于:所述优化采用relu代替sigmoid激活函数;残差网络。8.根据权利要求1所述的一种ai模型的自动化训练方法,其特征在于:所述减少参数量使用小卷积核来代替大卷积核,两个串联小卷积核来代替一个大卷积核,非对称卷积核,全局平均池化代替全连接层。

技术总结
本发明公开了一种AI模型的自动化训练方法,包括构造模块、预处理模块;所述构造模块用于构造基础数据;所述预处理模块和构造模块通信连接,通过预处理模块对构造的基础数据进行预处理;所述方法如下:步骤一:通过构造模块构造基础数据,通过预处理模块对构造的基础数据进行预处理;本发明的有益效果是:减少参数量、增大样本量,减少特征量,提高训练的效率,从而提高准确率;采用relu代替sigmoid激活函数;残差网络对梯度弥散进行优化,大大提高了模型的泛化性,提高了预测准确率;梯度向量采用随机梯度下降法以及AdaGard的配合;AdaGard解决随机梯度下降法遇到鞍点或者极小值点后学习变慢的问题,从而保证AI模型的自动化训练。从而保证AI模型的自动化训练。从而保证AI模型的自动化训练。


技术研发人员:孙盛晖
受保护的技术使用者:新国脉文旅科技有限公司
技术研发日:2023.02.20
技术公布日:2023/7/12
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐