一种基于多模态预训练大模型的智能决策方法及系统与流程
未命名
07-29
阅读:277
评论:0
1.本发明涉及多模态数据处理技术领域,更具体的说是涉及一种基于多模态预训练大模型的智能决策方法及系统。
背景技术:
2.近年来研究人员在计算机视觉和自然语言处理方向均取得了很大进展,因此融合了二者的多模态深度学习也越来越受到关注。现有的多模态预训练模型中,通过多模态数据的结合进行深度学习,提高了模型对原始数据的理解能力,进而提高了决策的精度。
3.但是,随着社会进步,需要进行决策问题也会慢慢改变,预训练大模型在使用的过程中,并不能对新决策问题的产生进行适应性的改变,导致模型在决策问题的广泛程度和决策结果准确度上均无法提升,同时也导致预训练大模型无法满足对特定场景下的个性化需求。
4.因此,如何使多模态预训练模型在使用的同时能够强化自身决策能力,是本领域技术人员亟需解决的问题。
技术实现要素:
5.有鉴于此,本发明提供了一种基于多模态预训练大模型的智能决策方法及系统,能够将决策产生的案例作为训练标签数据对模型参数进行微调,有助于提高模型在特定案例类型中决策问题的决策能力,使其在该特定的场景下解决更广泛的问题。
6.为了实现上述目的,本发明采用如下技术方案:
7.获取决策问题,通过预设的多模态预训练模型进行智能决策,生成决策结果,并保存决策案例;
8.获取所述多模态预训练模型的决策案例,并构建决策标签数据;用于通过所述决策标签数据进行有监督训练,调整所述多模态预训练模型的模型参数。
9.进一步的,所述多模态预训练模型的预训练步骤包括:
10.获取多种模态的训练数据;
11.提取各个模态所对应训练数据的训练特征,并对所述训练特征统一编码,生成对应各个模态的元组序列,构建多模态数据集;
12.通过多个模态对应的元组序列对预先构建的多模态数据处理模型进行联合训练,生成多模态预训练模型。
13.进一步的,所述多种模态的训练数据包括图像数据、视频数据和文本数据中的一种或多种。
14.进一步的,提取各个模态所对应训练数据的训练特征,并对所述训练特征统一编码,生成对应各个模态的元组序列,具体为:
15.对于图像数据,特征信息记录为元组f1=(c,o,p,r,
…
);
16.其中,c为数据模态类型,其中o表示图像中的对象,p为该对象在图像中的位置,r
表示其他特征,所述其他特征为几何、形状、幅值、直方图、颜色或局部二值模式;
17.对于视频数据,对视频数据逐帧的图像提取,构成图像集,图像集总的各个图像的元组f2=(c,o,p,r,t,
…
),元素t用于记录当前帧的时间信息;
18.对于文本数据,通过自然语言处理提取特征,文本数据元组f3可编码为(c,s,e
…
),其中s为特征级,e为环境信息;
19.多模态数据集dstd={d1,d2,d3,
…
,dn}。
20.进一步的,所述联合训练,具体为:
21.在多模态数据集中获取不同数据模态类型的训练数据,进行合并;
22.通过合并后的数据对预先构建的多模态数据处理模型进行训练。
23.进一步的,所述合并的方式包括模态嵌入、注意力机制、多视角学习或多任务学习。如使用类似模态嵌入(modality embedding)的方式:将不同的输入模态dstd转换为共享空间的向量表示,然后将这些向量连接在一起形成一个多模态向量dem=[f1,f2,f3,
…
,fn],例如,使用卷积神经网络(cnn)对图像进行编码,使用循环神经网络(rnn)对文本进行编码,然后将两个向量连接在一起形成dem,进一步的以dem进行训练模型。
[0024]
进一步的,构建决策标签数据,步骤包括:
[0025]
创建决策问题文本;
[0026]
根据文本相似度计算决策案例em文本与决策问题文本的距离lm;其中,m为决策案例的序号。
[0027]
构建数据标签向量tag={(e1,r1,l1),(e2,r2,l2),(e3,r3,l3),...,},其中r为决策案例结果;
[0028]
获取所述多模态预训练模型的训练数据格式映射规则map,并根据所述映射规则将所述标签向量tag的形式,映射转化为预训练的数据格式,形成决策标签数据。
[0029]
一种基于多模态预训练大模型的智能决策系统,包括:
[0030]
用户数据采集设备,用于供用户输入决策问题,
[0031]
数据处理器,用于设置多模态预训练模型,并根据决策问题,通过所述多模态预训练模型进行智能决策,生成决策结果,并保存决策案例;
[0032]
智能优化模块,用于获取所述多模态预训练模型的决策案例,并构建决策标签数据;用于通过所述决策标签数据对所述多模态预训练模型进行有监督训练,调整模型参数。
[0033]
进一步的,所述用户数据采集设备为电子录入设备或语音采集设备。
[0034]
进一步的,还包括可视化操作装置,用于供用户通过人机交互进行可视化模型评估。
[0035]
本发明的有益效果:
[0036]
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于多模态预训练大模型的智能决策方法及系统,将预训练大模型的决策过程产生的案例作为训练标签数据对模型参数进行微调,有助于提高模型在特定案例类型中的决策能力;同时,预训练大模型通过多个场景下的训练数据分别进行训练,具有多种场景下的决策能力,结合模型微调,能根据特定需求的决策问题实现对应该决策问题特定场景下的能力提升。
附图说明
[0037]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0038]
图1附图为本发明实施例提供的一种基于多模态预训练大模型的智能决策方法示意图;
[0039]
图2附图为本发明另一实施例提供的一种基于多模态预训练大模型的智能决策系统结构示意图。
具体实施方式
[0040]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0041]
实施例1
[0042]
如图1,本发明实施例公开了一种基于多模态预训练大模型的智能决策方法,步骤包括:
[0043]
s1:获取决策问题,通过预设的多模态预训练模型进行智能决策,生成决策结果,并保存决策案例。
[0044]
在一种实施例中,多模态预训练模型的预训练步骤为:
[0045]
s11:获取多种模态的训练数据;训练数据可以包括图像数据、视频数据和文本数据中的一种或多种。并且,对这些数据进行清洗标注和格式转换。
[0046]
s12:提取各个模态所对应训练数据的训练特征,并对所述训练特征统一编码,生成对应各个模态的元组序列,构建多模态数据集;该步骤为预处理。预处理定义为函数f(x),x为为多模态数据,经过f处理后,形成标准化文本数据集,即多模态数据集。
[0047]
具体的,对于图像数据,利用特征提取技术,例如使用cnn、vit模型等,不限于某一具体技术,通过这些技术可以提取图像的特征信息,特征信息记录为元组f1=(c,o,p,r,
…
);其中,c为数据模态类型,图像为1,视频为2,文本为3;o表示图像中的对象,p为该对象在图像中的位置,r表示其他特征,所述其他特征为几何、形状、幅值、直方图、颜色或局部二值模式;对于视频数据,对视频数据逐帧的图像提取,构成图像集,图像集总的各个图像的元组f2=(c,o,p,r,t,
…
),元素t用于记录当前帧的时间信息;对于文本数据,通过自然语言处理提取特征,文本数据元组f3可编码为(c,s,e
…
),其中s为特征级,e为环境信息;多模态数据集dstd={d1,d2,d3,
…
,dn}。此外,还包括其他模态类型的数据,如音频数据,通过语音识别模型进行特征提取。
[0048]
s13:通过多个模态对应的元组序列对预先构建的多模态数据处理模型进行联合训练,得到多模态预训练模型的模型参数。其中,对于多模态数据处理模型的构建,可以选择合适的多模态预训练模型,不限定于具体模型,如transformer、bert等,更具体的例如openai的dall-e或google的clip。这些模型通常是由多个神经网络组成,用于处理图像、视
频和文本输入数据。
[0049]
在一种实施例中,s13中,联合训练的具体步骤包括:
[0050]
在多模态数据集中获取不同数据模态类型的训练数据,进行合并;其中,合并的方法包括模态嵌入、注意力机制、多视角学习和多任务学习等。本发明中使用类似模态嵌入(modality embedding)的方式:将不同的输入模态dstd转换为共享空间的向量表示,然后将这些向量连接在一起形成一个多模态向量dem=[f1,f2,f3,
…
,fn],例如,使用卷积神经网络(cnn)对图像进行编码,使用循环神经网络(rnn)对文本进行编码,然后将两个向量连接在一起形成d
em
。通过合并后的数据对预先构建的多模态数据处理模型进行训练。使用联合训练的方式进行预训练,通过多个无标注的任务来训练模型,从而学习到更丰富的语义信息。通常使用自监督学习来进行预训练,例如,通过预测图像的旋转角度或通过将图像分成块并重新排列来预测原始图像。这些任务的目标是通过利用多个模态的信息来训练模型的不同部分。
[0051]
s2:获取所述多模态预训练模型的决策案例,并构建决策标签数据;用于通过所述决策标签数据进行有监督训练,调整所述多模态预训练模型的模型参数。
[0052]
在一种实施例中,构建决策标签数据,步骤包括:
[0053]
s21:创建决策问题文本;
[0054]
s22:根据文本相似度计算决策案例em文本与决策问题文本的距离lm;其中,计算文本距离的方式可采取用于相似计算的自然语言文本处理方法,如余弦相似度计算。
[0055]
s23:构建数据标签向量tag={(e1,r1,l1),(e2,r2,l2),(e3,r3,l3),...,},其中r为决策案例结果;
[0056]
s24:获取所述多模态预训练模型的训练数据格式映射规则map,并根据所述映射规则将所述标签向量tag的形式,映射转化为预训练的数据格式,形成决策标签数据。
[0057]
其中,一个完整的案例应当包含:决策的上下文,需要决策的问题,最后的结果。对决策案例进行举例说明,如:智能车辆控制系统的决策:案例上下文为:某年某月某日,大型车辆型号为xxx,在xx路口,进行了避让。这个案例的其他参数包括:天气晴,车流量,现场图片,等等;某年某月某日,小型车辆型号为xxx,在某地,进行了避让。这个案例的其他参数包括:天气晴,车流量,等等。决策问题是:如果现在路过一条路,是否需要避开行人?决策结果为“是”或“不是”。
[0058]
在本实施例中,把的决策标签数据输入训练模型进行有监督的训练,并使用反向传播算法来更新大模型参数,训练使用准确率、精确度、召回率、f1分数在评价训练结果。
[0059]
评估微调后的模型性能:使用使用混淆矩阵或roc曲线等工具来可视化评估结果数据集对微调后的模型进行性能评估。
[0060]
实施例2
[0061]
如图2,本发明还公开了一种基于多模态预训练大模型的智能决策系统,包括用户数据采集设备,用于供用户输入决策问题,
[0062]
数据处理器,用于设置多模态预训练模型,并根据决策问题,通过多模态预训练模型进行智能决策,生成决策结果,并保存决策案例;
[0063]
智能优化模块,用于获取多模态预训练模型的决策案例,并构建决策标签数据;用于通过决策标签数据对多模态预训练模型进行有监督训练,调整模型参数。
[0064]
在一种实施例中,用户数据采集设备为电子录入设备或语音采集设备。
[0065]
在一种实施例中,还包括可视化操作装置,用于供用户通过人机交互进行可视化模型评估。
[0066]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0067]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
技术特征:
1.一种基于多模态预训练大模型的智能决策方法,其特征在于,步骤包括:获取决策问题,通过预设的多模态预训练模型进行智能决策,生成决策结果,并保存决策案例;获取所述多模态预训练模型的决策案例,并构建决策标签数据;用于通过所述决策标签数据进行有监督训练,调整所述多模态预训练模型的模型参数。2.根据权利要求1所述的一种基于多模态预训练大模型的智能决策方法,其特征在于,所述多模态预训练模型的预训练步骤包括:获取多种模态的训练数据;提取各个模态所对应训练数据的训练特征,并对所述训练特征统一编码,生成对应各个模态的元组序列,构建多模态数据集;通过多个模态对应的元组序列对预先构建的多模态数据处理模型进行联合训练,得到所述多模态预训练模型的模型参数。3.根据权利要求2所述的一种基于多模态预训练大模型的智能决策方法,其特征在于,所述多种模态的训练数据包括图像数据、视频数据和文本数据中的一种或多种。4.根据权利要求3所述的一种基于多模态预训练大模型的智能决策方法,其特征在于,提取各个模态所对应训练数据的训练特征,并对所述训练特征统一编码,生成对应各个模态的元组序列,具体为:对于图像数据,特征信息记录为元组f1=(c,o,p,r,
…
);其中,c为数据模态类型,其中o表示图像中的对象,p为该对象在图像中的位置,r表示其他特征,所述其他特征为几何、形状、幅值、直方图、颜色或局部二值模式;对于视频数据,对视频数据逐帧的图像提取,构成图像集,图像集总的各个图像的元组f2=(c,o,p,r,t,
…
),元素t用于记录当前帧的时间信息;对于文本数据,通过自然语言处理提取特征,文本数据元组f3可编码为(c,s,e
…
),其中s为特征级,e为环境信息;多模态数据集dstd={d1,d2,d3,
…
,dn}。5.根据权利要求2所述的一种基于多模态预训练大模型的智能决策方法,其特征在于,所述联合训练,具体为:在多模态数据集中获取不同数据模态类型的训练数据,进行合并;通过合并后的数据对预先构建的多模态数据处理模型进行训练。6.根据权利要求5所述的一种基于多模态预训练大模型的智能决策方法,其特征在于,所述合并的方式包括模态嵌入、注意力机制、多视角学习或多任务学习。7.根据权利要求1所述的一种基于多模态预训练大模型的智能决策方法,其特征在于,构建决策标签数据,步骤包括:创建决策问题文本;根据文本相似度计算决策案例e
m
文本与决策问题文本的距离l
m
;构建数据标签向量tag={(e1,r1,l1),(e2,r2,l2),(e3,r3,l3),...,},其中r为决策案例结果;获取所述多模态预训练模型的训练数据格式映射规则,并根据所述映射规则将所述标签向量tag的形式,映射转化为预训练的数据格式,形成决策标签数据。
8.一种基于多模态预训练大模型的智能决策系统,其特征在于,包括:用户数据采集设备,用于供用户输入决策问题,数据处理器,用于设置多模态预训练模型,并根据决策问题,通过所述多模态预训练模型进行智能决策,生成决策结果,并保存决策案例;智能优化模块,用于获取所述多模态预训练模型的决策案例,并构建决策标签数据;用于通过所述决策标签数据对所述多模态预训练模型进行有监督训练,调整模型参数。9.根据权利要求8所述的一种基于多模态预训练大模型的智能决策系统,其特征在于,所述用户数据采集设备为电子录入设备或语音采集设备。10.根据权利要求8所述的一种基于多模态预训练大模型的智能决策系统,其特征在于,还包括可视化操作装置,用于供用户通过人机交互进行可视化模型评估。
技术总结
本发明公开一种基于多模态预训练大模型的智能决策方法及系统,该方法步骤包括:获取决策问题,通过预设的多模态预训练模型进行智能决策,生成决策结果,并保存决策案例;获取所述多模态预训练模型的决策案例,并构建决策标签数据;用于通过所述决策标签数据进行有监督训练,调整所述多模态预训练模型的模型参数;本发明将决策产生的案例作为训练标签数据对模型参数进行微调,有助于提高模型在特定案例类型中的决策能力。类型中的决策能力。类型中的决策能力。
技术研发人员:刘应波 杜宇 刘应玲
受保护的技术使用者:云南元矩阵科技有限公司
技术研发日:2023.04.17
技术公布日:2023/7/28
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
