多模态违规内容的智能判断方法、系统、设备及存储介质与流程
未命名
07-20
阅读:175
评论:0
1.本发明涉及网络通信技术领域,尤其涉及多模态违规内容的智能判断方法、系统、设备及存储介质。
背景技术:
2.在觅健群聊中,除了用户的正常聊天以外,还会存在个别用户发布不当言论、辱骂他人,转卖求购药品等违规内容,管理员需要将这些内容撤回,并将用户封禁。
3.社区聊天内容属于多模态问题,多模态指的是多种模态的信息,包括:文本、图像、视频、音频等。
4.如违规文本“加我微信”,在多模态场景下可以为:
5.1.谐音:加我薇心。
6.2.图片或者图文结合:加我“微信”,“微信”是图片。
7.3.藏头诗、藏尾诗:
8.加之迹若浮
9.我有二三子
10.微论亦高驾
11.信哉人中杰;
12.4.语音。
13.而传统的分类方案只能针对单个信息,难以对多模态的信息进行分类,为了解决该技术问题现提出多模态违规内容的智能判断方法、系统、设备及存储介质。
技术实现要素:
14.为了解决上述现有技术中存在的技术问题,本发明提供了一种多模态违规内容的智能判断方法、系统、设备及存储介质。
15.为实现上述目的,本发明实施例提供了如下的技术方案:
16.第一方面,在本发明提供的一个实施例中,提供了多模态违规内容的智能判断方法,该方法包括以下步骤:
17.获取输入数据,所述输入数据至少包括语音输入、文本数据和图像输入三者中的任一种,并将所述输入数据中的语音输入、文本数据和图像输入分别转化为第一特征向量、第二特征向量和第三特征向量,以获得特征向量组合;
18.将所述特征向量组合合并为第四特征向量;
19.获取位置输入,并利用所述位置输入对第四特征向量进行位置编码,获得第一序列;
20.将第一序列压缩成指定长度的第一向量;
21.基于所述第一向量生成第二序列和第一类别;
22.将第二序列压缩成指定长度的第三向量;
23.基于所述第三向量生成第三序列和第二类别。
24.作为本发明的进一步方案,所述第一特征向量、第二特征向量和第三特征向量分别属于a维向量空间中的特征向量、b维向量空间中的特征向量和c维向量空间中的特征向量,其中所述a、b和c为正整数。
25.作为本发明的进一步方案,所述第四特征向量为n维空间中的特征向量,n为正整数。
26.第二方面,在本发明提供的又一个实施例中,提供了多模态违规内容的智能判断系统,该系统包括:输入模块、特征合并层、位置编码层、第一特征编码层、第一特征解码层、第二特征编码层、残差结构和第二特征解码层;
27.所述输入模块,用于获取输入数据,所述输入数据至少包括语音输入、文本数据和图像输入三者中的任一种,并将所述输入数据中的语音输入、文本数据和图像输入分别转化为第一特征向量、第二特征向量和第三特征向量,以获得特征向量组合;
28.所述特征合并层,用于将所述特征向量组合合并为第四特征向量;
29.所述位置编码层,用于获取位置输入,并利用所述位置输入对第四特征向量进行位置编码,获得第一序列;
30.所述第一特征编码层,用于将第一序列压缩成指定长度的第一向量;
31.所述第一特征解码层,用于基于所述第一向量生成第二序列和第一类别;
32.所述第二特征编码层,用于将第二序列压缩成指定长度的第三向量;
33.所述残差结构,用于将第一向量传递给所述第二特征解码层;
34.所述第二特征解码层,用于基于所述第三向量生成第三序列和第二类别。
35.作为本发明的进一步方案,所述输入模块包括语音编码层、文本编码层和图像编码层;
36.所述语音编码层,用于将语音输入转化为第一特征向量;还用于当未包括语音输入时,对第一特征向量进行掩码处理;
37.所述文本编码层,用于将文本输入转化为第二特征向量;还用于当未包括文本输入时,对第二特征向量进行掩码处理;
38.所述图像编码层,用于将图像输入转化为第三特征向量;还用于当未包括图像输入时,对第三特征向量进行掩码处理。
39.作为本发明的进一步方案,所述语音编码层、所述文本编码层、所述图像编码层、所述第一特征解码层和第二特征编码层均包括卷积、反卷积、空洞卷积、池化、注意力机制和归一。
40.作为本发明的进一步方案,所述语音编码层、所述文本编码层、所述图像编码层、所述第一特征编码层、第一特征解码层、第二特征编码层和第二特征解码层均属于encoder-decoder神经网络结构。
41.作为本发明的进一步方案,该系统训练数据包括标签序列p和标签类别为q,该系统的损失函数分别为序列损失loss_o和类别损失loss_l;
42.该系统的总损失函数通过如下公式进行计算:
43.44.其中,loss表示为总损失函数,n表示中间监督的数量,o_i表示第i个中间监督层的序列输出,l_i表示第i个中间监督层的类别输出,i为正整数;i大于等于,当等于时,即无中间监督层,只存在顶层的输出,当i等于时,有一个中间监督层,以此类推。
45.第三方面,在本发明提供的又一个实施例中,提供了一种设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器加载并执行所述计算机程序时实现多模态违规内容的智能判断方法的步骤。
46.第四方面,在本发明提供的再一个实施例中,提供了一种存储介质,存储有计算机程序,所述计算机程序被处理器加载并执行时实现所述多模态违规内容的智能判断方法的步骤。
47.本发明提供的技术方案,具有如下有益效果:
48.本发明提供的多模态违规内容的智能判断方法、系统、设备及存储介质,本发明获取输入数据,所述输入数据至少包括语音输入、文本数据和图像输入三者中的任一种,并将所述输入数据中的语音输入、文本数据和图像输入分别转化为第一特征向量、第二特征向量和第三特征向量,以获得特征向量组合;将所述特征向量组合合并为第四特征向量;获取位置输入,并利用所述位置输入对第四特征向量进行位置编码,获得第一序列;将第一序列压缩成指定长度的第一向量,所述第一向量可以看成是所述第一序列的语义;基于所述第一向量生成第二序列和第一类别;将第二序列压缩成指定长度的第三向量;基于所述第三向量和第一向量之和,生成第三序列和第二类别;本发明实现对多模态的信息进行分类。
49.本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
50.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
51.图1为本发明一个实施例的多模态违规内容的智能判断方法的流程图。
52.图2为本发明一个实施例的多模态违规内容的智能判断系统的结构框图一。
53.图3为本发明一个实施例的多模态违规内容的智能判断系统的结构框图二。
54.图4为本发明一个实施例的多模态违规内容的智能判断系统中输入模块的结构框图。
55.图5为本发明一个实施例的一种设备的结构框图。
56.图中:输入模块-100、特征合并层-200、位置编码层-300、第一特征编码层-400、第一特征解码层-500、第二特征编码层-600、残差结构-700、第二特征解码层-800、语音编码层-101、文本编码层-102、图像编码层-103、处理器-901、通信接口-902、存储器-903、通信总线-904。
具体实施方式
57.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完
整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
58.附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
59.应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
60.具体地,下面结合附图,对本发明实施例作进一步阐述。
61.请参阅图1,图1是本发明实施例提供的一种多模态违规内容的智能判断方法的流程图,如图1所示,该多模态违规内容的智能判断方法包括步骤s10至步骤s70。
62.s10、获取输入数据,所述输入数据至少包括语音输入、文本数据和图像输入三者中的任一种,并将所述输入数据中的语音输入、文本数据和图像输入分别转化为第一特征向量、第二特征向量和第三特征向量,以获得特征向量组合;所述第一特征向量、第二特征向量和第三特征向量分别属于a维向量空间中的特征向量、b维向量空间中的特征向量和c维向量空间中的特征向量。如此实现了自动对特征进行提取。所述a、b和c为正整数。
63.所述s10、还包括:对特征向量组合中未包括的任一种第一特征向量、第二特征向量和第三特征向量,进行掩码处理。
64.s20、将所述特征向量组合合并为第四特征向量;所述第四特征向量为n维空间中的特征向量。可以对多个模态的输入进行统一的特征处理。n为正整数。
65.s30、获取位置输入,并利用所述位置输入对第四特征向量进行位置编码,获得第一序列。加入了位置信息后的特征能够区分字符相同,顺序不同的输入,也能在训练时计算梯度时忽略输入时不存在的模态的误差,在推理时忽略输入时不存在的模态输入。
66.s40、将第一序列压缩成指定长度的第一向量,所述第一向量可以看成是所述第一序列的语义。
67.s50、基于所述第一向量生成第二序列和第一类别。
68.s60、将第二序列压缩成指定长度的第三向量。
69.s70、基于所述第三向量,生成第三序列和第二类别,解决训练时梯度消失的问题。
70.本发明方法还包括将所述s70、替换为,基于所述第三向量和第一向量之和,生成第三序列和第二类别,解决训练时梯度消失的问题。
71.第一序列压缩成指定长度的第一向量,所述第一向量可以看成是所述第一序列的语义。
72.本发明获取输入数据,所述输入数据至少包括语音输入、文本数据和图像输入三者中的任一种,并将所述输入数据中的语音输入、文本数据和图像输入分别转化为第一特征向量、第二特征向量和第三特征向量,以获得特征向量组合;将所述特征向量组合合并为第四特征向量;获取位置输入,并利用所述位置输入对第四特征向量进行位置编码,获得第一序列;将第一序列压缩成指定长度的第一向量,所述第一向量可以看成是所述第一序列的语义;基于所述第一向量生成第二序列和第一类别;将第二序列压缩成指定长度的第三
向量;基于所述第三向量和第一向量之和,生成第三序列和第二类别;本发明实现对多模态的信息进行分类。
73.在本发明的方案中可以对任意的输入第n个向量,然后生成第n序列和第n-1类别。
74.应该理解的是,上述虽然是按照某一顺序描述的,但是这些步骤并不是必然按照上述顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,本实施例的一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
75.在一个实施例中,参见图2所示,在本发明的实施例中还提供了多模态违规内容的智能判断系统,该系统包括输入模块100、特征合并层200、位置编码层300、第一特征编码层400、第一特征解码层500、第二特征编码层600、残差结构800和第二特征解码层700。
76.所述输入模块100,用于获取输入数据,所述输入数据至少包括语音输入、文本数据和图像输入三者中的任一种,并将所述输入数据中的语音输入、文本数据和图像输入分别转化为第一特征向量、第二特征向量和第三特征向量,以获得特征向量组合。
77.其中,所述第一特征向量、第二特征向量和第三特征向量分别属于a维向量空间中的特征向量、b维向量空间中的特征向量和c维向量空间中的特征向量。如此实现了自动对特征进行提取。所述a、b和c为正整数。
78.参见图4所示,在本发明的实施例中,所述输入模块100包括语音编码层101、文本编码层102和图像编码层103;
79.所述语音编码层101,用于将语音输入转化为第一特征向量;还用于当未包括语音输入时,对第一特征向量进行掩码处理;
80.所述文本编码层102,用于将文本输入转化为第二特征向量;还用于当未包括文本输入时,对第二特征向量进行掩码处理;
81.所述图像编码层103,用于将图像输入转化为第三特征向量;还用于当未包括图像输入时,对第三特征向量进行掩码处理。
82.如此进而能够将各种输入全部转化为特征向量。所述语音编码层101、文本编码层102和图像编码层103实现了特征的自动提取。
83.所述特征合并层200,用于将所述特征向量组合合并为第四特征向量。如此可以对多个模态的输入进行统一的特征处理。n为正整数。
84.所述位置编码层300,用于获取位置输入,并利用所述位置输入对第四特征向量进行位置编码,获得第一序列。如此对特征进行位置编码,加入了位置信息后的特征能够区分字符相同,顺序不同的输入,也能在训练时计算梯度时忽略输入时不存在的模态的误差,在推理时忽略输入时不存在的模态输入。
85.在本发明实施例中,所述位置编码层300不仅具有位置编码,还有位置掩码的作用,位置编码层300针对位置信息的输入,可以先对位置进行编码,然后进行掩码去除输入中不存在的模态,也可以先进行掩码,再对位置进行编码,因此所述位置编码层300可以替换为位置掩码层和位置掩码层。
86.所述第一特征编码层400,用于将第一序列压缩成指定长度的第一向量,所述第一
向量可以看成是所述第一序列的语义。
87.所述第一特征解码层500,用于基于所述第一向量生成第二序列和第一类别。
88.所述第二特征编码层600,用于将第二序列压缩成指定长度的第三向量。
89.所述第二特征解码层700,用于基于所述第三向量生成第三序列和第二类别。
90.参见图3所示,在本发明实施例中,还包括残差结构800,用于将第一向量传递给所述第二特征解码层700。设置残差结构800将特征进行跨层链接传输,作为主干网络层旁边的额外通道,用于解决训练时梯度消失的问题。
91.在本发明实施例中,所述第二特征解码层700,还可以用于基于所述第三向量和第一向量之和生成第三序列和第二类别。
92.本发明中第一特征解码层500和第二特征解码层700最后一层有两个输出,即序列输出和类别输出,类别输出用于判断输入是否属于违规内容,序列输出是对输入的一个文本还原。
93.所述语音编码层101、所述文本编码层102、所述图像编码层103、所述第一特征解码层500和第二特征编码层600,用于将信息映射进行各种非线性变换后,以对信息进行高度的概括和提炼,形成低秩的向量,所述语音编码层101、所述文本编码层102、所述图像编码层103、所述第一特征解码层500和第二特征编码层600均包括但不限于如卷积、反卷积、空洞卷积层、池化、注意力机制、归一等。
94.所述语音编码层101、所述文本编码层102、所述图像编码层103、所述第一特征编码层400、第一特征解码层500、第二特征编码层600和第二特征解码层700均属于encoder-decoder神经网络结构。其中encoder用于将输入序列压缩成指定长度的向量,所述向量就可以看成是这个序列的语义,这个过程称为编码,而decoder用于根据语义向量生成指定的序列,这个过程也称为解码。
95.第一特征解码层500和第二特征解码层700为系统中间的监督层。
96.本发明系统训练数据包括标签序列p和标签类别为q,本系统的损失函数分别为序列损失loss_o和类别损失loss_l。
97.本发明系统的总损失函数通过如下公式进行计算:
[0098][0099]
其中,loss表示为总损失函数,n表示中间监督的数量,o_i表示第i个中间监督层的序列输出,l_i表示第i个中间监督层的类别输出,i为正整数。(i大于等于1,当等于1时,即无中间监督层,只存在顶层的输出,当i等于2时,有一个中间监督层,以此类推)。
[0100]
本发明获取输入数据,所述输入数据至少包括语音输入、文本数据和图像输入三者中的任一种,并将所述输入数据中的语音输入、文本数据和图像输入分别转化为第一特征向量、第二特征向量和第三特征向量,以获得特征向量组合;将所述特征向量组合合并为第四特征向量;获取位置输入,并利用所述位置输入对第四特征向量进行位置编码,获得第一序列;将第一序列压缩成指定长度的第一向量,所述第一向量可以看成是所述第一序列的语义;基于所述第一向量生成第二序列和第一类别;将第二序列压缩成指定长度的第三向量;基于所述第三向量和第一向量之和,生成第三序列和第二类别;本发明实现对多模态的信息进行分类。
[0101]
在一个实施例中,参见图5所示,在本发明的实施例中还提供了一种设备,包括处理器901、通信接口902、存储器903和通信总线904,其中,处理器901,通信接口902,存储器903通过通信总线904完成相互间的通信。
[0102]
存储器903,用于存放计算机程序;
[0103]
处理器901,用于执行存储器903上所存放的计算机程序时,执行所述的多模态违规内容的智能判断方法,该处理器执行指令时实现上述方法实施例中的步骤。
[0104]
上述终端提到的通信总线可以是外设部件互连标准(peripheral componentinterconnect,简称pci)总线或扩展工业标准结构(extended industry standardarchitecture,简称eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0105]
通信接口用于上述终端与其他设备之间的通信。
[0106]
存储器可以包括随机存取存储器(random access memory,简称ram),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
[0107]
上述的处理器可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processing,简称dsp)、专用集成电路(application specificintegrated circuit,简称asic)、现场可编程门阵列(field-programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0108]
所述设备包括用户设备与网络设备。其中,所述用户设备包括但不限于电脑、智能手机、pda等;所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(cloud computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,所述设备可单独运行来实现本发明,也可接入网络并通过与网络中的其他设备的交互操作来实现本发明。其中,所述设备所处的网络包括但不限于互联网、广域网、城域网、局域网、vpn网络等。
[0109]
还应当进理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0110]
在本发明的一个实施例中还提供了一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法实施例中的步骤。
[0111]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。
[0112]
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一
个以上相关联地列出的项目的任意和所有可能组合。上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
[0113]
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。
技术特征:
1.一种多模态违规内容的智能判断方法,其特征在于,该方法包括:获取输入数据,所述输入数据至少包括语音输入、文本数据和图像输入三者中的任一种,并将所述输入数据中的语音输入、文本数据和图像输入分别转化为第一特征向量、第二特征向量和第三特征向量,以获得特征向量组合;将所述特征向量组合合并为第四特征向量;获取位置输入,并利用所述位置输入对第四特征向量进行位置编码,获得第一序列;将第一序列压缩成指定长度的第一向量;基于所述第一向量生成第二序列和第一类别;将第二序列压缩成指定长度的第三向量;基于所述第三向量生成第三序列和第二类别。2.如权利要求1所述的多模态违规内容的智能判断方法,其特征在于,所述第一特征向量、第二特征向量和第三特征向量分别属于a维向量空间中的特征向量、b维向量空间中的特征向量和c维向量空间中的特征向量,其中所述a、b和c为正整数。3.如权利要求1所述的多模态违规内容的智能判断方法,其特征在于,所述第四特征向量为n维空间中的特征向量,n为正整数。4.一种多模态违规内容的智能判断系统,其特征在于,该系统包括:输入模块、特征合并层、位置编码层、第一特征编码层、第一特征解码层、第二特征编码层、残差结构和第二特征解码层;所述输入模块,用于获取输入数据,所述输入数据至少包括语音输入、文本数据和图像输入三者中的任一种,并将所述输入数据中的语音输入、文本数据和图像输入分别转化为第一特征向量、第二特征向量和第三特征向量,以获得特征向量组合;所述特征合并层,用于将所述特征向量组合合并为第四特征向量;所述位置编码层,用于获取位置输入,并利用所述位置输入对第四特征向量进行位置编码,获得第一序列;所述第一特征编码层,用于将第一序列压缩成指定长度的第一向量;所述第一特征解码层,用于基于所述第一向量生成第二序列和第一类别;所述第二特征编码层,用于将第二序列压缩成指定长度的第三向量;所述残差结构,用于将第一向量传递给所述第二特征解码层;所述第二特征解码层,用于基于所述第三向量生成第三序列和第二类别。5.如权利要求4所述的多模态违规内容的智能判断系统,其特征在于,所述输入模块包括语音编码层、文本编码层和图像编码层;所述语音编码层,用于将语音输入转化为第一特征向量;还用于当未包括语音输入时,对第一特征向量进行掩码处理;所述文本编码层,用于将文本输入转化为第二特征向量;还用于当未包括文本输入时,对第二特征向量进行掩码处理;所述图像编码层,用于将图像输入转化为第三特征向量;还用于当未包括图像输入时,对第三特征向量进行掩码处理。6.如权利要求5所述的多模态违规内容的智能判断系统,其特征在于,所述语音编码层、所述文本编码层、所述图像编码层、所述第一特征解码层和第二特征编码层均包括卷
积、反卷积、空洞卷积、池化、注意力机制和归一。7.如权利要求5所述的多模态违规内容的智能判断系统,其特征在于,所述语音编码层、所述文本编码层、所述图像编码层、所述第一特征编码层、第一特征解码层、第二特征编码层和第二特征解码层均属于encoder-decoder神经网络结构。8.如权利要求1所述的多模态违规内容的智能判断系统,其特征在于,该系统训练数据包括标签序列p和标签类别为q,该系统的损失函数分别为序列损失loss_o和类别损失loss_l;该系统的总损失函数通过如下公式进行计算:其中,loss表示为总损失函数,n表示中间监督的数量,o_i表示第i个中间监督层的序列输出,l_i表示第i个中间监督层的类别输出,i为正整数;i大于等于,当等于时,即无中间监督层,只存在顶层的输出,当i等于时,有一个中间监督层,以此类推。9.一种设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器加载并执行所述计算机程序时实现如权利要求1-3任一项所述的多模态违规内容的智能判断方法的步骤。10.一种存储介质,存储有计算机程序,所述计算机程序被处理器加载并执行时实现如权利要求1-3任一项所述的多模态违规内容的智能判断方法的步骤。
技术总结
本发明涉及网络通信技术领域,具体涉及多模态违规内容的智能判断方法、系统、设备及存储介质。该方法获取输入数据,输入数据包括语音输入、文本数据和图像输入,并将输入数据转化为第一特征向量、第二特征向量和第三特征向量;将第一特征向量、第二特征向量和第三特征向量合并为第四特征向量;获取位置输入,并利用位置输入对第四特征向量进行位置编码,获得第一序列;将第一序列压缩成指定长度的第一向量,第一向量可以看成是第一序列的语义;基于第一向量生成第二序列和第一类别;将第二序列压缩成指定长度的第三向量;基于第三向量生成第三序列和第二类别;本发明实现对多模态的信息进行分类。息进行分类。息进行分类。
技术研发人员:刘文桂 徐骏捷 沈在鑫
受保护的技术使用者:厦门鹅卵石网络科技有限公司
技术研发日:2023.03.14
技术公布日:2023/7/18
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
