一种神经网络的训练方法以及相关装置与流程

未命名 08-15 阅读：222 评论：0

1.本技术涉及人工智能技术领域，尤其涉及一种神经网络的训练方法以及相关装置。

背景技术：

2.随着互联网的发展，各种图文信息的发布量以指数级速度增长，这些图文信息的来源渠道和质量层次不齐。因此，在图文信息分发至用户前，对具体的内容进行人工审核和标记，将存在质量问题的图片过滤处理。
3.目前采用的方法是通过机器学习辅助算法对内容进行识别，通常神经网络模型的迭代过程如下：需求确定、数据采集、模型训练、模型测试与上线。由于图文信息的种类非常广泛，因此，模型训练时为了保证模型的训练精度，需要使用种类分布广泛的训练数据。
4.对这些训练数据的标签信息，目前需要人工标记。大量的训练数据导致模型的训练成本较高，进而导致模型的训练效率较低。

技术实现要素：

5.本技术实施例提供了一种神经网络的训练方法以及相关装置。预训练数据包括多张图片以及多张图片的标签信息，由于该图片的标签信息为该图片来源天然具有的属性信息，具有容易获取的特点。因此，可以容易获取大量的预训练数据。基于该预训练数据，对预训练模型进行训练得到图片神经网络，可以有效提升神经网络模型的训练效率和训练精度。该预训练模型采用自监督训练，可以有效提升训练效率和训练精度。
6.有鉴于此，本技术一方面提供一种神经网络的训练方法，其特征在于，包括：
7.获取预训练数据，预训练数据包括多张图片和多张图片对应的标签信息，多张图片包括以下一项或多项：
8.视频文件中的抽帧图，其中，抽帧图对应的标签信息为视频文件的标签信息，
9.或者，图文信息的图片，其中，图文信息的图片对应的标签信息为图文信息的标题或者摘要信息，
10.或者，基于目标标签信息搜索得到的公共图片，其中，将目标标签信息作为公共图片对应的标签信息；
11.根据预训练数据对预训练模型进行自监督训练，得到图片神经网络，其中，图片神经网络用于获取图片的嵌入embedding特征。
12.本技术另一方面提供一种神经网络训练装置，包括：
13.收发模块，用于获取预训练数据，预训练数据包括多张图片和多张图片对应的标签信息，多张图片包括以下一项或多项：
14.视频文件中的抽帧图，其中，抽帧图对应的标签信息为视频文件的标签信息，
15.或者，图文信息的图片，其中，图文信息的图片对应的标签信息为图文信息的标题或者摘要信息，
16.或者，基于目标标签信息搜索得到的公共图片，其中，将目标标签信息作为公共图片对应的标签信息；
17.处理模块，用于根据预训练数据对预训练模型进行自监督训练，得到图片神经网络，其中，图片神经网络用于获取图片的嵌入embedding特征。
18.在本技术实施例的另一方面的另一种实现方式中，神经网络训练装置，还包括：
19.处理模块，还用于根据预训练数据，采用对比学习方式对预训练模型进行自监督训练，得到图片神经网络，其中，预训练数据中多张图片对应的标识信息作为训练中的监督信号。
20.在本技术实施例的另一方面的另一种实现方式中，视频文件中的抽帧图包括：同一视频文件中临近的多个视频帧对应的抽帧图，和/或，不同视频文件中视频帧对应的抽帧图；
21.图文信息的图片包括：图文信息的封面图片，图文信息的正文图片，和/或，图文信息的摘要图片。
22.在本技术实施例的另一方面的另一种实现方式中，神经网络训练装置，还包括：
23.收发模块，还用于获取多个视频文件；
24.处理模块，还用于对多个视频文件进行去重处理，得到去重后的多个视频文件；
25.处理模块，还用于从去重后的多个视频文件中提取视频文件中的抽帧图。
26.在本技术实施例的另一方面的另一种实现方式中，神经网络训练装置，还包括：
27.处理模块，还用于对预训练模型进行知识蒸馏处理，得到图片神经网络。
28.在本技术实施例的另一方面的另一种实现方式中，神经网络训练装置，还包括：
29.收发模块，还用于获取业务样本，业务样本包括一张或多张图片，和图片对应的标识信息；
30.处理模块，还用于使用业务样本对预训练模型进行微调处理，得到微调后的预训练模型。
31.在本技术实施例的另一方面的另一种实现方式中，神经网络训练装置，还包括：
32.收发模块，还用于获取第一标签信息集合，第一标签信息集合包括以下一项或多项：一个或多个视频文件的标签信息，或者，一个或多个图文信息的标签信息；
33.处理模块，还用于对第一标签信息集合进行去重处理，得到目标标签信息；
34.处理模块，还用于基于目标标签信息通过搜索引擎获取多张待筛选公共图片；
35.处理模块，还用于剔除多张待筛选公共图片中分辨率低于第一阈值的图片，得到公共图片。
36.本技术另一方面提供一种计算机设备，包括：存储器、处理器以及总线系统；
37.其中，存储器用于存储程序；
38.处理器用于执行存储器中的程序，处理器用于根据程序代码中的指令执行上述各方面的方法；
39.总线系统用于连接存储器以及处理器，以使存储器以及处理器进行通信。
40.本技术的另一方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法。
41.本技术的另一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序
产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方面所提供的方法。
42.从以上技术方案可以看出，本技术实施例具有以下优点：
43.首先，获取预训练数据，预训练数据包括多张图片和多张图片对应的标签信息，多张图片包括以下一项或多项：视频文件中的抽帧图，其中，抽帧图对应的标签信息为视频文件的标签信息，或者，图文信息的图片，其中，图文信息的图片对应的标签信息为图文信息的标题或者摘要信息，或者，基于目标标签信息搜索得到的公共图片，其中，将目标标签信息作为公共图片对应的标签信息；然后，根据预训练数据对预训练模型进行自监督训练，得到图片神经网络，其中，预训练模型的主干网络包括swin transformer网络，图片神经网络用于获取图片的嵌入embedding特征。
44.本技术中，预训练数据包括多张图片以及多张图片的标签信息，由于该图片的标签信息为该图片来源天然具有的属性信息，具有容易获取的特点。因此，可以容易获取大量的预训练数据。基于该预训练数据，对预训练模型进行训练得到图片神经网络，可以有效提升神经网络模型的训练效率和训练精度。该预训练模型采用自监督训练，可以有效提升训练效率和训练精度。该预训练模型的主干网络包括swin transformer网络，在节省训练时间的同时，可以保证较高的训练精度。
附图说明
45.图1为本技术实施例中神经网络的训练方法的应用架构示意图；
46.图2为本技术提出的神经网络训练系统的结构示意图；
47.图3为本技术实施例提出的一种神经网络的训练方法的实施例示意图；
48.图4为本技术实施例提出的对比学习示意图；
49.图5为本技术实施例中对预训练模型进行训练的流程示意图；
50.图6为本技术实施例中提出的一种神经网络训练装置示意图；
51.图7是本技术实施例提供的一种服务器结构示意图；
52.图8是本技术实施例提供的一种终端设备结构示意图。
具体实施方式
53.本技术实施例提供了一种神经网络的训练方法，预训练数据包括多张图片以及多张图片的标签信息，由于该图片的标签信息为该图片来源天然具有的属性信息，具有容易获取的特点。因此，可以容易获取大量的预训练数据。基于该预训练数据，对预训练模型进行训练得到图片神经网络，可以有效提升神经网络模型的训练效率和训练精度。该预训练模型采用自监督训练，可以有效提升训练效率和训练精度。
54.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、
产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
55.这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的方法的例子。
56.人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
57.人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
58.自然语言处理(nature language processing，nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
59.机器学习(machine learning，ml)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
60.随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。
61.参阅图1所示，图1为本技术实施例中神经网络的训练方法的应用架构示意图，包括服务器100、终端设备200。
62.终端设备200可以是智能手机、电脑、游戏主机、台式计算机、平板电脑、智能语音交互设备、智能家电、车载终端、飞行器、电子书阅读器、mp3(moving picture experts group audio layer iii，动态影像专家压缩标准音频层面3)播放器或mp4(moving picture experts group audio layer iv，动态影像专家压缩标准音频层面4)播放器，膝上型便携计算机中的至少一种。终端设备200安装和运行有神经网络的训练方法的应用程序，例如，该应用程序能够是编译程序、汇编程序等语言处理应用。
63.终端设备200与服务器100之间可以通过无线网络或者有线网络相连，实现相互之间的通信。可选地，上述的无线网络或者有线网络使用标准通信技术和/或协议。无线网络或者有线网络通常为因特网、但也可以是任何网络，包括但不限于局域网(local area network，lan)、城域网(metropolitan areanetwork，man)、广域网(wide area network，wan)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中，使用包括超文本标记语言(hyper text mark-up language，html)、可扩展标记语言(extensible markup language，xml)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(secure socketlayer，ssl)、传输层安全(transport layer security，tls)、虚拟专用网络(virtualprivate network，vpn)、网际协议安全(internet protocol security，ipsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
64.服务器100可以为终端设备200提供各种网络服务，其中，服务器100可以是一台服务器、若干台服务器组成的服务器集群或云计算中心。
65.具体地，服务器100可以包括处理器110(center processing unit，cpu)、存储器120、输入设备130和输出设备140等，输入设备130可以包括键盘、鼠标、触摸屏等，输出设备140可以包括显示设备，如液晶显示器(liquid crystal display，lcd)、阴极射线管(cathode ray tube，crt)等。
66.存储器120可以包括只读存储器(rom)和随机存取存储器(ram)，并向处理器110提供存储器120中存储的程序指令和数据。在本技术实施例中，存储器120可以用于存储本技术实施例中神经网络的训练方法的程序。
67.处理器110通过调用存储器120存储的程序指令，处理器110用于按照获得的程序指令执行本技术实施例中任一种神经网络的训练方法的步骤。
68.需要说明的是，本技术实施例中，神经网络的训练方法主要由服务器100侧执行，例如，终端设备200可以将采集到的多种图片，发送给服务器100，由服务器100对该多种图片进行处理得到预训练数据。然后服务器100根据预训练数据对预训练模型进行训练，得到图片神经网络。服务器100可以使用该图片神经网络对信息流的图片进行分发筛选处理，并可以将分发筛选结果返回给终端设备200。如图1所示的应用架构，是以应用于服务器100侧为例进行说明的，当然，本技术实施例中神经网络的训练方法也可以由终端设备200执行，例如终端设备200可以从服务器100侧获得预训练模型，从而根据预训练数据对该预训练模型进行训练，得到图片神经网络。终端设备200可以使用该图片神经网络对信息流的图片进行分发筛选处理，然后将分发筛选结果展示给终端设备200的使用者。对此本技术实施例中并不进行限制。
69.另外，本技术实施例中的应用架构图是为了更加清楚地说明本技术实施例中的技术方案，并不构成对本技术实施例提供的技术方案的限制，当然，也并不仅限于神经网络训练应用，对于其它的应用架构和业务应用，本技术实施例提供的技术方案对于类似的问题，同样适用。
70.(1)神经网络
71.神经网络可以是由神经单元组成的，神经单元可以是指以xs和截距1为输入的运算单元，该运算单元的输出可以为：
72.其中，s＝1、2、
……
n，n为大于1的自然数，ws为xs的权重，b为神经单元的偏置。f为神经单元的激活函数(activation functions)，用于将非线性特性引入神经网络中，来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入，激活函数可以是sigmoid函数。神经网络是将多个上述单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。
73.(2)transformer层
74.神经网络可以包括嵌入层和至少一个transformer层，至少一个transformer层可以为n个transformer层(n大于0的整数)，其中，每个transformer层包括依次相邻的注意力层、加和与归一化(add&norm)层、前馈(feed forward)层和加和与归一化层。在嵌入层，对当前输入进行嵌入处理，得到多个特征向量；在该注意力层，从该第一transformer层的上一层获取p个输入向量，以p个输入向量中的任意的第一输入向量为中心，基于预设的注意力窗口范围内的各个输入向量与该第一输入向量之间的关联度，得到该第一输入向量对应的中间向量，如此确定出p个输入向量对应的p个中间向量；在该池化层，将该p个中间向量合并为q个输出向量，其中transformer层中最后一个transformer层得到的多个输出向量用作该当前输入的特征表示。
75.接下来，结合具体例子对上述各步骤进行具体介绍。
76.首先，在该嵌入层，对当前输入进行嵌入处理，得到多个特征向量。
77.嵌入层可以称为输入嵌入(input embedding)层。当前输入可以为文本输入，例如可以为一段文本，也可以为一个句子。文本可以为中文文本，也可以为英文文本，还可以为其他语言文本。嵌入层在获取当前输入后，可以对该当前输入中各个词进行嵌入处理，可得到各个词的特征向量。在一些实施例中，如图1所示，该嵌入层包括输入嵌入层和位置编码(positional encoding)层。在输入嵌入层，可以对当前输入中的各个词进行词嵌入处理，从而得到各个词的词嵌入向量。在位置编码层，可以获取各个词在该当前输入中的位置，进而对各个词的位置生成位置向量。在一些示例中，各个词的位置可以为各个词在该当前输入中的绝对位置。以当前输入为“几号应还花呗”为例，其中的“几”的位置可以表示为第一位，“号”的位置可以表示为第二位，
……
。在一些示例中，各个词的位置可以为各个词之间的相对位置。仍以当前输入为“几号应还花呗”为例，其中的“几”的位置可以表示为“号”之前，“号”的位置可以表示为“几”之后、“应”之前，
……
。当得到当前输入中各个词的词嵌入向量和位置向量时，可以将各个词的位置向量和对应的词嵌入向量进行组合，得到各个词特征向量，即得到该当前输入对应的多个特征向量。多个特征向量可以表示为具有预设维度的嵌入矩阵。可以设定该多个特征向量中的特征向量个数为m，预设维度为h维，则该多个特征向量可以表示为m
×
h的嵌入矩阵。
78.其次，可以从transformer层的上一层获取p个输入向量，以p个输入向量中的任意的输入向量为中心，基于预设的注意力窗口范围内的各个输入向量与该输入向量之间的关联度，得到该输入向量对应的中间向量，如此确定出p个输入向量对应的p个中间向量。注意力层也可以称为多头注意力(multi-head attention)层。在一个例子中，注意力层可以为固定窗口多头注意力(fixed window multi-head attention)层。
79.本技术实施例中，基于神经网络搜索对transformer层进行了架构的重新设计。
80.(3)注意力机制(attention mechanism)
81.注意力机制模仿了生物观察行为的内部过程，即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制，能够利用有限的注意力资源从大量信息中快速筛选出高价值信息。注意力机制可以快速提取稀疏数据的重要特征，因而被广泛用于自然语言处理任务，特别是机器翻译。而自注意力机制(self-attention mechanism)是注意力机制的改进，其减少了对外部信息的依赖，更擅长捕捉数据或特征的内部相关性。注意力机制的本质思想可以改写为如下公式：
82.其中，lx＝||source||代表source的长度，公式含义即将source中的构成元素想象成是由一系列的数据对构成，此时给定目标target中的某个元素query，通过计算query和各个key的相似性或者相关性，得到每个key对应value的权重系数，然后对value进行加权求和，即得到了最终的attention数值。所以本质上attention机制是对source中元素的value值进行加权求和，而query和key用来计算对应value的权重系数。从概念上理解，把attention可以理解为从大量信息中有选择地筛选出少量重要信息并聚焦到这些重要信息上，忽略大多不重要的信息。聚焦的过程体现在权重系数的计算上，权重越大越聚焦于其对应的value值上，即权重代表了信息的重要性，而value是其对应的信息。自注意力机制可以理解为内部attention(intra attention)，attention机制发生在target的元素query和source中的所有元素之间，自注意力机制指的是在source内部元素之间或者target内部元素之间发生的attention机制，也可以理解为target＝source这种特殊情况下的注意力计算机制，其具体计算过程是一样的，只是计算对象发生了变化而已。
83.(4)神经网络压缩
84.其中，压缩可以包括如下方式的至少一种：模型裁剪、权重共享、核稀疏(正则)、量化、二值化、low-rank分解等等。
85.其中，量化，即为神经网络的量化(neural network quantization)，是将浮点存储(运算)转换为整型存储(运算)的一种模型压缩技术，例如，原来一个模型的模型参数使用float32(32位的浮点)表示，量化后该模型的模型参数使用int8(8位的定点)表示，通过模型的量化操作，以较小的精度损失为代价，提高模型的运算速度。
86.模型的量化的本质是两种数据类型的数据之间的转换/映射，其中，在将浮点数据(数据类型为浮点的数据)转换为定点数据(数据类型为定点的数据)的一种实现方式中，可以通过如下公式：
87.其中，r为输入的浮点数据，q为浮点数据r量化之后的定点数据，z表示0点值(zeropoint)，s表示比例，可见，确定s和z后，既可进行这两个数据之间的转换。s和z的确定方式很多，例如：
88.z＝qmax-rmax/s；
89.其中，rmax表示输入浮点数据的最大值，rmin表示输入浮点数据的最小值，qmax表示定点数据的最大的值，rmin表示定点数据的最小值。
90.其中，不同比特数(位数，1比特＝1位)的定点数据之间的转换可以参照上述浮点数据和定点数据之间的转换方式，也可以是现有技术中其他的转换方式，这里不再赘述。
91.在一种实现中，4比特和8比特可以参照上述的转换方式进行，而浮点数据和2比特
(1比特)转换的一种实现方式可通过如下公式进行：
92.其中2比特可表示为三个数-1,0,1。t为阈值，浮点数据大于等于t时，转换得到的2比特的定点数据为1。浮点数据小于-t时，其值转换为-1。浮点数据为其他值时，其值转换为0。1比特的转换方式和2比特类似，但其定点值只有-1和1，其中t值为0。
93.其中，剪枝可以理解为将网络中的部分网络结构去除。
94.在模型压缩后，存储压缩后的模型所需的存储资源会降低，为了保证压缩后的模型的精度，可以对压缩后的模型进行知识蒸馏，具体的，可以将压缩前的模型作为老师模型，压缩后的模型作为学生模型，对学生模型进行知识蒸馏(knowledge distillation)，或者简称为蒸馏。
95.其中，老师(teacher)模型也可以称之为教师模型、指导模型等，这里并不限定。
96.在进行知识蒸馏时，可以通过采用压缩前的模型(预先训练好的复杂网络)去训练压缩后的模型(另外一个简单的网络)，以使得简单的网络可以具有和复杂网络相同或相似的数据处理能力。所谓知识蒸馏就是将训练好的复杂网络具有的“知识”迁移到一个结构更为简单的网络中。其中，上述简单的网络相比于复杂的网络可以具有更少的参数量。
97.自蒸馏(self-distillation)则指的是自己蒸馏到自己，teacher model就是student model的集成版本，称为自集成(self-ensemble)。通过蒸馏，提升模型的泛化性，同时能够降低模型的大小，提升模型的部署后的性能，在工程落地和实施上有很重要的意义。
98.需要说明的是，上述相同或相似的数据处理能力可以理解为，在处理相同的待处理数据时，知识蒸馏后的学生模型和老师模型得到处理结果是相同或相似的。
99.(5)损失函数
100.在训练深度神经网络的过程中，因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断的调整，直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。
101.在进行知识蒸馏时，需要基于老师模型的输出以及学生模型的输出来构建损失，其中，用于构建损失的模型输出可以是模型的输出层的输出，也可以是中间网络层的中间特征图输出，或者是对输出层的输出和/或中间网络层的中间特征图输出进行处理得到的结果。
102.接下来，结合附图介绍本技术实施例提出的一种神经网络的训练方法，该神经网络的训练方法所应用的系统称为神经网络训练系统。首先，结合附图介绍该神经网络训练系统。请参阅图2，图2为本技术提出的神经网络训练系统的结构示意图。本技术提出的神经网络训练系统包括：预训练数据库、内容生产端、内容数据库、内容消费端、图片业务单元、
神经网络训练单元和互联网。
103.预训练数据库，该预训练数据库可以从内容生产端、内容数据库和内容消费端获取训练神经网络的相关数据。
104.具体的，内容生产端可以包括：专业生产内容(professionally-generated content，pgc)或者用户生产内容(user-generated content，ugc)，多频道网络(multi-channel network，mcn)或者专业用户生产内容(professional generated content+user generated content，pugc)的内容生产者。上述内容生产端可以通过终端设备或者后端应用程序接口(application programming interface，api)提供图文信息和/或视频文件。该图文信息包括但不限于自媒体文章、自媒体图集、或者包括图片和文字的文件、包括图片和文字的网页等。该图文信息还可以是新闻订阅、网源(web feed)、推送、馈送、博客、微博或者摘要等。
105.内容生产端所提供(或者生产)的图文信息和/或视频文件可以通过上下行内容接口服务传输至内容数据库。具体的，内容生产端首先获取内容数据库的接口地址，然后，内容生产端将图文信息和/或视频文件上传至内容数据库。
106.可选的，内容生产端还可以将内容消费端的行为数据上传至内容数据库。该行为数据包括但不限于：阅读速度、播放完成率、阅读时间、卡顿时间、加载时间或者点击次数。
107.内容数据库用于存储各类内容生产者所发布的元信息。该元信息包括但不限于：视频文件、图文文件、封面图链接、视频文件的码率、视频文件的文件格式、图文信息的文件格式、标题、发布时间、作者、视频文件的大小、图文信息的大小、是否为原创的标记、是否为首次发布的标记，或者审核过程中对内容的分类信息。示例性的，审核过程中对内容的分类信息包括：多级分类信息和标签(tag)信息，以讲解a厂家的b手机的图文信息为例，则一级分类信息为：科技，二级分类信息为：智能手机，三级分类信息为：国内手机，标签信息为：a厂家，b手机。
108.内容消费端可以是用户，该用户观看/播放/下载/读取图文信息(和/或视频)。示例性的，内容消费端可以通过边缘部署的内容分发网络(content delivery network，cdn)获取图文信息。内容消费端可以通过视频服务器获取视频。通常，内容消费端通过信息流(feeds)方式浏览图文信息和/或视频。因此，内容消费端可以将图文信息和/或视频上传至预训练数据库中，图文信息和/或视频作为训练样本以便后续训练图片神经网络。
109.神经网络训练系统除了将训练样本存储在数据库以外，神经网络训练系统还可以从互联网中获取公共图片，该公共图片作为训练样本。
110.该神经网络训练系统还包括：图片业务单元和神经网络训练单元。
111.神经网络训练单元用于从多种渠道获取预训练数据，然后使用预训练数据对预训练模型进行训练得到图片神经网络。具体描述请参阅后续实施例。
112.图片业务单元基于神经网络训练单元所训练得到的图片神经网络，处理多种图片业务。
113.具体的，图片业务单元中使用图片神经网络从图片中提取图片特征，该图片特征包括但不限于：清晰度打分，美观度打分，不适图片内容子类，马赛克标记，水印标记，或者完整性标记等。基于图片特征和图片神经网络构建原子模型，该原子模型清晰度，美观度，拼接图，不适图片，图片指纹，图片完整性等。图片业务单元根据上述原子模型或者原子模
型提取的图片特征提供图片处理服务。该图片处理服务包括但不限于：图片审核、图片选图、图片智能裁剪，或者图片去重等。示例性的，图片审核包括：审核图文信息中的图片，或者审核视频文件的封面图或者抽帧图。图片业务单元基于图片审核结果分发图文信息或者视频至内容消费端。
114.可以理解的是，除了图2示意的单元或者组件外，神经网络训练系统还可以包括其它的单元或者组件，例如：调度中心服务组件，该调度中心服务组件负责视频和图文信息的调度流转过程。具体的：从数据库中获取入库的视频文件和图文信息，从内容数据库中获取视频文件的元信息和图文信息的元信息。然后调度图片处理服务对视频文件或者图文信息进行相关处理，例如：图片质量审核、选图、截图或者去重等。调度中心服务组件也可以将视频文件和图文信息传输至人工审核服务组件，由人工进行审核处理。
115.人工审核服务组件，该组件通常以系统的形式实现，具体的，首先使用图片神经网络对图文信息和视频文件进行初步过滤筛选。然后，由人工进行确认和复核，并将复核结果作为图文信息的元信息或者视频文件的元信息记录至内容数据库。此外，复核结果可以用于评估图片神经网络的训练效果。
116.下载文件组件，该组件可以从互联网、内容数据库、内容生产端或者内容消费端下载图文信息和视频文件。然后从图文信息中抽取图片，或者，从视频文件中抽取视频帧作为抽帧图。将上述抽取的图片作为训练样本存储至预训练数据库中。
117.请参阅图3，图3为本技术实施例提出的一种神经网络的训练方法的实施例示意图。本技术实施例提出的一种神经网络的训练方法，包括：
118.301、获取预训练数据。
119.本实施例中，首先神经网络训练系统获取预训练数据，该预训练数据包括多张图片和多张图片对应的标签信息，多张图片包括以下一项或多项：
120.视频文件中的抽帧图，其中，抽帧图对应的标签信息为视频文件的标签信息，或者，图文信息的图片，其中，图文信息的图片对应的标签信息为图文信息的标题或者摘要信息，或者，基于目标标签信息搜索得到的公共图片，其中，将目标标签信息作为公共图片对应的标签信息。
121.具体的，神经网络训练系统获取视频文件后，对视频文件进行抽帧处理，得到抽帧图。抽帧图对应的标签信息为视频文件的标签信息，示例性的，视频文件的标签信息包括但不限于：视频文件的标题、视频文件的分类信息，或者视频文件中针对时间轴上不同的时刻设置的标签信息。例如：针对视频文件a，该视频文件a的标题为“手机a的介绍视频”，该视频文件a的分类信息为“科技”，该视频文件a中时刻1分30秒为“正片”，时刻3分00秒为“外观”，时刻5分05秒为“拍摄”，时刻8分00秒为“音频”，时刻10分00秒为“结尾”。
122.对于图文信息中的图片，该图文信息的图片对应的标签信息为图文信息的标题或者摘要信息。该图文信息包括但不限于自媒体文章、自媒体图集、或者包括图片和文字的文件、包括图片和文字的网页等。示例性的，当图文信息为自媒体文章时，图文信息的图片对应的标签信息可以是自媒体文章的标题或者该自媒体文章的摘要。例如：图文信息为“手机a的介绍”，则该图文信息的图片对应的标签信息为“手机”。
123.或者，基于目标标签信息搜索得到的公共图片，其中，将目标标签信息作为公共图片对应的标签信息。具体的，神经网络训练系统确定需要获取的图片的类型，然后根据该图
片的类型确定目标标签信息。其次，神经网络训练系统基于该目标标签信息，通过搜索引擎在互联网的众多图片中搜索得到公共图片。示例性的，神经网络训练系统需要获取的图片的类型为“手机”，则神经网络训练系统将“手机”作为目标标签信息在搜索引擎中进行搜索，得到多张图片。搜索得到的图片称为公共图片，目标标签信息“手机”作为这些公共图片对应的标签信息。
124.进一步的，当神经网络训练系统使用多个目标标签信息，在搜索引擎搜索公共图片时，可以先对多个目标标签信息进行合并去重。合并去重后得到的一个或多个目标标签信息，称为目标标签信息集合。然后神经网络训练系统基于该目标标签信息集合，在搜索引擎进行图片检索，得到一张或多张公共图片。示例性的，多个目标标签信息包括：“手机”、“智能手机”、“智能手表”和“手机”。首先，神经网络训练系统对该多个目标标签信息进行合并去重，合并去重后得到的目标标签信息包括：“智能手机”、“智能手表”和“手机”。然后，神经网络训练系统将“智能手机”、“智能手表”和“手机”作为目标标签信息集合，在搜索引擎中进行图片检索，得到一张或多张公共图片。
125.可选的，预训练数据还可以包括数据集中的图片，该数据集包括但不限于：“imagenet”数据集、“islvrc”数据集、或者“places2”数据集等。
126.302、根据预训练数据对预训练模型进行自监督训练，得到图片神经网络。
127.本实施例中，当神经网络训练系统获取预训练数据后，神经网络训练系统使用该预训练数据对预训练模型进行自监督训练，得到图片神经网络。
128.具体的，自监督学习(self supervised learning，ssl)主要是利用辅助任务(pretext)从大规模的无监督数据中挖掘自身的监督信息，通过这种构造的监督信息对网络进行训练，从而可以学习到对下游任务有价值的表征。也就是说自监督学习的监督信息不是人工标注的，而是算法在大规模无监督数据中自动构造监督信息，来进行监督学习或训练。在本实施例中，由于预训练数据的标签信息具有容易获取的特点，例如：对于视频文件的抽帧图，该抽帧图对应的标签信息为视频文件的标签信息；对于图文信息中的图片，该图文信息的图片对应的标签信息为图文信息的标题或者摘要信息；对于公共图片，该公共图片是神经网络训练系统基于目标标签信息搜索得到，因此，公共图片的标签信息为目标标签信息。通过上述方法，可以有效降低训练成本，提升神经网络模型的训练精度。
129.该预训练模型存在多种可能的实现方式，例如：swin transformer网络模型，resnet50网络模型，或者efficientnet-b4网络模型等，本技术实施例对此不作限制。为了便于理解，本技术实施例中以预训练模型的主干网络(backbone)是swin transformer网络模型为例进行说明。
130.在swin transformer网络模型中，通过通过自注意力(self-attention)机制来学习不同图片嵌入(embedding)特征之间的关系，编码其上下文信息，再通过一个前馈网络(feed forward neural network)经过非线性变化，输出综合了上下文特征的各个图片特征的向量表示。每一层transformer网络主要由多头自注意力机制(multi-head self-attention)层和前馈网络层两个子层构成。multi-head self-attention层会并行地执行多个不同参数的self-attention，并将各个self-attention的结果拼接作为后续网络的输入。
131.本技术实施例中，预训练数据包括多张图片以及多张图片的标签信息，由于该图
片的标签信息为该图片来源天然具有的属性信息，具有容易获取的特点。因此，可以容易获取大量的预训练数据。基于该预训练数据，对预训练模型进行训练得到图片神经网络，可以有效提升神经网络模型的训练效率和训练精度，降低人工成本。对于一些难以收集的图片类型，采用预训练模型进行训练可以有效降低对训练样本数量的需求，并且能加快模型训练的速度。
132.结合前述实施例，本技术实施例提出的一种神经网络的训练方法，还包括：根据预训练数据，采用对比学习方式对预训练模型进行自监督训练，得到图片神经网络，其中，预训练数据中多张图片对应的标识信息作为训练中的监督信号。
133.具体的，对比(contrastive)学习是通过通过构建正样本(positive)和负样本(negative)，然后度量正负样本的距离来实现自监督学习。为了便于理解，请参阅图4，图4为本技术实施例提出的对比学习示意图。对于训练样本(即预训练数据)，通过编码(encoder)或者动量编码(momentum encoder)的方式进行降维处理(即特征提取)，然后计算比较不同训练样本之间的相似性(similarity)，最后计算对比损失(contrastive loss)。
134.contrastive loss的表达式如下：
[0135][0136]
d＝||a
n-bn||2d代表两个样本特征的欧氏距离，y为两个样本是否匹配的标签，y＝1代表两个样本相似或者匹配，y＝0则代表不匹配，αn为样本a，bn为样本b，n为大于或等于1的整数，n为大于或等于1的整数，margin为设定的阈值。
[0137]
进一步的，由于预训练数据中包括多张图片的标签信息，因此，可以使用多张图片的标签信息作为自监督训练中的监督信号。一种可能的实现方式中：使用多张图片的分类信息作为自监督训练中的监督信号。例如：多张图片包括：图片1“手机a”,图片2“手机b”，图片3“手表a”和图片4“手表b”。则分类信息包括：分类1的分类信息为“手机”，分类1包括图片1和图片2；分类2的分类信息为“手表”，分类2包括图片3和图片4。则分类1的分类信息和分类2的分类信息，作为自监督训练中的监督信号。通过融合模态预测分类结果，这样可以让不同模态能够更好组合，学习到更好的结果。
[0138]
结合前述实施例，本技术实施例提出的一种神经网络的训练方法，还包括：视频文件中的抽帧图包括以下一项或多项：同一视频文件中临近的多个视频帧对应的抽帧图，或者，不同视频文件中视频帧对应的抽帧图；图文信息的图片包括以下一项或多项：图文信息的封面图片，图文信息的正文图片，或者，图文信息的摘要图片。
[0139]
该抽帧图可以是同一视频文件中时间轴上临近的多个视频帧对应的抽帧图，该抽帧图也可以是多个不同的视频文件中不同视频帧对应的抽帧图。例如：神经网络训练系统获取视频文件a后，在视频文件a的第5秒、第10秒、第15秒、第20秒和第25秒分别抽取5个视频帧，得到这5个视频帧对应的抽帧图。又例如：神经网络训练系统获取视频文件a和视频文件b后，在视频文件a的第5秒、第10秒、第15秒、第20秒和第25秒分别抽取5个视频帧，在视频文件b的第15秒、第20秒、第25秒、第30秒和第35秒分别抽取5个视频帧，得到上述10个视频帧对应的抽帧图。
[0140]
可以理解的是，对于抽取视频文件中视频帧的时间可以是根据实际业务需求设置的，也可以是随机的，本技术实施例对此不作限制。
[0141]
从同一个视频文件中抽取的相邻的视频帧，可以视为相似的视频帧，因此相邻的视频帧对应的抽帧图可以作为图片神经网络训练时使用的正样本。例如：在视频文件a的第3秒、第4秒和第5秒分别抽取3个视频帧，该3个视频帧可以视为相邻的视频帧，该3个视频帧对应的抽帧图作为图片神经网络训练时使用的正样本。
[0142]
从不同视频文件中抽取的视频帧或者从同一个视频文件中抽取的不相邻的视频帧，可以视为不相似的视频帧，不相似的视频帧对应的抽帧图可以作为图片神经网络训练时使用的负样本。
[0143]
可以理解的是，视频文件中的抽帧图还可以包括内容生产者设置的图片，例如：内容生产者设置的视频文件的封面图片等，此处不作限制。
[0144]
图文信息的图片可以是：图文信息的封面图片，图文信息的正文图片，或者图文信息的摘要图片。该图文信息包括但不限于自媒体文章、自媒体图集、或者包括图片和文字的文件、包括图片和文字的网页等。示例性的，以图文信息为自媒体文章为例进行说明，内容生产者可以手动为该自媒体文章设置封面图片，该封面图片也可以是根据预设算法在图文信息的基础上生成的新图片。当图文信息包括多张图片时，该图文信息的正文图片可以是内容生产者手动设置的图片，也可以是神经网络训练系统中图文信息中随机选取的一张或多张图片，此处不作限制。图文信息的摘要图片与图文信息的封面图片类似，即图文信息的摘要图片可以是内容生成者手动设置的图片，也可以是根据预设算法在图文信息的基础上生成的新图片，还可以是神经网络训练系统在图文信息中选取的图片，此处不作限制。
[0145]
结合前述实施例，本技术实施例提出的一种神经网络的训练方法，还包括：获取多个视频文件；对多个视频文件进行去重处理，得到去重后的多个视频文件；从去重后的多个视频文件中提取视频文件中的抽帧图。
[0146]
具体的，神经网络训练系统获取多个视频文件后，根据视频文件的指纹信息对多个视频文件进行去重处理。去重处理后，所得到的多个视频文件不同。然后再从去重后的多个视频文件中提取视频文件中的抽帧图。以保证预训练数据的多样性。
[0147]
结合前述实施例，本技术实施例提出的一种神经网络的训练方法，以预训练模型为基础，构建图片神经网络，包括：对预训练模型进行知识蒸馏(knowledge distillation)处理，得到图片神经网络。通过蒸馏，提升神经网络模型的泛化性，同时能够降低神经网络模型的大小，提升神经网络模型的部署后的性能。
[0148]
结合前述实施例，本技术实施例提出的一种神经网络的训练方法，根据预训练数据，采用对比学习方式对预训练模型进行训练之后，方法还包括：获取业务样本，业务样本包括一张或多张图片，和图片对应的标识信息；使用业务样本对预训练模型进行微调(fintune)处理，得到微调后的预训练模型。具体的，在预训练模型后增加一个浅层网络比如lr模型或者svm模型，然后利用少量的业务样本数据，重新训练和更新模型的部分参数。该业务样本数据可以是多张图片以及多张图片对应的标签信息。
[0149]
为了便于理解，请参阅图5，图5为本技术实施例中对预训练模型进行训练的流程示意图。首先是获取预训练数据，该预训练数据包括以下一项或多项：视频文件中的抽帧图、图文信息的图片、公共图片和数据集包括的图片(以及上述图片对应的标签信息)。然
后，对图片进行图片增强处理，图片增强处理包括但不限于：裁剪和调整大小(crop and-resize)、颜色扭曲(color distort)或者高斯模糊(gaussian blur)，以增加预训练模型的泛化性。然后，神经网络训练系统再使用经过图片增强处理后的预训练数据，采用对比学习的方式对预训练模型进行自监督训练。自监督训练得到的预训练模型再使用带有标签信息的业务样本进行微调。微调后得到的预训练模型可以使用业务样本(包括有标签信息的业务样本和无标签信息的业务样本)进行蒸馏处理，得到图片神经网络。
[0150]
结合前述实施例，本技术实施例提出的一种神经网络的训练方法，多张图片包括公共图片，方法还包括：获取第一标签信息集合，第一标签信息集合包括以下一项或多项：一个或多个视频文件的标签信息，或者，一个或多个图文信息的标签信息；对第一标签信息集合进行去重处理，得到目标标签信息；基于目标标签信息通过搜索引擎获取多张待筛选公共图片；剔除多张待筛选公共图片中分辨率低于第一阈值的图片，得到公共图片。
[0151]
例如：第一阈值为200*200(像素)，则低于该第一阈值的待筛选公共图片被剔除。剩余的待筛选公共图片作为最终得到的公共图片。以节省图片存储成本。
[0152]
下面对本技术中的神经网络训练装置进行详细描述，请参阅图6，图6为本技术实施例中提出的一种神经网络训练装置示意图。神经网络训练装置，包括：
[0153]
收发模块601，用于获取预训练数据，预训练数据包括多张图片和多张图片对应的标签信息，多张图片包括以下一项或多项：
[0154]
视频文件中的抽帧图，其中，抽帧图对应的标签信息为视频文件的标签信息，
[0155]
或者，图文信息的图片，其中，图文信息的图片对应的标签信息为图文信息的标题或者摘要信息，
[0156]
或者，基于目标标签信息搜索得到的公共图片，其中，将目标标签信息作为公共图片对应的标签信息；
[0157]
处理模块602，用于根据预训练数据对预训练模型进行自监督训练，得到图片神经网络，其中，图片神经网络用于获取图片的嵌入embedding特征。
[0158]
在本技术实施例的另一方面的另一种实现方式中，神经网络训练装置，还包括：
[0159]
处理模块602，还用于根据预训练数据，采用对比学习方式对预训练模型进行自监督训练，得到图片神经网络，其中，预训练数据中多张图片对应的标识信息作为训练中的监督信号。
[0160]
在本技术实施例的另一方面的另一种实现方式中，视频文件中的抽帧图包括以下一项或多项：同一视频文件中临近的多个视频帧对应的抽帧图，或者，不同视频文件中视频帧对应的抽帧图；
[0161]
图文信息的图片包括以下一项或多项：图文信息的封面图片，图文信息的正文图片，或者，图文信息的摘要图片。
[0162]
在本技术实施例的另一方面的另一种实现方式中，神经网络训练装置，还包括：
[0163]
收发模块601，还用于获取多个视频文件；
[0164]
处理模块602，还用于对多个视频文件进行去重处理，得到去重后的多个视频文件；
[0165]
处理模块602，还用于从去重后的多个视频文件中提取视频文件中的抽帧图。
[0166]
在本技术实施例的另一方面的另一种实现方式中，神经网络训练装置，还包括：
amplifier，lna)、双工器等。此外，rf电路810还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(global system of mobile communication，gsm)、通用分组无线服务(general packet radio service，gprs)、码分多址(code division multiple access，cdma)、宽带码分多址(wideband code division multiple access,wcdma)、长期演进(long term evolution，lte)、电子邮件、短消息服务(short messaging service，sms)等。
[0183]
存储器820可用于存储软件程序以及模块，处理器880通过运行存储在存储器820的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器820可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器820可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0184]
输入单元830可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元830可包括触控面板831以及其他输入设备832。触控面板831，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板831上或在触控面板831附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板831可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器880，并能接收处理器880发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板831。除了触控面板831，输入单元830还可以包括其他输入设备832。具体地，其他输入设备832可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
[0185]
显示单元840可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元840可包括显示面板841，可选的，可以采用液晶显示器(liquid crystal display，lcd)、有机发光二极管(organic light-emitting diode，oled)等形式来配置显示面板841。进一步的，触控面板831可覆盖显示面板841，当触控面板831检测到在其上或附近的触摸操作后，传送给处理器880以确定触摸事件的类型，随后处理器880根据触摸事件的类型在显示面板841上提供相应的视觉输出。虽然在图8中，触控面板831与显示面板841是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板831与显示面板841集成而实现手机的输入和输出功能。
[0186]
手机还可包括至少一种传感器850，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板841的亮度，接近传感器可在手机移动到耳边时，关闭显示面板841或者背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。
[0187]
音频电路860、扬声器861，传声器862可提供用户与手机之间的音频接口。音频电路860可将接收到的音频数据转换后的电信号，传输到扬声器861，由扬声器861转换为声音信号输出；另一方面，传声器862将收集的声音信号转换为电信号，由音频电路860接收后转换为音频数据，再将音频数据输出处理器880处理后，经rf电路810以发送给比如另一手机，或者将音频数据输出至存储器820以便进一步处理。
[0188]
wifi属于短距离无线传输技术，手机通过wifi模块870可以帮助用户收发电子邮件、浏览图文信息和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图8示出了wifi模块870，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。
[0189]
处理器880是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器820内的软件程序或者模块，以及调用存储在存储器820内的数据，执行手机的各种功能和处理数据。可选的，处理器880可包括一个或多个处理单元；可选的，处理器880可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器880中。
[0190]
手机还包括给各个部件供电的电源890(比如电池)，可选的，电源可以通过电源管理系统与处理器880逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
[0191]
尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。
[0192]
上述实施例中由终端设备所执行的步骤可以基于该图8所示的终端设备结构。
[0193]
本技术实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如前述各个实施例描述的方法。
[0194]
本技术实施例中还提供一种包括程序的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例描述的方法。
[0195]
所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
[0196]
在本技术所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0197]
作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0198]
另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0199]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可
以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0200]
以上，以上实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。

技术特征：
1.一种神经网络的训练方法，其特征在于，包括：获取预训练数据，所述预训练数据包括多张图片和所述多张图片对应的标签信息，所述多张图片包括以下一项或多项：视频文件中的抽帧图，其中，所述抽帧图对应的标签信息为所述视频文件的标签信息，或者，图文信息的图片，其中，所述图文信息的图片对应的标签信息为所述图文信息的标题或者摘要信息，或者，基于目标标签信息搜索得到的公共图片，其中，将所述目标标签信息作为所述公共图片对应的标签信息；根据所述预训练数据对预训练模型进行自监督训练，得到图片神经网络，其中，所述图片神经网络用于获取图片的嵌入embedding特征。2.根据权利要求1所述的方法，其特征在于，根据所述预训练数据对所述预训练模型进行自监督训练，得到所述图片神经网络，包括：根据所述预训练数据，采用对比学习方式对所述预训练模型进行自监督训练，得到所述图片神经网络，其中，所述预训练数据中所述多张图片对应的标识信息作为训练中的监督信号。3.根据权利要求1-2中任一项所述的方法，其特征在于，所述视频文件中的抽帧图包括以下一项或多项：同一视频文件中临近的多个视频帧对应的抽帧图，或，不同视频文件中视频帧对应的抽帧图；所述图文信息的图片包括以下一项或多项：所述图文信息的封面图片，所述图文信息的正文图片，或，所述图文信息的摘要图片。4.根据权利要求1-3中任一项所述的方法，其特征在于，所述方法还包括：获取多个视频文件；对所述多个视频文件进行去重处理，得到去重后的多个视频文件；从所述去重后的多个视频文件中提取所述视频文件中的抽帧图。5.根据权利要求2-4中任一项所述的方法，其特征在于，根据所述预训练数据，采用对比学习方式对所述预训练模型进行训练之后，所述方法还包括：对所述预训练模型进行知识蒸馏处理，得到所述图片神经网络。6.根据权利要求2-5中任一项所述的方法，其特征在于，根据所述预训练数据，采用对比学习方式对所述预训练模型进行训练之后，所述方法还包括：获取业务样本，所述业务样本包括一张或多张图片，和所述图片对应的标识信息；使用所述业务样本对所述预训练模型进行微调处理，得到微调后的所述预训练模型。7.根据权利要求1-6中任一项所述的方法，其特征在于，所述多张图片包括所述公共图片，所述方法还包括：获取第一标签信息集合，所述第一标签信息集合包括以下一项或多项：一个或多个视频文件的标签信息，或者，一个或多个图文信息的标签信息；对第一标签信息集合进行去重处理，得到所述目标标签信息；基于所述目标标签信息通过搜索引擎获取多张待筛选公共图片；剔除所述多张待筛选公共图片中分辨率低于第一阈值的图片，得到所述公共图片。8.一种神经网络训练装置，其特征在于，包括：
收发模块，用于获取预训练数据，所述预训练数据包括多张图片和所述多张图片对应的标签信息，所述多张图片包括以下一项或多项：视频文件中的抽帧图，其中，所述抽帧图对应的标签信息为所述视频文件的标签信息，或者，图文信息的图片，其中，所述图文信息的图片对应的标签信息为所述图文信息的标题或者摘要信息，或者，基于目标标签信息搜索得到的公共图片，其中，将所述目标标签信息作为所述公共图片对应的标签信息；处理模块，用于根据所述预训练数据对预训练模型进行自监督训练，得到图片神经网络，其中，所述图片神经网络用于获取图片的嵌入embedding特征。9.一种计算机设备，其特征在于，包括：存储器、处理器以及总线系统；其中，所述存储器用于存储程序；所述处理器用于执行所述存储器中的程序，所述处理器用于根据程序代码中的指令执行权利要求1至7中任一项所述的方法；所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。10.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至7中任一项所述的方法。11.一种计算机程序产品，包括计算机程序和指令，其特征在于，该计算机程序/指令被处理器执行时实现如权利要求1至7中任一项所述的方法。

技术总结
本申请公开了一种基于人工智能技术的神经网络的训练方法以及相关装置。获取预训练数据，预训练数据包括多张图片以及多张图片的标签信息，根据预训练数据对预训练模型进行自监督训练，得到图片神经网络。由于该图片的标签信息为该图片来源天然具有的属性信息，具有容易获取的特点。因此，可以容易获取大量的预训练数据。基于该预训练数据，对预训练模型进行训练得到图片神经网络，可以有效提升图片神经网络的训练效率和训练精度。该预训练模型采用自监督训练，可以有效提升训练效率和训练精度。度。度。

技术研发人员：刘刚
受保护的技术使用者：腾讯科技（深圳）有限公司
技术研发日：2022.01.24
技术公布日：2023/8/14

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：人脸识别网络训练方法、人脸识别方法、装置和存储介质与流程 下一篇：一种电化学脱嵌盐湖镁锂分离及提锂的方法与流程

一种神经网络的训练方法以及相关装置与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种神经网络的训练方法以及相关装置与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表