音乐推荐方法、音乐推荐装置、电子设备及存储介质与流程

未命名 07-28 阅读：96 评论：0

1.本技术涉及人工智能技术领域，尤其涉及一种音乐推荐方法、音乐推荐装置、电子设备及存储介质。

背景技术：

2.在音乐推荐场景中，目前的推荐方法大多是基于用户的历史播放记录来进行音乐推荐，这一方式具备较大的局限性，例如历史播放记录的数据量较少，往往无法满足用户的实际需求，存在着推荐准确性不高的问题，因此，如何提高音乐推荐的准确性，成为了亟待解决的技术问题。

技术实现要素：

3.本技术实施例的主要目的在于提出一种音乐推荐方法、音乐推荐装置、电子设备及存储介质，旨在提高音乐推荐的准确性。
4.为实现上述目的，本技术实施例的第一方面提出了一种音乐推荐方法，所述方法包括：
5.获取候选音乐和参考音乐，其中，所述参考音乐根据目标对象的操作指令得到；
6.对所述候选音乐进行频谱变换，得到候选音乐频谱序列，并对所述参考音乐进行频谱变换得到参考音乐频谱序列；
7.对所述候选音乐频谱序列进行音频特征提取，得到候选音乐情感表征向量，并对所述参考音乐频谱序列进行音频特征提取，得到参考音乐情感表征向量；
8.基于所述候选音乐情感表征向量、所述参考音乐情感表征向量对所述候选音乐和所述参考音乐进行相关性评分，得到音乐相关分值；
9.根据所述音乐相关分值和预设的推荐数目对所述候选音乐进行筛选，得到目标音乐；
10.将所述目标音乐推送给所述目标对象。
11.在一些实施例，所述根据所述音乐相关分值和预设的推荐数目对所述候选音乐进行筛选，得到目标音乐，包括：
12.基于所述候选音乐情感表征向量对所述候选音乐进行情感预测，得到所述候选音乐的音乐情感类别；
13.基于所述音乐情感类别、所述推荐数目和所述音乐相关分值对所述候选音乐进行筛选，得到所述目标音乐。
14.在一些实施例，所述基于所述候选音乐情感表征向量对所述候选音乐进行情感预测，得到所述候选音乐的音乐情感类别，包括：
15.基于预设的情感分类器对所述候选音乐情感表征向量进行情感评分，得到音乐情感分值；
16.基于所述音乐情感分值，从预设的多个候选音乐情感类别中筛选出所述音乐情感
类别。
17.在一些实施例，所述基于所述音乐情感类别、所述推荐数目和所述音乐相关分值对所述候选音乐进行筛选，得到所述目标音乐，包括：
18.比对所述音乐相关分值和预设的音乐相关阈值；
19.选取所述音乐相关分值高于所述音乐相关阈值的候选音乐，得到初始音乐；
20.基于所述初始音乐的音乐情感类别和所述推荐数目，从所述初始音乐中筛选出所述目标音乐。
21.在一些实施例，所述对所述候选音乐进行频谱变换，得到候选音乐频谱序列，并对所述参考音乐进行频谱变换得到参考音乐频谱序列，包括：
22.基于预设函数对所述候选音乐进行频谱特征提取，得到候选音乐频谱图，并基于所述预设函数对所述参考音乐进行频谱特征提取，得到参考音乐频谱图；
23.根据预设的第一窗口参数对所述候选音乐频谱图进行特征变换，得到所述候选音乐频谱序列；
24.根据预设的第二窗口参数对所述参考音乐频谱图进行特征变换，得到所述参考音乐频谱序列。
25.在一些实施例，所述根据预设的第一窗口参数对所述候选音乐频谱图进行特征变换，得到所述候选音乐频谱序列，包括：
26.基于所述第一窗口参数对所述候选音乐频谱图进行裁剪处理，得到多个候选频谱片段；
27.对所述候选频谱片段进行展平处理，得到中间频谱片段；
28.基于预设的拼接顺序对多个所述中间频谱片段进行合并处理，得到所述候选音乐频谱序列。
29.在一些实施例，所述对所述候选音乐频谱序列进行音频特征提取，得到候选音乐情感表征向量，并对所述参考音乐频谱序列进行音频特征提取，得到参考音乐情感表征向量，包括：
30.基于预设的编码网络对所述候选音乐频谱序列进行特征提取，得到所述候选音乐情感表征向量，其中，所述编码网络包括至少两个transformer编码器；
31.基于所述编码网络对所述参考音乐频谱序列进行特征提取，得到所述参考音乐情感表征向量。
32.为实现上述目的，本技术实施例的第二方面提出了一种音乐推荐装置，所述装置包括：
33.音乐获取模块，用于获取候选音乐和参考音乐，其中，所述参考音乐根据目标对象的操作指令得到；
34.频谱变换模块，用于对所述候选音乐进行频谱变换，得到候选音乐频谱序列，并对所述参考音乐进行频谱变换得到参考音乐频谱序列；
35.特征提取模块，用于对所述候选音乐频谱序列进行音频特征提取，得到候选音乐情感表征向量，并对所述参考音乐频谱序列进行音频特征提取，得到参考音乐情感表征向量；
36.相关性评分模块，用于基于所述候选音乐情感表征向量、所述参考音乐情感表征
向量对所述候选音乐和所述参考音乐进行相关性评分，得到音乐相关分值；
37.音乐筛选模块，用于根据所述音乐相关分值和预设的推荐数目对所述候选音乐进行筛选，得到目标音乐；
38.音乐推荐模块，用于将所述目标音乐推送给所述目标对象。
39.为实现上述目的，本技术实施例的第三方面提出了一种电子设备，所述电子设备包括存储器、处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的方法。
40.为实现上述目的，本技术实施例的第四方面提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的方法。
41.本技术提出的音乐推荐方法、音乐推荐装置、电子设备及存储介质，其通过获取候选音乐和参考音乐，其中，参考音乐根据目标对象的操作指令得到；对候选音乐进行频谱变换，得到候选音乐频谱序列，并对参考音乐进行频谱变换得到参考音乐频谱序列，能够较为方便地提取到参考音乐和候选音乐的音频特征信息。进一步地，对候选音乐频谱序列进行音频特征提取，得到候选音乐情感表征向量，并对参考音乐频谱序列进行音频特征提取，得到参考音乐情感表征向量，能够较为方便地获取到参考音乐的情感表征信息和候选音乐的情感表征信息，使得能够利用参考音乐的情感表征信息和候选音乐的情感表征信息进行音乐筛选。进一步地，基于候选音乐情感表征向量、参考音乐情感表征向量对候选音乐和参考音乐进行相关性评分，得到音乐相关分值，并根据音乐相关分值和预设的推荐数目对候选音乐进行筛选，得到目标音乐，能够较为灵活地对候选音乐进行筛选，选取与参考音乐之间的相关程度符合要求的候选音乐作为目标音乐，提高了音乐筛选的准确性和合理性，最后，将目标音乐推送给目标对象，能够有效地提高音乐推荐的准确性。
附图说明
42.图1是本技术实施例提供的音乐推荐方法的流程图；
43.图2是图1中的步骤s102的流程图；
44.图3是图2中的步骤s202的流程图；
45.图4是图1中的步骤s103的流程图；
46.图5是图1中的步骤s105的流程图；
47.图6是图5中的步骤s501的流程图；
48.图7是图5中的步骤s502的流程图；
49.图8是本技术实施例提供的音乐推荐装置的结构示意图；
50.图9是本技术实施例提供的电子设备的硬件结构示意图。
具体实施方式
51.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本技术，并不用于限定本技术。
52.需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻
辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。
53.除非另有定义，本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的，不是旨在限制本技术。
54.首先，对本技术中涉及的若干名词进行解析：
55.人工智能(artificial intelligence，ai)：是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
56.自然语言处理(natural language processing，nlp)：nlp用计算机来处理、理解以及运用人类语言(如中文、英文等)，nlp属于人工智能的一个分支，是计算机科学与语言学的交叉学科，又常被称为计算语言学。自然语言处理包括语法分析、语义分析、篇章理解等。自然语言处理常用于机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息意图识别、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等技术领域，它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。
57.信息抽取(information extraction，ner)：从自然语言文本中抽取指定类型的实体、关系、事件等事实信息，并形成结构化数据输出的文本处理技术。信息抽取是从文本数据中抽取特定信息的一种技术。文本数据是由一些具体的单位构成的，例如句子、段落、篇章，文本信息正是由一些小的具体的单位构成的，例如字、词、词组、句子、段落或是这些具体的单位的组合。抽取文本数据中的名词短语、人名、地名等都是文本信息抽取，当然，文本信息抽取技术所抽取的信息可以是各种类型的信息。
58.softmax函数：softmax函数是归一化指数函数。
59.音乐情感识别(music emotion recognition，mer)是指识别给定音乐片段所包含的情感信息的任务，其输入是原始音频文件，输出是情感的类别或者激活度值。
60.个性化音乐推荐则是指根据用户的使用记录，使用习惯，个人属性等因素对用户进行音乐曲目的推荐。
61.在音乐推荐场景中，目前的推荐方法大多是基于用户的历史播放记录来进行音乐推荐，这一方式具备较大的局限性，例如历史播放记录的数据量较少，往往无法满足用户的实际需求，存在着推荐准确性不高的问题，因此，如何提高音乐推荐的准确性，成为了亟待解决的技术问题。
62.基于此，本技术实施例提供了一种音乐推荐方法、音乐推荐装置、电子设备及存储介质，旨在提高音乐推荐的准确性。
63.本技术实施例提供的音乐推荐方法、音乐推荐装置、电子设备及存储介质，具体通
过如下实施例进行说明，首先描述本技术实施例中的音乐推荐方法。
64.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
65.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
66.本技术实施例提供的音乐推荐方法，涉及人工智能技术领域。本技术实施例提供的音乐推荐方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现音乐推荐方法的应用等，但并不局限于以上形式。
67.本技术可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
68.图1是本技术实施例提供的音乐推荐方法的一个可选的流程图，图1中的方法可以包括但不限于包括步骤s101至步骤s106。
69.步骤s101，获取候选音乐和参考音乐，其中，参考音乐根据目标对象的操作指令得到；
70.步骤s102，对候选音乐进行频谱变换，得到候选音乐频谱序列，并对参考音乐进行频谱变换得到参考音乐频谱序列；
71.步骤s103，对候选音乐频谱序列进行音频特征提取，得到候选音乐情感表征向量，并对参考音乐频谱序列进行音频特征提取，得到参考音乐情感表征向量；
72.步骤s104，基于候选音乐情感表征向量、参考音乐情感表征向量对候选音乐和参考音乐进行相关性评分，得到音乐相关分值；
73.步骤s105，根据音乐相关分值和预设的推荐数目对候选音乐进行筛选，得到目标音乐；
74.步骤s106，将目标音乐推送给目标对象。
75.本技术实施例所示意的步骤s101至步骤s106，通过获取候选音乐和参考音乐，其中，参考音乐根据目标对象的操作指令得到；对候选音乐进行频谱变换，得到候选音乐频谱
序列，并对参考音乐进行频谱变换得到参考音乐频谱序列，能够较为方便地提取到参考音乐和候选音乐的音频特征信息。进一步地，对候选音乐频谱序列进行音频特征提取，得到候选音乐情感表征向量，并对参考音乐频谱序列进行音频特征提取，得到参考音乐情感表征向量，能够较为方便地获取到参考音乐的情感表征信息和候选音乐的情感表征信息，使得能够利用参考音乐的情感表征信息和候选音乐的情感表征信息进行音乐筛选。进一步地，基于候选音乐情感表征向量、参考音乐情感表征向量对候选音乐和参考音乐进行相关性评分，得到音乐相关分值，并根据音乐相关分值和预设的推荐数目对候选音乐进行筛选，得到目标音乐，能够较为灵活地对候选音乐进行筛选，选取与参考音乐之间的相关程度符合要求的候选音乐作为目标音乐，提高了音乐筛选的准确性和合理性，最后，将目标音乐推送给目标对象，能够有效地提高音乐推荐的准确性。
76.在一些实施例的步骤s101中，可以从预设的音乐数据库中提取候选音乐，或者从网络平台等渠道下载候选音乐，候选音乐可以包括不同语种、不同场景、不同风格的音乐。例如，候选音乐包括中文歌曲、英文歌曲或者日文歌曲等等。参考音乐可以由目标对象的操作指令得到，即通过目标对象以键入或者语音输入等方式将参考音乐的音乐名称输入至音乐推荐系统中，使得音乐推荐系统能够提取到该音乐名称对应的音乐文件，将该音乐文件作为参考音乐识别到目标对象选择的参考音乐，其中，目标对象可以是网络用户等等相关人物，不做限制。
77.请参阅图2，在一些实施例中，步骤s102可以包括但不限于包括步骤s201至步骤s203：
78.步骤s201，基于预设函数对候选音乐进行频谱特征提取，得到候选音乐频谱图，并基于预设函数对参考音乐进行频谱特征提取，得到参考音乐频谱图；
79.步骤s202，根据预设的第一窗口参数对候选音乐频谱图进行特征变换，得到候选音乐频谱序列；
80.步骤s203，根据预设的第二窗口参数对参考音乐频谱图进行特征变换，得到参考音乐频谱序列。
81.在一些实施例的步骤s201中，可以从常用的语音处理数据库中调用预设函数，例如，该语音处理数据库可以是librosa库，预设函数可以是librosa库中的librosa.feature.melspectrogram()函数，直接利用librosa.feature.melspectrogram()函数来对候选音乐进行频谱特征提取，得到候选音乐的梅尔频谱，将候选音乐的梅尔频谱作为候选音乐频谱图。同样地，利用librosa.feature.melspectrogram()函数来对参考音乐进行频谱特征提取，得到参考音乐的梅尔频谱，将参考音乐的梅尔频谱作为参考音乐频谱图。
82.在一些实施例的步骤s202中，第一窗口参数为时间参数，第一窗口参数的具体数值可以根据实际需求设置，不做限制。例如，第一窗口参数为50ms。根据第一窗口参数表征的时间长度，将候选音乐频谱图裁切为多个时间长度相等的候选频谱片段，每一候选频谱片段的音频时长和第一窗口参数相同。再对每一候选频谱片段进行展平处理，将候选频谱片段处理为一维特征，得到中间频谱片段，一个中间频谱片段即为该候选音乐的最小音乐单元token1，最后，根据中间频谱片段的时间先后顺序，将这一系列的中间频谱片段合并成一个整体，得到候选音乐频谱序列，即候选音乐频谱序列由多个最小音乐单元token1组成。
83.在一些实施例的步骤s203中，第二窗口参数为时间参数，第二窗口参数的具体数值可以根据实际需求设置，不做限制。例如，第二窗口参数为30ms。根据第二窗口参数表征的时间长度，将参考音乐频谱图裁切为多个时间长度相等的参考频谱片段，每一参考频谱片段的音频时长和第二窗口参数相同。再对每一参考频谱片段进行展平处理，将参考频谱片段处理为一维特征，得到中间频谱片段，一个中间频谱片段即为该参考音乐的最小音乐单元token1，最后，根据中间频谱片段的时间先后顺序，将这一系列的中间频谱片段合并成一个整体，得到参考音乐频谱序列，即参考音乐频谱序列由多个最小音乐单元token2组成。
84.需要说明的是，第一窗口参数和第二窗口参数的具体数值可以相同，也可以不同，例如，第一窗口参数和第二窗口参数均为50ms，则在时间维度上将候选音乐频谱图和参考音乐频谱分为多个音频频谱片段，每个音频频谱片段的持续时间均为50ms。
85.通过上述步骤s201至步骤s203能够较为方便地提取候选音乐和参考音乐中的音频特征信息，并将候选音乐和参考音乐的音频特征信息处理成适合语音检测模型进行提取的音频序列，能够有效地提高神经网络模型对候选音乐和参考音乐的音频特征的学习能力，有利于改善模型对特征提取的准确性。
86.请参阅图3，在一些实施例中，步骤s202可以包括但不限于包括步骤s301至步骤s303：
87.步骤s301，基于第一窗口参数对候选音乐频谱图进行裁剪处理，得到多个候选频谱片段；
88.步骤s302，对候选频谱片段进行展平处理，得到中间频谱片段；
89.步骤s303，基于预设的拼接顺序对多个中间频谱片段进行合并处理，得到候选音乐频谱序列。
90.在一些实施例的步骤s301中，第一窗口参数可以根据实际需求设置，不做限制。例如，第一窗口参数为60ms。根据第一窗口参数表征的时间长度，将候选音乐频谱图裁切为多个时间长度相等的候选频谱片段，每一候选频谱片段的音频时长和第一窗口参数相同。
91.在一些实施例的步骤s302中，可以将每一候选频谱片段输入至预设的展平层中，基于展平层将候选频谱片段进行变维处理，将高维的候选频谱片段转换为一维特征，得到中间频谱片段，其中，一个中间频谱片段即为该参考音乐的最小音乐单元token1。这一方式能够有效地去除候选音乐的冗余信息，使得生成的中间频谱片段保留重要的音频特征，能够有效地缩减特征信息量，有利于降低后续的编码网络在对候选音乐的音乐情感表征进行提取时的计算复杂度，提高音乐推荐的效率。
92.在一些实施例的步骤s303中，根据中间频谱片段的时间先后顺序，将这一系列的中间频谱片段合并成一个整体，得到候选音乐频谱序列，该候选音乐频谱序列包含候选音乐的音乐情感信息。
93.通过上述步骤s301至步骤s303能够较为方便地将候选音乐频谱图分为多个候选频谱片段，并将候选频谱片段转换为一维特征，使得能够以片段为最小单元对候选音乐进行特征变换，有利于提高特征处理的精细程度，同时，还能够有效地去除候选音乐的冗余信息，使得生成的中间频谱片段保留重要的音频特征，能够有效地缩减特征信息量，能够在提高音乐推荐准确性的同时，提高音乐推荐的效率。
94.请参阅图4，在一些实施例中，步骤s103可以包括但不限于包括步骤s401至步骤
s403：
95.步骤s401，基于预设的编码网络对候选音乐频谱序列进行特征提取，得到候选音乐情感表征向量，其中，编码网络包括至少两个transformer编码器；
96.步骤s402，基于编码网络对参考音乐频谱序列进行特征提取，得到参考音乐情感表征向量。
97.在一些实施例的步骤s401中，上述的神经网络模型包括编码网络，编码网络包括至少两个transformer编码器。基于多个transformer编码器能够较好地对输入的候选音乐频谱序列中的中间频谱片段之间的长距离依赖关系进行捕捉，根据中间频谱片段之间的相关性来提取候选音乐频谱序列的整体情感表征信息，得到候选音乐情感表征向量。
98.由于每一transformer编码器的网络结构基本一致，因此，以第一个transformer编码器的特征提取过程为例，将候选音乐频谱序列输入至编码网络的第一个transformer编码器，先由transformer编码器的编码部分对候选音乐频谱序列进行音频信息提取，得到候选音乐频谱序列对应的第一候选频谱隐向量，该第一候选频谱隐向量包括候选音乐的基本频谱内容信息，其中，该编码部分由编码层、注意力机制层、归一化层和激活层依次连接形成。在得到第一候选频谱隐向量之后，再由transformer编码器的解码部分对第一候选频谱隐向量进行多头注意力计算和激活处理，得到候选音乐情感表征向量，其中，解码部分由多头注意力机制层、归一化层、激活层以及全连接层依次连接形成。
99.需要说明的是，为了兼顾特征提取的精度和编码网络的训练效率，上述的编码网络中的transformer编码器可以设置为四个，即将四个transformer编码器依次连接，将候选音乐频谱序列输入至第一个transformer编码器进行特征提取，将第一个transformer编码器的输出作为下一个transformer编码器的输入，依次类推，将最后一个transformer编码器的输出作为候选音乐情感表征向量。
100.在一些实施例的步骤s402中，基于多个transformer编码器对输入的参考音乐频谱序列中的中间频谱片段之间的长距离依赖关系进行捕捉，根据中间频谱片段之间的相关性来提取参考音乐频谱序列的整体情感表征信息，得到参考音乐情感表征向量。
101.通过上述步骤s401至步骤s402能够较好地捕捉音乐频谱序列中的中间频谱片段之间的长距离依赖关系，并基于这一长距离依赖关系确定中间频谱片段之间的相关性，从而根据中间频谱片段之间的相关性来提取音乐频谱序列的整体情感表征信息，能够实现对输入音乐的情感表征信息的细粒度化，有利于提高音乐推荐的准确性。
102.在一些实施例的步骤s104中，在基于候选音乐情感表征向量、参考音乐情感表征向量对候选音乐和参考音乐进行相关性评分时，可以采用余弦相似度算法、欧氏距离、曼哈顿距离等多种方式，不做限制。例如，采用余弦相似度算法来基于候选音乐情感表征向量、参考音乐情感表征向量对候选音乐和参考音乐进行相关性评分，得到音乐相关分值。具体地，在对候选音乐和参考音乐进行相关性评分时，假设候选音乐情感表征向量为u，参考音乐情感表征向量为v，则根据余弦相似度算法的基本公式计算候选音乐和参考音乐的音乐相关分值q的过程如公式(1)所示，其中，t表示对候选音乐情感表征向量u进行转置运算，得到u
t
。
103.104.其中，音乐相关分值能够用于表征候选音乐和参考音乐之间的相关程度，音乐相关分值越高，则候选音乐和参考音乐之间的相关程度越高。
105.因此，基于上述方式能够有效地提高相关性评分的准确性和便利性，使得能够根据音乐相关分值来判断候选音乐和参考音乐之间的相关程度，能够清楚、直观地确定候选音乐和参考音乐的音乐流派以及音乐风格是否相似，从而优先将音乐风格、音乐流派与参考音乐更为接近的候选音乐推荐给目标对象，有利于改善音乐推荐的准确性。
106.请参阅图5，在一些实施例中，步骤s105可以包括但不限于包括步骤s501至步骤s502：
107.步骤s501，基于候选音乐情感表征向量对候选音乐进行情感预测，得到候选音乐的音乐情感类别；
108.步骤s502，基于音乐情感类别、推荐数目和音乐相关分值对候选音乐进行筛选，得到目标音乐。
109.在一些实施例的步骤s501中，可以基于预设的情感分类器对候选音乐情感表征向量进行情感评分，得到音乐情感分值，并根据音乐情感分值，从预设的多个候选音乐情感类别中筛选出音乐情感类别。具体地，情感分类器可以是softmax分类器，基于softmax分类器创建候选音乐情感表征向量在每一候选音乐情感类别上的概率分布，将根据概率分布生成的概率分布向量作为候选音乐在候选音乐情感类别上的音乐情感分值。进一步地，从音乐情感分值中筛选出最大的音乐情感分值对应的候选音乐情感类别作为音乐情感类别。
110.在一些实施例的步骤s502中，在基于音乐情感类别、推荐数目和音乐相关分值对候选音乐进行筛选时，可以先比对音乐相关分值和预设的音乐相关阈值，并选取音乐相关分值高于音乐相关阈值的候选音乐，得到初始音乐；使得初始音乐能够符合音乐推荐的基本要求。进一步地，根据推荐数目和初始音乐的音乐情感类别来确定每一种音乐情感类别的推荐音乐数量，并根据推荐音乐数量以及属于同一音乐情感类别的初始音乐之间的音乐相关分值大小对初始音乐进行筛选，得到最终的目标音乐。
111.通过上述步骤s501至步骤s502能够较为灵活地对候选音乐进行筛选，选取与参考音乐之间的相关程度符合要求的候选音乐作为目标音乐，有利于提高音乐推荐的准确性。
112.请参阅图6，在一些实施例，步骤s501包括但不限于包括步骤s601至步骤s602：
113.步骤s601，基于预设的情感分类器对候选音乐情感表征向量进行情感评分，得到音乐情感分值；
114.步骤s602，基于音乐情感分值，从预设的多个候选音乐情感类别中筛选出音乐情感类别。
115.在一些实施例的步骤s601中，该情感分类器可以是softmax分类器等等，不做限制。以softmax分类器为例，基于softmax分类器创建候选音乐情感表征向量在每一候选音乐情感类别上的概率分布，实现对候选音乐情感表征向量的情感评分，将每一候选音乐情感类别的概率分布向量作为候选音乐在该候选音乐情感类别上的音乐情感分值。
116.在一些实施例的步骤s602中，由于音乐情感分值的大小可以直接反映出候选音乐情感表征向量属于每一候选音乐情感类别的可能性，即音乐情感分值越大，候选音乐情感表征向量中的情感特征更偏向于该音乐情感分值对应的候选音乐情感类别。因此，可以从音乐情感分值筛选出最大的音乐情感分值作为目标分值。在确定目标分值之后，根据目标
分值对候选音乐情感类别进行筛选，选取目标分值对应的候选音乐情感类别作为候选音乐的音乐情感类别。
117.需要说明的是，候选音乐情感类别可以根据实际需求进行设定，候选音乐情感类别可以包含有快乐、安静、治愈、怀旧、伤感等多种情感类别，不做限制。
118.通过上述步骤s601至步骤s602能够清楚地根据候选音乐情感表征向量来判断候选音乐的音乐情感类别，能够实现基于候选音乐情感表征向量来预测该候选音乐在每一个候选音乐情感类别上的概率分布大小，能够较好地提高对候选音乐的情感识别的准确性。
119.请参阅图7，在一些实施例中，步骤s502可以包括但不限于包括步骤s701至步骤s703：
120.步骤s701，比对音乐相关分值和预设的音乐相关阈值；
121.步骤s702，选取音乐相关分值高于音乐相关阈值的候选音乐，得到初始音乐；
122.步骤s703，基于初始音乐的音乐情感类别和推荐数目，从初始音乐中筛选出目标音乐。
123.在一些实施例的步骤s701和步骤s702中，由于音乐相关分值能够用于表征候选音乐和参考音乐之间的相关程度，音乐相关分值越高，则候选音乐和参考音乐之间的相关程度越高。因此，为了使得向目标对象推荐与参考音乐更接近的候选音乐，提高推荐准确性，可以根据实际需求设置音乐相关阈值，比对音乐相关分值和音乐相关阈值，根据音乐相关分值和音乐相关阈值的大小关系，筛选出音乐相关分值符合要求的候选音乐，剔除相关性较低的候选音乐，将保留下来的音乐相关分值高于音乐相关阈值的候选音乐作为初始音乐。
124.在一些实施例的步骤s703中，可以统计初始音乐的音乐情感类别的类别数量，基于类别数量和推荐数目来确定每一音乐情感类别应当推荐的音乐数量，根据每一音乐情感类别的音乐数量和该音乐情感类别的初始音乐的音乐相关分值高低，选取音乐相关分值靠前的初始音乐作为目标音乐。
125.例如，推荐数目为100，初始音乐的音乐情感类别包括快乐、安静、怀旧以及伤感四种，为了使得推荐的音乐情感类别的均衡性，将推荐数目进行划分为四等份，拟推荐25首音乐情感类别为快乐的初始音乐、25首音乐情感类别为安静的初始音乐、25首音乐情感类别为怀旧的初始音乐以及25首音乐情感类别为伤感的初始音乐。因此，从音乐情感类别为快乐的初始音乐中提取音乐相关分值排在前25位的初始音乐作为目标音乐，并采用同样的方式对其他音乐情感类别的初始音乐进行筛选，得到100首目标音乐。
126.进一步地，当某一音乐情感类别的初始音乐数量较少时，可以随机选取其他音乐情感类别的初始音乐作为补充的目标音乐，使得目标音乐的总量和推荐数目相等。
127.通过上述步骤s701至步骤s703能够较为灵活地对候选音乐进行筛选，选取与参考音乐之间的相关程度符合要求的候选音乐作为初始音乐，并根据多样化的组合方式从初始音乐中筛选出目标音乐，能够实现音乐推荐的个性化和多样性。
128.在一些实施例的步骤s106中，将目标音乐直接推送给目标用户，或者选取目标音乐中音乐相关分值较为靠前的目标音乐推送给目标对象。进一步地，在推荐目标音乐时，可以采用表格、树状图或者区块等多种形式展示给目标对象。例如，根据不同的音乐情感类别将目标音乐分成多个区块，并将不同的音乐情感区块以不同的颜色着色并展示给目标对
象。这一方式能够在实现音乐个性化推荐的同时，降低通信成本，还能够提高目标音乐的展示多样性。
129.本技术实施例的音乐推荐方法，其通过获取候选音乐和参考音乐，其中，参考音乐根据目标对象的操作指令得到；对候选音乐进行频谱变换，得到候选音乐频谱序列，并对参考音乐进行频谱变换得到参考音乐频谱序列，能够较为方便地提取到参考音乐和候选音乐的音频特征信息。进一步地，对候选音乐频谱序列进行音频特征提取，得到候选音乐情感表征向量，并对参考音乐频谱序列进行音频特征提取，得到参考音乐情感表征向量，能够较好地捕捉音乐频谱序列中的中间频谱片段之间的长距离依赖关系，并基于这一长距离依赖关系确定中间频谱片段之间的相关性，从而根据中间频谱片段之间的相关性来提取音乐频谱序列的整体情感表征信息，能够实现对输入音乐的情感表征信息的细粒度化，有利于提高音乐推荐的准确性。进一步地，基于候选音乐情感表征向量、参考音乐情感表征向量对候选音乐和参考音乐进行相关性评分，得到音乐相关分值，并根据音乐相关分值和预设的推荐数目对候选音乐进行筛选，得到目标音乐，能够较为灵活地对候选音乐进行筛选，选取与参考音乐之间的相关程度符合要求的候选音乐作为目标音乐，提高了音乐筛选的准确性和合理性，最后，将目标音乐推送给目标对象，能够有效地提高音乐推荐的准确性。
130.请参阅图8，本技术实施例还提供一种音乐推荐装置，可以实现上述音乐推荐方法，该装置包括：
131.音乐获取模块801，用于获取候选音乐和参考音乐，其中，参考音乐根据目标对象的操作指令得到；
132.频谱变换模块802，用于对候选音乐进行频谱变换，得到候选音乐频谱序列，并对参考音乐进行频谱变换得到参考音乐频谱序列；
133.特征提取模块803，用于对候选音乐频谱序列进行音频特征提取，得到候选音乐情感表征向量，并对参考音乐频谱序列进行音频特征提取，得到参考音乐情感表征向量；
134.相关性评分模块804，用于基于候选音乐情感表征向量、参考音乐情感表征向量对候选音乐和参考音乐进行相关性评分，得到音乐相关分值；
135.音乐筛选模块805，用于根据音乐相关分值和预设的推荐数目对候选音乐进行筛选，得到目标音乐；
136.音乐推荐模块806，用于将目标音乐推送给目标对象。
137.该音乐推荐装置的具体实施方式与上述音乐推荐方法的具体实施例基本相同，在此不再赘述。
138.本技术实施例还提供了一种电子设备，电子设备包括：存储器、处理器、存储在存储器上并可在处理器上运行的程序以及用于实现处理器和存储器之间的连接通信的数据总线，程序被处理器执行时实现上述音乐推荐方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。
139.请参阅图9，图9示意了另一实施例的电子设备的硬件结构，电子设备包括：
140.处理器901，可以采用通用的cpu(centralprocessingunit，中央处理器)、微处理器、应用专用集成电路(applicationspecificintegratedcircuit，asic)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本技术实施例所提供的技术方案；
141.存储器902，可以采用只读存储器(readonlymemory，rom)、静态存储设备、动态存
储设备或者随机存取存储器(randomaccessmemory，ram)等形式实现。存储器902可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器902中，并由处理器901来调用执行本技术实施例的音乐推荐方法；
142.输入/输出接口903，用于实现信息输入及输出；
143.通信接口904，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如usb、网线等)实现通信，也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信；
144.总线905，在设备的各个组件(例如处理器901、存储器902、输入/输出接口903和通信接口904)之间传输信息；
145.其中处理器901、存储器902、输入/输出接口903和通信接口904通过总线905实现彼此之间在设备内部的通信连接。
146.本技术实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器执行，以实现上述音乐推荐方法。
147.存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
148.本技术实施例提供的音乐推荐方法、音乐推荐装置、电子设备及计算机可读存储介质，其通过获取候选音乐和参考音乐，其中，参考音乐根据目标对象的操作指令得到；对候选音乐进行频谱变换，得到候选音乐频谱序列，并对参考音乐进行频谱变换得到参考音乐频谱序列，能够较为方便地提取到参考音乐和候选音乐的音频特征信息。进一步地，对候选音乐频谱序列进行音频特征提取，得到候选音乐情感表征向量，并对参考音乐频谱序列进行音频特征提取，得到参考音乐情感表征向量，能够较好地捕捉音乐频谱序列中的中间频谱片段之间的长距离依赖关系，并基于这一长距离依赖关系确定中间频谱片段之间的相关性，从而根据中间频谱片段之间的相关性来提取音乐频谱序列的整体情感表征信息，能够实现对输入音乐的情感表征信息的细粒度化，有利于提高音乐推荐的准确性。进一步地，基于候选音乐情感表征向量、参考音乐情感表征向量对候选音乐和参考音乐进行相关性评分，得到音乐相关分值，并根据音乐相关分值和预设的推荐数目对候选音乐进行筛选，得到目标音乐，能够较为灵活地对候选音乐进行筛选，选取与参考音乐之间的相关程度符合要求的候选音乐作为目标音乐，提高了音乐筛选的准确性和合理性，最后，将目标音乐推送给目标对象，能够有效地提高音乐推荐的准确性。
149.本技术实施例描述的实施例是为了更加清楚的说明本技术实施例的技术方案，并不构成对于本技术实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本技术实施例提供的技术方案对于类似的技术问题，同样适用。
150.本领域技术人员可以理解的是，图1-7中示出的技术方案并不构成对本技术实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。
151.以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
152.本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
153.本技术的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
154.应当理解，在本技术中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“a和/或b”可以表示：只存在a，只存在b以及同时存在a和b三种情况，其中a，b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。
155.在本技术所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
156.上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
157.另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
158.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例的方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-only memory，简称rom)、随机存取存储器(random access memory，简称ram)、磁碟或者光盘等各种可以存储程序的介
质。
159.以上参照附图说明了本技术实施例的优选实施例，并非因此局限本技术实施例的权利范围。本领域技术人员不脱离本技术实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本技术实施例的权利范围之内。

技术特征：
1.一种音乐推荐方法，其特征在于，所述方法包括：获取候选音乐和参考音乐，其中，所述参考音乐根据目标对象的操作指令得到；对所述候选音乐进行频谱变换，得到候选音乐频谱序列，并对所述参考音乐进行频谱变换得到参考音乐频谱序列；对所述候选音乐频谱序列进行音频特征提取，得到候选音乐情感表征向量，并对所述参考音乐频谱序列进行音频特征提取，得到参考音乐情感表征向量；基于所述候选音乐情感表征向量、所述参考音乐情感表征向量对所述候选音乐和所述参考音乐进行相关性评分，得到音乐相关分值；根据所述音乐相关分值和预设的推荐数目对所述候选音乐进行筛选，得到目标音乐；将所述目标音乐推送给所述目标对象。2.根据权利要求1所述的音乐推荐方法，其特征在于，所述根据所述音乐相关分值和预设的推荐数目对所述候选音乐进行筛选，得到目标音乐，包括：基于所述候选音乐情感表征向量对所述候选音乐进行情感预测，得到所述候选音乐的音乐情感类别；基于所述音乐情感类别、所述推荐数目和所述音乐相关分值对所述候选音乐进行筛选，得到所述目标音乐。3.根据权利要求2所述的音乐推荐方法，其特征在于，所述基于所述候选音乐情感表征向量对所述候选音乐进行情感预测，得到所述候选音乐的音乐情感类别，包括：基于预设的情感分类器对所述候选音乐情感表征向量进行情感评分，得到音乐情感分值；基于所述音乐情感分值，从预设的多个候选音乐情感类别中筛选出所述音乐情感类别。4.根据权利要求2所述的音乐推荐方法，其特征在于，所述基于所述音乐情感类别、所述推荐数目和所述音乐相关分值对所述候选音乐进行筛选，得到所述目标音乐，包括：比对所述音乐相关分值和预设的音乐相关阈值；选取所述音乐相关分值高于所述音乐相关阈值的候选音乐，得到初始音乐；基于所述初始音乐的音乐情感类别和所述推荐数目，从所述初始音乐中筛选出所述目标音乐。5.根据权利要求1所述的音乐推荐方法，其特征在于，所述对所述候选音乐进行频谱变换，得到候选音乐频谱序列，并对所述参考音乐进行频谱变换得到参考音乐频谱序列，包括：基于预设函数对所述候选音乐进行频谱特征提取，得到候选音乐频谱图，并基于所述预设函数对所述参考音乐进行频谱特征提取，得到参考音乐频谱图；根据预设的第一窗口参数对所述候选音乐频谱图进行特征变换，得到所述候选音乐频谱序列；根据预设的第二窗口参数对所述参考音乐频谱图进行特征变换，得到所述参考音乐频谱序列。6.根据权利要求5所述的音乐推荐方法，其特征在于，所述根据预设的第一窗口参数对所述候选音乐频谱图进行特征变换，得到所述候选音乐频谱序列，包括：
基于所述第一窗口参数对所述候选音乐频谱图进行裁剪处理，得到多个候选频谱片段；对所述候选频谱片段进行展平处理，得到中间频谱片段；基于预设的拼接顺序对多个所述中间频谱片段进行合并处理，得到所述候选音乐频谱序列。7.根据权利要求1至6任一项所述的音乐推荐方法，其特征在于，所述对所述候选音乐频谱序列进行音频特征提取，得到候选音乐情感表征向量，并对所述参考音乐频谱序列进行音频特征提取，得到参考音乐情感表征向量，包括：基于预设的编码网络对所述候选音乐频谱序列进行特征提取，得到所述候选音乐情感表征向量，其中，所述编码网络包括至少两个transformer编码器；基于所述编码网络对所述参考音乐频谱序列进行特征提取，得到所述参考音乐情感表征向量。8.一种音乐推荐装置，其特征在于，所述装置包括：音乐获取模块，用于获取候选音乐和参考音乐，其中，所述参考音乐根据目标对象的操作指令得到；频谱变换模块，用于对所述候选音乐进行频谱变换，得到候选音乐频谱序列，并对所述参考音乐进行频谱变换得到参考音乐频谱序列；特征提取模块，用于对所述候选音乐频谱序列进行音频特征提取，得到候选音乐情感表征向量，并对所述参考音乐频谱序列进行音频特征提取，得到参考音乐情感表征向量；相关性评分模块，用于基于所述候选音乐情感表征向量、所述参考音乐情感表征向量对所述候选音乐和所述参考音乐进行相关性评分，得到音乐相关分值；音乐筛选模块，用于根据所述音乐相关分值和预设的推荐数目对所述候选音乐进行筛选，得到目标音乐；音乐推荐模块，用于将所述目标音乐推送给所述目标对象。9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的音乐推荐方法。10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的音乐推荐方法。

技术总结
本申请提供了一种音乐推荐方法、音乐推荐装置、电子设备及存储介质，属于人工智能技术领域。该方法包括：获取候选音乐和参考音乐，参考音乐根据目标对象的操作指令得到；对候选音乐进行频谱变换，得到候选音乐频谱序列，并对参考音乐进行频谱变换得到参考音乐频谱序列；对候选音乐频谱序列进行音频特征提取，得到候选音乐情感表征向量，并对参考音乐频谱序列进行音频特征提取，得到参考音乐情感表征向量；基于候选音乐情感表征向量、参考音乐情感表征向量对候选音乐和参考音乐进行相关性评分，得到音乐相关分值；根据音乐相关分值和预设的推荐数目对候选音乐进行筛选，得到目标音乐；将目标音乐推送给目标对象。本申请能够音乐推荐的准确性。的准确性。的准确性。

技术研发人员：张旭龙王健宗程宁赵嘉豪
受保护的技术使用者：平安科技（深圳）有限公司
技术研发日：2023.05.19
技术公布日：2023/7/27

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种太阳能发电用变压器的制作方法 下一篇：一种纤维切断机的制作方法

音乐推荐方法、音乐推荐装置、电子设备及存储介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

音乐推荐方法、音乐推荐装置、电子设备及存储介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表