内容提示方法、装置、存储介质及计算机设备与流程
未命名
09-17
阅读:66
评论:0
1.本技术涉及网络直播领域,具体涉及一种内容提示方法、装置、存储介质及计算机设备。
背景技术:
2.随着直播行业的不断发展,直播渗透于人们生活的各个方面,越来越多的用户通过网络直播中主播对商品进行直播讲解的方式对商品进行了解,并根据用户对商品的了解完成相应的网络购物行为。
3.然而,对商品进行讲解的直播通常都是没有字幕的,这就导致当用户无法听到主播对商品的语音讲解时,用户难以通过直播实现对商品的了解,使得用户通过直播方式进行商品购买的体验效果差,导致用户错过意向内容或者放弃观看直播,并进而无法实现网络购物行为。
技术实现要素:
4.本技术实施例提供一种内容提示方法、装置、存储介质及计算机设备,可以增加直播展示的多样性,优化用户通过直播方式进行商品购买的体验效果。
5.为解决上述的技术问题,本技术实施例提供以下技术方案:
6.一种内容提示方法,包括:
7.获取直播间的实时音频数据;
8.将所述实时音频数据输入自动语音识别系统,输出对应的文字内容;
9.对所述文字内容进行句法分析,确定所述实时音频数据中的话术关键词;
10.在直播界面显示所述话术关键词,以对重点内容进行提示。
11.一种内容提示装置,包括:
12.获取单元,用于获取直播间的实时音频数据;
13.识别单元,用于将所述实时音频数据输入自动语音识别系统,输出对应的文字内容;
14.分析单元,用于对所述文字内容进行句法分析,确定所述实时音频数据中的话术关键词;
15.提示单元,用于在直播界面显示所述话术关键词,以对重点内容进行提示。
16.在一些实施例中,该内容提示装置,还用于:
17.当所述实时音频数据的音频为第一类型音频时,将所述第一类型音频的实时音频数据输入自动语音识别系统,其中,所述第一类型音频包括单人语音;
18.当所述实时音频数据的音频为第二类型音频时,获取所述第二类型音频的实时音频数据中的目标人物语音,并将所述第二类型音频的实时音频数据中的目标人物语音输入自动语音识别系统,其中,所述第二类型音频为多人语音。
19.在一些实施例中,该内容提示装置,还用于:
20.当所述第二类型音频的实时音频数据的采集设备配置为第一配置时,根据所述实时音频数据的音频能量信息,确定主声源位置,并采集所述主声源位置的音频信息,得到第一目标人物语音,其中,所述第一配置为多声道阵列;
21.当所述第二类型音频的实时音频数据的采集设备配置为第二配置时,采用人声分割技术获取所述实时音频数据的独立音频片段,得到第二目标人物语音,其中,所述第二配置为单声道阵列。
22.在一些实施例中,该识别单元,用于:
23.识别子单元,用于将所述第一类型音频的实时音频数据和/或第二类型音频的实时音频数据中的目标人物语音输入自动语音识别系统,输出实时音频数据对应的文字内容。
24.在一些实施例中,该分析单元,用于:
25.获取直播间预设的重点结构,并在所述实时音频数据对应的文字内容中筛选与所述重点结构一致的句法结构;
26.将所述句法结构对应的文字内容作为实时音频数据中的话术关键词。
27.在一些实施例中,该分析子单元,还用于:
28.当所述实时音频数据对应的文字内容在除去所述句法结构后还包含额外内容时,则对所述额外内容进行缓存记录;
29.当接收到下一文字内容时,将所述额外内容与下一文字内容进行拼接,并在拼接后的文字内容中筛选与所述重点结构一致的第二句法结构。
30.在一些实施例中,该分析子单元,还用于:
31.对拼接的文字内容对应的实时音频数据进行静音检测,若所述若干数量的实时音频数据的静音时间超过预设阈值,则清空额外内容的缓存记录。
32.在一些实施例中,该提示单元,包括:
33.播放子单元,用于将所述话术关键词放置在所述直播界面的预设位置进行第一预设时长的播放。
34.在一些实施例中,该内容提示装置,还用于:
35.获取对当前的实时音频数据进行内容提示的话术关键词,并将所述话术关键词进行汇总,得到关键词列表,其中,所述关键词列表包含对一项产品进行讲解的完整话术关键词;
36.当接收目标语音信息时,将所述关键词列表放置在所述直播界面的预设位置进行第二预设时长的播放。
37.一种计算机存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行上述内容提示方法中的步骤。
38.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述提供的内容提示方法中的步骤。
39.一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在存储介质中。计算机设备的处理器从存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机设备执行上述提供的内容提示方
法中的步骤。
40.本技术实施例获取直播间的实时音频数据;将所述实时音频数据输入自动语音识别系统,输出对应的文字内容,并对所述文字内容进行句法分析,确定所述实时音频数据中的话术关键词;在直播界面显示所述话术关键词,以对重点内容进行提示。以此,通过在直播界面中播放实时音频数据对应的话术关键词,实现对当前直播界面正在讲解的商品进行重点内容的播放提示,使得用户对商品进行了解的方式多样化,优化用户通过直播方式进行商品购买的体验效果。
附图说明
41.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
42.图1是本技术实施例提供的内容提示系统的场景示意图;
43.图2是本技术实施例提供的内容提示方法的流程示意图;
44.图3是本技术实施例提供的内容提示方法的另一流程示意图;
45.图4a是本技术实施例提供的内容提示的场景示意图;
46.图4b是本技术实施例提供的内容提示的另一场景示意图;
47.图5是本技术实施例提供的内容提示装置的结构示意图;
48.图6是本技术实施例提供的计算机设备的结构示意图。
具体实施方式
49.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
50.本技术实施例提供一种内容提示方法、装置、存储介质及计算机设备。
51.请参阅图1,图1为本技术实施例所提供的内容提示系统的场景示意图,包括:客户端a和服务器b,客户端a和服务器b之间可以通过通信网络连接,该通信网络,包括无线网络以及有线网络,其中无线网络包括无线广域网、无线局域网、无线城域网、以及无线个人网中的一种或多种的组合。网络中包括路由器、网关等等网络实体,图中并未示意出。客户端a可以通过通信网络与服务器b进行信息交互。
52.该内容提示系统可以包括内容提示装置,该内容提示装置具体可以集成在平板电脑、手机、笔记本电脑、台式电脑等具备储存单元并安装有微处理器而具有运算能力的终端中,该终端可以安装客户端,其中,客户端可以用于播放应用技术成像得到的画面,例如直播客户端用于播放直播音视频或者虚拟环境客户端用于播放虚拟成像场景等,需要说明的是,该直播客户端可以包括主播客户端或者观众客户端,在图1中,该客户端a可以用于获取直播间的实时音频数据;将所述实时音频数据输入自动语音识别系统,输出对应的文字内容;对所述文字内容进行句法分析,确定所述实时音频数据中的话术关键词;在直播界面显
示所述话术关键词,以对重点内容进行提示。
53.该内容提示系统还可以包括服务器b,该服务器b中可以存储有主播客户端对各项产品进行讲解的音视频数据,当服务器b接收到主播对产品进行讲解的音视频数据时,服务器b对该直播进内的音视频数据进行缓存记录。该服务器b还可以缓存记录直播间内音视频数据对应的话术关键词,将该话术关键词返回客户端a进行产品重点内容提示。该服务器b还可以缓存记录直播间内对一项产品进行播放提示的话术关键词列表,将该话术关键词列表返回客户端a进行针对一项产品重点内容集中提示。
54.需要说明的是,图1所示的内容提示系统的场景示意图仅仅是一个示例,本技术实施例描述的内容提示系统以及场景是为了更加清楚的说明本技术实施例的技术方案,并不构成对于本技术实施例提供的技术方案的限定,本领域普通技术人员可知,随着内容提示系统的演变和新业务场景的出现,本技术实施例提供的技术方案对于类似的技术问题,同样适用。
55.以下分别进行详细说明。
56.在本实施例中,将从内容提示装置的角度进行描述,该内容提示装置具体可以集成在终端的客户端中。
57.请参阅图2,图2是本技术实施例提供的内容提示方法的流程示意图。该内容提示方法包括:
58.在步骤101中,获取直播间的实时音频数据。
59.在本实施例中,具体的应用场景可以是应用于直播客户端的带货场景,其中,直播客户端可以是观众客户端,该观众客户端可以进入任意带货主播的直播间,开启该主播客户端对应的直播间进行直播观看,在本实施例中,用户通过在直播间内观看主播向用户对产品进行动态讲解,用户根据主播对商品的讲解实现对商品的了解,并进一步地进行商品购买,实现网络购物行为。
60.传统的网络购物方式通过图片、视频等方式对商品进行展示,而随着近年来直播行业的普及与发展,通过主播对商品的讲解成为用户了解商品信息的重要渠道,用户可以切换不同直播间,观看不同直播间内主播对不同产品的讲解,实现对不同产品的信息进行了解,并根据用户的自我需求与产品信息,选择进行购买的目标产品。然而,在相关技术中,用户在直播间通过主播对产品的介绍了解商品信息时,非常依赖主播对产品进行讲解的音频信息,通过“听到”主播对产品的讲解获取产品信息。这就意味着,当用户处于音频无法播放的环境时,用户无法获取直播间内正讲解的当前产品信息,用户通过直播方式进行产品购买的体验效果差。
61.以此,本技术实施例通过在对产品进行讲解的直播界面上播放显示主播的话术关键词,该话术关键词在直播界面进行播放,用于提示用户当前产品的关键性特征,通过产品的关键性特征进行播放提示,使得用户在音频无法播放的环境下仍能对产品进行快速且精准的了解,优化用户通过直播方式进行产品购买的体验效果。
62.在本技术实施例中,观众客户端可以显示主播对产品进行讲解的直播界面,该直播界面上可以播放主播进行产品讲解的音视频数据。在直播的音视频数据进行播放时,该直播界面上可以显示主播对产品进行讲解时的话术关键词,该话术关键词用于提示主播对产品进行讲解时的音视频数据,该话术关键词是根据主播对产品进行讲解时的音视频数据
中的实时音频数据进行识别得到,相应的,客户端先可以获取主播对产品进行讲解时的实时音频数据。
63.在步骤102中,将所述实时音频数据输入自动语音识别系统,输出对应的文字内容;
64.需要说明的是,自动语音识别(automaticspeechrecognition,asr)是一种对音频信息进行识别,并将音频信息转化为文字内容的语音到文本转换技术。
65.当主播通过主播客户端对产品进行介绍时,生成实时的音频数据和视频数据,主播客户端的直播间通过对实时的音频数据和视频数据进行同步播放,实现将产品的信息传递给用户的目的,在现有技术中,在实时的音频数据和视频数据同步播放时,直播间的播放界面不存在播放字幕对主播当前讲解的产品进行提示,因此,当实时的音频数据无法与视频数据同步播放或音频数据无法播放时,用户观看直播的体验感会直线下降。
66.为解决上述技术问题,本技术技术方案在获取直播间内主播对当前产品进行讲解的实时音频数据之后,对直播间当前的实时音频数据进行自动语音识别,根据与实时播放的视频数据对应的实时音频数据,生成实时音频数据对应的文字内容,该文字内容是对直播间当前的实时音视频数据输入预设的自动语音识别系统得到的与实时音视频数据对应的文字内容。
67.在步骤103中,对所述文字内容进行句法分析,确定所述实时音频数据中的话术关键词。
68.其中,该话术关键词是直播间内主播当前讲解产品的重要特征信息,该话术关键词能够以字幕的形式对主播当前讲解的产品进行重点内容的关键词提示。本技术技术方案通过表示重要特征信息的关键词对产品进行重要内容提示,并非将直播间内主播当前的所有语音内容以字幕的形式进行播放,以此,提升了用户在通过关键词提示内容对产品进行了解的效率,能够快速且精准地了解产品。
69.在一实施方式中,确定所述实时音频数据中的话术关键词的方式可以是对该文字内容进行句法分析,筛选文字内容中与预设的重点结构一致的句法结构,并将该句法结构作为主播当前讲解的产品的话术关键词。
70.在步骤104中,在直播界面显示所述话术关键词,以对重点内容进行提示。
71.在其他领域的相关技术中,在视频或是影视播放的过程中,在视频播放界面的预设位置播放语音数据对应的全部文字内容作为字幕与视频内容同步呈现,若将字幕应用于直播间内主播当前讲解产品的直播场景,播放主播的全部话术内容,会导致用户无法将注意力集中与主播进行讲解的产品本身,进而忽略产品的重要特征,对产品进行特征信息了解的效率低、效果差。
72.为解决上述问题,本技术技术方案在直播界面中播放主播当前讲解的产品的话术关键词,其中,该话术关键词是直播间内主播当前讲解产品的重要特征信息,该话术关键词用于在直播界面对实时播放的视频数据进行重要特征信息提示,能够提升用户获取产品信息的效率,优化用户对产品进行了解的效果。
73.由上可知,本技术实施例获取直播间的实时音频数据;将所述实时音频数据输入自动语音识别系统,输出对应的文字内容;对所述文字内容进行句法分析,确定所述实时音频数据中的话术关键词;在直播界面显示所述话术关键词,以对重点内容进行提示。以此,
通过对实时音频数据进行语音识别,确定主播对当前产品进行讲解话术中的话术关键词,并在直播界面中播放话术关键词,实现对当前直播界面正在讲解的商品进行重点内容的播放提示,增加了以字幕形式对产品进行了解的渠道,使得用户对产品进行了解的方式多样化,优化用户通过直播方式进行产品购买的体验效果。
74.在本实施例中,将从内容提示装置的角度进行描述,该内容提示装置具体可以集成在平板电脑、手机等具备储存单元并安装有微处理器而具有运算能力的终端中,该终端可以开启直播客户端,在本技术实施例中,该直播客户端可以为观众客户端。
75.请参阅图3,图3为本技术实施例提供的信息处理方法的另一流程示意图。在步骤101,获取直播间的实时音频数据之后,该方法流程还可以包括:
76.步骤201,判断实时音频数据的音频类型。
77.其中,实时音频数据的音频类型至少包括第一类型音频和第二类型音频,第一类型音频可以是单人语音,第二类型音频可以是多人语音,在一些其他实施例中,实时音频数据还可以包括人声与非人声语音等多种类音频数据或各类音频数据的排列组合,在此对直播界面的实时音频数据不做具体限定,本技术以单人语音和多人语音的音频类型进行具体说明。
78.在一些实施方式中,包含单人语音和多人语音的实时音频数据根据不同的音频类型进行不同的方式的自动语音识别,具体如下:
79.类型一:当所述实时音频数据的音频为第一类型音频时,将所述第一类型音频的实时音频数据输入自动语音识别系统,其中,所述第一类型音频包括单人语音。
80.需要说明的是,第一类型音频是指对产品进行直播讲解对应的音视频数据中的音频数据为非多人且非多频的音频数据,第一类型音频的音频数据可以包括当直播界面中进行播放的音视频数据中的音频数据为单一采集设备接收到的单人语音,当客户端的直播界面中进行播放的音视频数据中的音频数据为单人语音,例如进行直播时主播有独立的麦克风,则获取的实时音频数据中只存在一位主播对产品进行单人的商品讲解,则直接将该主播的单人音频输入自动语音识别系统。
81.类型二:当所述实时音频数据的音频为第二类型音频时,获取所述第二类型音频的实时音频数据中的目标人物语音,并将所述第二类型音频的实时音频数据中的目标人物语音输入自动语音识别系统,其中,所述第二类型音频为多人语音。
82.需要说明的是,第二类型音频是指对产品进行直播讲解对应的音视频数据中的音频数据为多人和/或多频的音频数据,第二类型音频的音频数据可以包括在直播界面中进行播放的音视频数据中的音频数据为单一采集设备和/或多个采集设备接收到的多人语音,当客户端的直播界面中进行播放的音视频数据中的音频数据为多人语音,例如在当前直播间直播界面中的视频数据中存在多位主播对产品进行多人介绍,且在介绍的过程中,直播间直播界面中的音频数据还可以包括背景音乐、直播环境中的噪音等多人的音频信息,则对该直播间内的音频信息进行识别,确定对产品进行讲解的目标人物语音,并将目标人物语音输入自动语音识别系统。
83.在一些实施方式中,在判断实时音频数据的音频类型之后,该方法还可以包括:
84.步骤202,判断第二类型音频的实时音频数据的采集设备配置。
85.由上述阐述可知,第二类型音频的实时音频数据是包括两人以及两人以上的音频
内容的多人语音,因此,在本实施例中需要对该多人语音的采集设备配置进行识别,并根据实时音频数据的采集设备配置确定实时音频数据中的目标音频信息。
86.其中,第二类型音频的实时音频数据的采集设备配置至少包括第一配置和第二配置,第一配置可以是多声道阵列,多声道阵列可以是多麦克风阵列,则收集实时音频数据的设备可以从多角度、多信道采集音频。第二配置可以是单声道阵列,单声道阵列可以是单声道麦克风设备。
87.配置一:当所述第二类型音频的实时音频数据的采集设备配置为第一配置时,根据所述实时音频数据的音频能量信息,确定主声源位置,并采集所述主声源位置的音频信息,得到第一目标人物语音,其中,所述第一配置为多声道阵列;
88.需要说明的是,第一配置是指实时音频数据的采集设备可以从多角度、多信道获取直播间内主播对产品进行讲解的音频数据,第一配置的采集设备可以包括多麦克风阵列设备,通过多麦克风阵列设备可以采集多个方向对应的多个声源,生成直播间的实时音频数据。例如在当前直播间直播界面中的视频数据中存在多位主播对产品进行多人介绍,主播1在多麦克风阵列设备a的a方向进行产品讲解,主播2在多麦克风阵列设备a的b方向进行气氛烘托,生成当前直播间主播对产品进行讲解的音频信息。
89.进一步地,在多麦克风阵列设备接收到当前直播间内的实时音频数据后,在直播场景内声源从一个主方向进行发声,因此,可以通过实时音频信息的音频能量等信息确定实时音频数据的主声源位置,根据主声源位置选取最有可能的目标人物语音。
90.配置二:当所述第二类型音频的实时音频数据的采集设备配置为第二配置时,采用人声分割技术获取所述实时音频数据的独立音频片段,得到第二目标人物语音,其中,所述第二配置为单声道阵列。
91.需要说明的是,第二配置是指实时音频数据的采集设备通过单声道、单音频的采集设备获取直播间内主播对产品进行讲解的音频数据,第二配置的采集设备获取的音频信息可以是单声道、单音频的音频数据,该单声道、单音频的音频数据为直播间内主播对产品进行讲解的实时音频数据,而在该单声道、单音频的实时音频数据中包含两人及两人以上的音频内容。例如,在当前直播间直播界面中的视频数据中存在多位主播对产品进行多人介绍,主播3佩戴音频采集设备b对产品进行介绍,而同直播间的主播4周围并不存在音频采集设备,主播4的声音同时被音频采集设备b获取,生成当前直播间内的实时音频数据。
92.进一步地,在获取到包含两人或两人以上的单声道、单音频的实时音频数据后,可以通过人声分割技术将该实时音频数据分割成独立的音频片段,而具体的分割方式可以通过对实时音频数据中的声纹信息对音频中的人声进行识别,确定说话人的身份,并选取其中的目标人物语音。
93.步骤203,将所述第一类型音频的实时音频数据和/或第二类型音频的实时音频数据中的目标人物语音输入自动语音识别系统,输出实时音频数据对应的文字内容。
94.需要说明的是,本技术将上述第一类型音频的实时音频数据和/或第二类型音频的实时音频数据中的目标人物语音输入自动语音识别系统,通过该自动语音识别系统对实时音频数据进行语音识别,并输出实时音频数据转换而成的文字内容,其中,自动语音识别是一种对音频信息进行识别,并将音频信息转化为文字内容的语音到文本转换技术,自动语音识别系统则是实现自动语音识别的一种具体方式,具体地,自动语音识别系统可以是
包括预处理、特征提取、声学模型、语言模型以及搜索算法等模块的自动语音识别模型,通过语音信号波形提取有效的声学特征,根据声学特征进行识别,匹配后确定实时音频数据对应的文字内容。
95.其中,输入自动语音识别系统的第一类型音频的实时音频数据是只包含一人的音频数据,第二类型音频的实时音频数据中的目标人物语音是在包含两人或两人以上的音频数据中提取出来的目标人物语音。因此,在自动语音识别系统中输入经过处理的音频数据,提升了话术识别的准确性。
96.步骤204,获取直播间预设的重点结构,并在所述实时音频数据对应的文字内容中筛选与所述重点结构一致的句法结构。
97.可以理解的是,实时音频数据对应的文字内容是由若干语句组合而成的语句,而由语句组成的文字内容在整理识别后都会有对应的句法结构,在对文字内容的句法结构进行句结构分析后,得到文字内容中不同的句法结构,并根据预设的重点结构筛选出在语句中的重点结构内容。
98.其中,句法结构可以是词组,也可以是独立成句,是语言进行公式化,在文字内容中可以包括若干数量的句法结构,对文字内容进行句结构分析,确定在当前语音片段中的句法结构。
99.该句法结构是形式语法体系进行公式化语言结构的结构语言,从内部组合的方式看,句法结构的基本类型包括:主谓结构、动宾结构、偏正结构、补充结构和联合结构,上述句法结构的主要基本类型能够体现语言的基本语法关系,通过根据句法结构的基本类型提取文字内容中完整的公式化语言结构的结构语言,而该以句法结构而划分的结构语言能够表达出当前语句要表达的话术关键词。例如,主谓结构可以表达句法中的陈述和被陈述关系,动宾结构可以表达句法中的支配与被支配关系,偏正结构可以表达句法中修饰与被修饰关系,补充结构可以表达补充与被补充关系,联合结构可以表达并列或选择关系等。
100.进一步地,预设的重点结构可以通过主播客户端进行设置。需要说明的是,在对不同产品进行产品讲解时,不同用户的受众对产品的关注点并不相同,因此,对用户进行重点内容提示的提示内容也并不相同,主播在对产品进行讲解的话术关键词也需要相应地做出调整。
101.步骤205,将所述句法结构对应的文字内容作为实时音频数据中的话术关键词。
102.其中,根据通过主播客户端设置的预先设置的重点结构,筛选出实时语音数据对应的文字内容中的与该重点结构一致的句法结构,并将该与该重点结构一致的句法结构的文字内容作为当前主播对产品进行讲解的话术关键词。
103.例如,预设的重点结构内容可以设置为主谓结构,其中,主谓结构是指陈述和被陈述的语言结构关系,通过提取文字内容中包含的若干数量的主谓宾结构,确定在文字内容中要陈述的陈述性的话术关键词。例如主播在对运动器械产品进行产品讲解时,考虑到用户会更加关注产品的受众以及用途,在直播间对运动器械产品进行讲解时或通过主播客户端将预设的重点结构内容设置为主谓结构,通过展示陈述和被陈述的重点语言结构陈述产品的使用方式等重点内容。例如,以“运动小白更爱”来重点提示产品5kg哑铃的受众和用途。
104.在另一实施例中,预设的重点结构内容可以设置为偏正结构,其中,偏正结构是指
修饰和被修饰的语言结构关系,例如定语+中心语,状语+中心语,通过提取文字内容中包含的若干数量的偏正结构,确定在文字内容中的要表达的功效性的话术关键词。例如主播在对美妆产品进行产品讲解时,考虑到用户会更加关注产品的使用效果以及使用体验等,在直播间是对美妆产品进行讲解时会通过主播客户端将预设的重点结构内容设置为偏正结构,通过展示修饰和被修饰的重点语言结构表达产品的使用效果以及使用体验的重点内容。例如,以“皮肤清爽不油腻”来重点提示护肤产品使用后的使用效果以及使用体验。
105.在一些实施方式中,在筛选文字内容中的句法结构后,还包括:
106.(1)当所述实时音频数据对应的文字内容在除去所述句法结构后还包含额外内容时,则对所述额外内容进行缓存记录。
107.(2)当接收到下一文字内容时,将所述额外内容与下一文字内容进行拼接,并在拼接后的文字内容中筛选与所述重点结构一致的第二句法结构。
108.(3)对拼接的文字内容对应的实时音频数据进行静音检测,若所述若干数量的实时音频数据的静音时间超过预设阈值,则清空额外内容的缓存记录。
109.需要说明的是,本技术方案通过对实时音频数据进行识别,得到识别后的文字内容,在该文字内容中,可以包括多个完整的句法结构,而句法结构可以是词组,也可以是独立成句。根据预设的重点结构,在实时音频数据对应的文字内容中与所述重点结构一致的句法结构之后,需要判断筛选之后的文字内容中是否还存在未被提取的额外内容,若在句法结构筛选后,文字内容中还存在额外内容时,需要将该额外内容进行缓存记录。
110.可理解地,在采集直播间的实时音频数据时,可以是采集一段预设时间段的实时音频数据,也可以是采集一段未出现明显中断的实时音频数据。在这些实时音频数据对应的文字内容中筛选完整的句法结构中,可以存在不能组成完整的句法结构的额外内容,在该额外内容中可以包括有效的文字内容,本实施例通过将该额外内容进行暂时的缓存记录,避免有效的实时音频数据对应的文字内容被误删的问题。
111.进一步地,在获取到下一段实时音频数据对应的文字内容后,先将下一段实时音频数据对应的文字内容与缓存记录的上一段实时音频数据对应的额外内容进行拼接,并在拼接后的文字内容中筛选与预设的重点结构一致的第二句法结构。然而,随着进行缓存记录的额外内容不断增加,降低了直播间进行音视频播放的流畅性,为了解决该问题,本实施例通过对缓存记录的额外内容进行静音检测,若缓存记录的额外内容中的静音时长超过预设阈值,则对缓存记录的额外内容进行删除,以提升直播间音视频流播放的流畅性。
112.例如,在第一段实时音频数据“大家买1号口红1号口红”中筛选主谓宾结构得到“大家买1号口红”,并在筛选后检测到该实时音频数据对应的文字内容中还包括额外内容“1号口红”,对该额外内容进行缓存记录,当接收到下一段的实时音频数据时,需要将额外内容与下一段的实时音频数据对应的文字内容进行拼接。
113.具体地,若下一段的实时音频数据为“适合淡妆”,将额外内容与该下一段的实时音频数据进行拼接,筛选得到另一个完整的主谓宾的句法结构“1号口红适合淡妆”;若下一段的实时音频数据为“2号口红是红色”,则将额外内容与该下一段的实时音频数据进行拼接后得到的文字内容是“1号口红”“2号口红是红色”,若在该额外内容与该下一段的实时音频数据的拼接内容中存在的静音时间超过5s,则清空缓存记录的额外内容“1号口红”。
114.步骤206,将所述话术关键词放置在所述直播界面的预设位置进行第一预设时长
的播放。
115.需要说明的是,在获取到直播间内主播对产品进行讲解的实时音频数据中的话术关键词时,可以将话术关键词放置在直播界面的预设位置进行播放,直到话术关键词的播放时长达到预设时长,或是在上一组句法结构在直播界面展示还不满预设时长,却在文字内容中又识别出了新的完整的句法结构,那么此时便可将新的结构内容进行替换,但替换前需要确保前一句法结构对应的话术关键词至少已经显示了最小时长,防止替换速度过快,提升了用户的体验感。
116.可以理解的是,为了更好的理解本技术实施例,可以一并参阅图4a,图4a是本技术实施例提供的内容提示的场景示意图。当直播间在对面包进行产品介绍时,通过提取介绍过程中实时音频信息的话术关键词“松软又好吃”的字幕21在直播界面的左上角对面包进行重点内容提示,播放时长达到2s。
117.步骤207,获取对当前的实时音频数据进行内容提示的话术关键词,并将所述话术关键词进行汇总,得到关键词列表,其中,所述关键词列表包含对一项产品进行讲解的完整话术关键词;
118.需要说明的是,针对同一产品在直播界面播放过的关键话术词,先缓存记录,生成针对某一产品的话术关键词列表,在所述话术关键词列表中包括对产品进行讲解过程中全部实时音频信息中对应播放过的话术关键词,所述话术关键词列表用于对该产品进行简短统一的关键词内容提示。
119.步骤208,当接收目标语音信息时,将所述关键词列表放置在所述直播界面的预设位置进行第二预设时长的播放。
120.需要说明的是,话术关键词列表区分各个产品,并在主播对一个产品进行介绍结束时进行统一的效果展示。因此,获取主播对一个产品介绍的结束时间点能够更好地区分对产品进行关键词统一展示的时间点,通过识别主播在切换介绍产品的时的目标语音信息,比如:下一个,接下来等,确定主播切换介绍产品的结束时间点。
121.具体地,识别主播在切换介绍产品的时的目标语音信息可以通过对主播的语音信息进行近义词检测,当检测到语音内容中包含与“下一个”这类相关的词汇时,识别到目标语音信息,响应于该目标语音信息,提示系统当前时间为切换介绍品类的时间点。并在该时间点,调取缓存记录中上一个产品介绍中所描述到的话术关键词进行统一的关键词列表展示,在关键词列表展示后,清空上一个产品缓存记录的关键词列表,开始记录新的产品对应的话术关键词。
122.为了更好地理解本技术实施例,可以一并参阅图4b,图4b是本技术实施例提供的内容提示的另一场景示意图。当直播间在对面包进行产品介绍时,通过提取介绍过程中播放过的话术关键词对应的关键词列表“松软又好吃、9.9一箱、abb同款”的字幕列表22在直播界面的左方对面包进行重点内容统一展示,播放时长达到1.5s。
123.以此,通过在直播界面的预设位置上播放主播对产品讲解时的话术关键词以及话术关键词列表对直播界面中正在讲解的产品进行重点内容提示,使得用户通过字幕的方式对产品的关键性特征进行了解,在音频无法播放的环境下仍能对产品进行快速且精准的了解,优化用户通过直播方式进行产品购买的体验效果。
124.由上述可知,本技术实施例获取直播间的实时音频数据;将所述实时音频数据输
入自动语音识别系统,输出对应的文字内容;对所述文字内容进行句法分析,确定所述实时音频数据中的话术关键词;在直播界面显示所述话术关键词,以对重点内容进行提示。以此,通过在直播界面中播放实时音频数据对应的话术关键词,实现对当前直播界面正在讲解的商品进行重点内容的播放提示,使得用户对商品进行了解的方式多样化,优化用户通过直播方式进行商品购买的体验效果。
125.请参阅图5,图5为本技术实施例提供的内容提示装置的结构示意图,该内容提示装置应用于终端,其中该内容提示装置可以包括获取单元301、识别单元302以及提示单元303等。
126.获取单元301,用于获取直播间的实时音频数据。
127.识别单元302,用于将所述实时音频数据输入自动语音识别系统,输出对应的文字内容;
128.分析单元303,用于对所述文字内容进行句法分析,确定所述实时音频数据中的话术关键词。
129.提示单元304,用于在直播界面显示所述话术关键词,以对重点内容进行提示。
130.在一些实施例中,该内容提示装置,还用于:
131.当所述实时音频数据的音频为第一类型音频时,将所述第一类型音频的实时音频数据输入自动语音识别系统,其中,所述第一类型音频包括单人语音。
132.当所述实时音频数据的音频为第二类型音频时,获取所述第二类型音频的实时音频数据中的目标人物语音,并将所述第二类型音频的实时音频数据中的目标人物语音输入自动语音识别系统,其中,所述第二类型音频为多人语音。
133.在一些实施例中,该内容提示装置,还用于:
134.当所述第二类型音频的实时音频数据的采集设备配置为第一配置时,根据所述实时音频数据的音频能量信息,确定主声源位置,并采集所述主声源位置的音频信息,得到第一目标人物语音,其中,所述第一配置为多声道阵列;
135.当所述第二类型音频的实时音频数据的采集设备配置为第二配置时,采用人声分割技术获取所述实时音频数据的独立音频片段,得到第二目标人物语音,其中,所述第二配置为单声道阵列。
136.在一些实施例中,该识别单元302,包括:
137.识别子单元,用于将所述第一类型音频的实时音频数据和/或第二类型音频的实时音频数据中的目标人物语音输入自动语音识别系统,输出实时音频数据对应的文字内容;
138.分析子单元,用于对所述文字内容进行句法分析,确定实时音频数据中的话术关键词。
139.在一些实施例中,该分析子单元,用于:
140.根据预设的重点结构内容,提取所述文字内容中完整的句法结构,以确定所述句法结构中的话术关键词。
141.在一些实施例中,该分析单元,用于:
142.获取直播间预设的重点结构,并在所述实时音频数据对应的文字内容中筛选与所述重点结构一致的句法结构;
143.将所述句法结构对应的文字内容作为实时音频数据中的话术关键词。
144.在一些实施例中,该分析子单元,还用于:
145.当所述实时音频数据对应的文字内容在除去所述句法结构后还包含额外内容时,则对所述额外内容进行缓存记录;
146.当接收到下一文字内容时,将所述额外内容与下一文字内容进行拼接,并在拼接后的文字内容中筛选与所述重点结构一致的第二句法结构。
147.在一些实施例中,该分析子单元,还用于:
148.对拼接的文字内容对应的实时音频数据进行静音检测,若所述若干数量的实时音频数据的静音时间超过预设阈值,则清空额外内容的缓存记录。
149.在一些实施例中,该提示单元303,包括:
150.播放子单元,用于将所述话术关键词放置在所述直播界面的预设位置进行第一预设时长的播放。
151.在一些实施例中,该内容提示装置,还用于:
152.获取对当前的实时音频数据进行内容提示的话术关键词,并将所述话术关键词进行汇总,得到关键词列表,其中,所述关键词列表包含对一项产品进行讲解的完整话术关键词;
153.当接收目标语音信息时,将所述关键词列表放置在所述直播界面的预设位置进行第二预设时长的播放。
154.本技术实施例还提供一种计算机设备,该计算机设备可以为终端,如图5所示,其示出了本发明实施例所涉及的计算机设备的结构示意图,具体来讲:
155.该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图6中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
156.处理器401是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
157.存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
158.计算机设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管
理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
159.该计算机设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
160.尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
161.获取直播间的实时音频数据;
162.将所述实时音频数据输入自动语音识别系统,输出对应的文字内容;
163.对所述文字内容进行句法分析,确定所述实时音频数据中的话术关键词;
164.在直播界面显示所述话术关键词,以对重点内容进行提示。
165.在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对内容提示方法的详细描述,此处不再赘述。
166.本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
167.为此,本技术实施例提供一种计算机存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本技术实施例所提供的任一种内容提示方法中的步骤。
168.根据本技术的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例提供的各种可选实现方式中提供的方法。
169.以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
170.其中,该计算机存储介质可以包括:只读存储器(rom,read only memory)、随机存取记忆体(ram,random access memory)、磁盘或光盘等。
171.由于该计算机存储介质中所存储的指令,可以执行本技术实施例所提供的任一种内容提示方法中的步骤,因此,可以实现本技术实施例所提供的任一种内容提示方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
172.以上对本技术实施例所提供的一种内容提示方法、装置、存储介质及计算机设备进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本技术的限制。
技术特征:
1.一种内容提示方法,其特征在于,所述方法包括:获取直播间的实时音频数据;将所述实时音频数据输入自动语音识别系统,输出对应的文字内容;对所述文字内容进行句法分析,确定所述实时音频数据中的话术关键词;在直播界面显示所述话术关键词,以对重点内容进行提示。2.如权利要求1所述的内容提示方法,其特征在于,所述将所述实时音频数据输入自动语音识别系统,包括:当所述实时音频数据的音频为第一类型音频时,将所述第一类型音频的实时音频数据输入自动语音识别系统,其中,所述第一类型音频包括单人语音;当所述实时音频数据的音频为第二类型音频时,获取所述第二类型音频的实时音频数据中的目标人物语音,并将所述第二类型音频的实时音频数据中的目标人物语音输入自动语音识别系统,其中,所述第二类型音频为多人语音。3.如权利要求2所述的内容提示方法,其特征在于,所述获取所述第二类型音频的实时音频数据中的目标人物语音,包括:当所述第二类型音频的实时音频数据的采集设备配置为第一配置时,根据所述实时音频数据的音频能量信息,确定主声源位置,并采集所述主声源位置的音频信息,得到第一目标人物语音,其中,所述第一配置为多声道阵列;当所述第二类型音频的实时音频数据的采集设备配置为第二配置时,采用人声分割技术获取所述实时音频数据的独立音频片段,得到第二目标人物语音,其中,所述第二配置为单声道阵列。4.如权利要求3所述的内容提示方法,其特征在于,所述将所述实时音频数据输入自动语音识别系统,输出对应的文字内容,包括:将所述第一类型音频的实时音频数据和/或第二类型音频的实时音频数据中的目标人物语音输入自动语音识别系统,输出实时音频数据对应的文字内容。5.如权利要求4所述的内容提示方法,其特征在于,所述对所述文字内容进行句法分析,确定所述实时音频数据中的话术关键词,包括:获取直播间预设的重点结构,并在所述实时音频数据对应的文字内容中筛选与所述重点结构一致的句法结构;将所述句法结构对应的文字内容作为实时音频数据中的话术关键词。6.如权利要求5所述的内容提示方法,其特征在于,在所述实时音频数据对应的文字内容中筛选与所述重点结构一致的句法结构之后,所述方法还包括:当所述实时音频数据对应的文字内容在除去所述句法结构后还包含额外内容时,则对所述额外内容进行缓存记录;当接收到下一文字内容时,将所述额外内容与下一文字内容进行拼接,并在拼接后的文字内容中筛选与所述重点结构一致的第二句法结构。7.如权利要求6述的内容提示方法,其特征在于,在所述将所述额外内容与下一文字内容进行拼接之后,所述方法还包括:对拼接的文字内容对应的实时音频数据进行静音检测,若所述若干数量的实时音频数据的静音时间超过预设阈值,则清空额外内容的缓存记录。
8.如权利要求5所述的内容提示方法,其特征在于,所述在直播界面显示所述话术关键词,以对重点内容进行提示,包括:将所述话术关键词放置在所述直播界面的预设位置进行第一预设时长的播放。9.如权利要求1-8任一项所述的内容提示方法,其特征在于,在直播界面显示所述话术关键词,以对重点内容进行提示之后,所述方法还包括:获取对当前的实时音频数据进行内容提示的话术关键词,并将所述话术关键词进行汇总,得到关键词列表,其中,所述关键词列表包含对一项产品进行讲解的完整话术关键词;当接收目标语音信息时,将所述关键词列表放置在所述直播界面的预设位置进行第二预设时长的播放。10.一种内容提示装置,其特征在于,包括:获取单元,用于获取直播间的实时音频数据;识别单元,用于将所述实时音频数据输入自动语音识别系统,输出对应的文字内容;分析单元,用于对所述文字内容进行句法分析,确定所述实时音频数据中的话术关键词;提示单元,用于在直播界面显示所述话术关键词,以对重点内容进行提示。11.一种计算机可读存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至9任一项所述的内容提示方法中的步骤。12.一种计算机设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1至9任一项所述的内容提示方法中的步骤。
技术总结
本申请实施例公开了一种内容提示方法、装置、存储介质及计算机设备。本申请实施例获取直播间的实时音频数据;将所述实时音频数据输入自动语音识别系统,输出对应的文字内容;对所述文字内容进行句法分析,确定所述实时音频数据中的话术关键词;在直播界面显示所述话术关键词,以对重点内容进行提示。以此,通过对实时音频数据进行语音识别,确定主播对当前产品进行讲解话术中的话术关键词,并在直播界面中播放话术关键词,实现对当前直播界面正在讲解的商品进行重点内容的播放提示,增加了以字幕形式对产品进行了解的渠道,使得用户对产品进行了解的方式多样化,优化用户通过直播方式进行产品购买的体验效果。行产品购买的体验效果。行产品购买的体验效果。
技术研发人员:彭子娇 陈东鹏 张伟彬 李亚桐
受保护的技术使用者:深圳市声扬科技有限公司
技术研发日:2023.04.21
技术公布日:2023/9/14
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
