用于增强的上下文切换的回指消解的制作方法

未命名 08-11 阅读:102 评论:0


1.本发明总体上涉及计算领域,并且更具体地涉及自然语言处理。


背景技术:

2.自然语言处理(nlp)是与计算机和人类自然语言之间的交互有关的计算机科学、人工智能和计算语言学的领域,诸如对计算机进行编程以处理包含大的自然语言语料库的多媒体文件。通常,nlp的人工智能组件结合一个或多个神经网络,该神经网络被训练来识别或处理自然语言。
3.神经网络是基于神经单元集合的计算机科学中的计算模型。每个神经单元是人工神经元,该人工神经元可以与其他神经单元连接以创建神经网络。神经网络然后可以被训练以找到针对传统计算机程序失败的问题的解决方案,诸如文本或词嵌入的nlp。


技术实现要素:

4.根据一个实施例,提供一种用于回指消歧(anaphora disambiguation)的方法、计算机系统和计算机程序产品。本发明可包括计算机接收多媒体数据,该多媒体数据包括多个帧。计算机将多媒体数据转换成具有多个频率和多个振幅的信号波。计算机从多个帧中确定具有代词的帧。计算机识别帧的主题。计算机在媒体存储库中搜索与该帧的主题具有最高相关系数的帧,其中,来自媒体存储库的帧包括对象袋(bag of objects),并且通过用来自对象袋的对象替换代词来解析回指消歧。
附图说明
5.从以下将结合附图阅读的对本发明的示例性实施例的详细描述中,本发明的这些和其他目的、特征和优点将变得显而易见。因为图是为了便于本领域技术人员结合具体实施方式理解本发明而清楚起见的,所以附图的各种特征不是按比例的。在附图中:
6.图1示出根据至少一个实施例的示例性联网计算机环境;
7.图2是示出根据至少一个实施例的回指消歧过程的操作流程图;
8.图3是根据至少一个实施例的图1中所描绘的计算机和服务器的内部和外部组件的框图;
9.图4示出根据本发明的实施例的云计算环境;以及
10.图5示出根据本发明的实施例的抽象模型层。
具体实施方式
11.在此公开了所要求保护的结构和方法的详细实施例;然而,应当理解,所公开的实施例仅仅是对所要求保护的结构和方法的说明,它们可以以不同的形式来实施。然而,本发明可以以许多不同的形式体现并且不应被解释为局限于在此阐述的示例性实施例。在描述中,可省略公知的特征和技术的细节以避免不必要地使所呈现的实施例模糊。
12.如先前描述的,nlp是计算机科学、人工智能、以及计算语言学的领域,其与计算机和人类自然语言之间的交互有关,人类自然语言诸如编程计算机以处理包含大的自然语言语料库的多媒体文件。
13.在整个工作日,员工多任务维持支持企业所需的许多不同角色。例如,许多软件开发人员在各种项目上以不同的语言工作。软件开发人员还可以参与社交媒体、营销、发明、项目管理和招聘。消耗许多信息源来实现任务。同时,员工观看视频并收听播客以帮助他们解决任务。许多学习风格是间接形式,并且当人在任务上工作时发生在背景内。由于人改变任务并消费媒体,所以人将模糊代词与先前上下文或无关的源混合在一起。
14.回指(anaphora)是在自然语言中使用词(通常为代词)提及或替换先前在句子中使用的不同词以避免重复的现象。例如,在句子“苏珊把盘子掉下来了;它很响地碎了”中,代词“它”是指盘子。回指也可不指先行词,而是指先行词的补充。例如,在句子“只有几个孩子吃了冰淇淋,而他们把它扔在房间里”中,代词“他们”不是指吃冰淇淋的孩子,而是指不吃冰淇淋的孩子。
15.消歧回指不仅可以帮助使用自然语言的多媒体内容的nlp处理,而且对多媒体内容的认知受损的消费者在诸如观看视频或收听播客时可以是有好处的。这样,除了其他事项之外,实现一种基于将自然语言的一部分转换成信号来解析自然语言中的回指并且基于确定相似的信号来解析回指的系统可以是有利的。
16.根据一个实施例,回指消歧过程可以用于从多媒体文件中提取自然语言数据,并且在将其转换成多个正弦波之后,将其与先前解析的回指波的存储库进行比较,并且基于确定相似性,用具有最高相似性波模式的解析的回指来解析回指。
17.本发明可以是任何可能的技术细节集成度的系统、方法和/或计算机程序产品。计算机程序产品可包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质(或多个介质)。
18.计算机可读存储媒体可为可保留和存储供指令执行装置使用的指令的有形装置。计算机可读存储介质可以是,例如但不限于,电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或者上述的任意合适的组合。计算机可读存储介质的更具体示例的非穷尽列表包括以下各项:便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式紧凑盘只读存储器(cd-rom)、数字通用盘(dvd)、记忆棒、软盘、诸如穿孔卡之类的机械编码设备或具有记录在其上的指令的槽中的凸出结构、以及上述各项的任何合适的组合。如本文所使用的计算机可读存储媒体不应被解释为暂时性信号本身,例如无线电波或其他自由传播的电磁波、通过波导或其他传输媒体传播的电磁波(例如,穿过光纤电缆的光脉冲)或通过电线发射的电信号。
19.本文中所描述的计算机可读程序指令可以经由网络(例如,互联网、局域网、广域网和/或无线网络)从计算机可读存储介质下载到相应的计算/处理设备,或者下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令,并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
20.用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据、或以一种或多种程序设计语言的任何组合编写的源代码或目标代码,这些程序设计语言包括面向对象的程序设计语言(诸如smalltalk、c++等)和过程程序设计语言(诸如“c”程序设计语言或类似程序设计语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可通过任何类型的网络(包括局域网(lan)或广域网(wan))连接至用户计算机,或者可连接至外部计算机(例如,使用互联网服务提供商通过互联网)。在一些实施例中,包括例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令,以便执行本发明的各方面。
21.下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个框以及流程图和/或框图中各框的组合,都可以由计算机可读程序指令实现。
22.这些计算机可读程序指令可被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的框或多个框中指定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置、和/或其他设备以特定方式工作,从而,其中存储有指令的计算机可读存储介质包括包含实现流程图和/或框图中框的或多个框中规定的功能/动作的方面的指令的制造品。
23.也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤,以产生计算机实现的处理,使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图中的框或多个框中规定的功能/动作。
24.附图中的流程图和框图示出了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此,流程图或框图中的每个框可表示指令的模块、段或部分,其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些可替换实现中,框中标注的功能可以不按照图中标注的顺序发生。例如,取决于所涉及的功能,连续示出的两个框实际上可以基本上同时执行,或者这些框有时可以以相反的顺序执行。也要注意的是,框图和/或流程图中的每个框、以及框图和/或流程图中的框的组合,可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的系统来实现。
25.以下描述的示例性实施例提供一种系统、方法和程序产品,其通过将数据组块转换成多个正弦波(每个波具有振幅和频率)并且通过基于正弦波的振幅和频率将正弦波与和相关存储库数据相关联的波进行比较,并且通过注入回指消解(anaphora resolution)来解决歧义,来在多媒体数据中执行回指消歧。
26.参见图1,描绘了根据至少一个实施例的示例性联网计算机环境100。联网计算机
环境100可以包括经由通信网络114互连的客户端计算设备102、服务器112和回指存储库122。根据至少一个实现方式,联网计算机环境100可以包括多个客户端计算设备102和服务器112,为了说明简洁起见,仅示出每一个客户端计算设备中的一个。
27.通信网络114可包括不同类型的通信网络,诸如广域网(wan)、局域网(lan)、电信网络、无线网络、公共交换网络和/或卫星网络。通信网络114可包括连接,例如有线、无线通信链路或光纤电缆。可理解,图1仅提供一个实现方式的图,并且不暗示关于其中可以实现不同实施例的环境的任何限制。可以基于设计和实现要求对所描绘的环境做出许多修改。
28.根据本发明的一个实施例,客户端计算设备102可以包括处理器104和数据存储设备106,数据存储设备106能够托管以及运行软件程序108和回指消歧程序110a并且经由通信网络114与服务器112通信。例如,客户端计算设备102可以是移动设备、电话、个人数字助理、上网本、膝上型计算机、平板计算机、台式计算机、或能够运行程序和访问网络的任何类型的计算设备。如将参见图3讨论的,客户端计算设备102可以分别包括内部组件302a和外部组件304a。
29.根据本发明的实施例,服务器计算机112可以是膝上型计算机、上网本计算机、个人计算机(pc)、台式计算机、或能够托管和运行回指消歧程序110b和数据库116并且经由通信网络114与客户端计算设备102通信的任何可编程电子设备或可编程电子设备的任何网络。如将参见图3讨论的,服务器计算机112可分别包括内部组件302b和外部组件304b。服务器112还可以在云计算服务模型中操作,诸如软件即服务(saas)、平台即服务(paas)或基础设施即服务(iaas)。服务器112还可以位于云计算部署模型中,诸如私有云、社区云、公共云或混合云。
30.主题域118可以是数据库,该数据库将主题域连同存储为多个对象或词袋(bag of words)的先前解析的回指一起存储在桶中。使用nlp方法(诸如通过可以从自然语言文本中提取主题的经训练的神经网络或词嵌入算法)从非活动媒体存储库122提取主题域。
31.回指存储库122可以是数据库、任何可编程电子设备、或能够托管和存储多个多媒体数据(诸如视频流、语音流、文本、语音文件和视频文件)的可编程电子设备和/或数据库的任何网络。在另一实施例中,可以使用web浏览器的搜索功能来动态地确定回指存储库122。
32.根据本实施例,回指消歧程序110a、110b可以是能够分析自然语言、确定一个或多个回指陈述以及通过将回指陈述转换成信号并使用波相似性将该信号与先前解析的或不活动的媒体进行比较来执行代词消歧的程序。下面参考图2更详细地说明回指消歧方法。
33.现在参见图2,描绘了根据至少一个实施例的回指消歧过程200的操作流程图。在202处,回指消歧程序110a、110b接收多媒体对象。多媒体对象可为任何类型的文件,例如音频、视频、或文本、或以任何形式呈现的具有自然语言的数据流,其可转换为文本。根据示例实施例,回指消歧程序110a、110b可从客户端计算设备102接收多媒体对象。
34.接下来,在204处,回指消歧程序110a、110b随时间将多媒体对象转换成信号(即,波)。根据示例实施例,回指消歧程序110a、110b可通过提取音频数据或者如果多媒体对象合并文本则通过使用将文本转换成振幅值的振幅自动解码器神经网络将文本转换成音频来将多媒体对象转换成信号波,并且每个值被分配与生成该值的时间相关联的时间帧。在另一实施例中,回指消歧程序110a、110b可使用语音到文本来将多媒体对象转换成文本,并
且然后应用经训练的神经网络,该经训练的神经网络使用自动解码器神经网络随时间将文本转换成多个振幅。此外,回指消歧程序110a、110b可以使用傅立叶变换将所生成的信号传递到频谱,并且将信号转换成无限正弦波的和,以用于将来的比较(参见下面的步骤210和212)。
35.根据示例实施例,回指消歧程序110a、110b可使用等式将信号变换成无限正弦波之和,其中,n是样本的数量,n是当前样本,xn是时间n处的信号的值,k是当前频率(从0hz到n-1hz),xk是直接傅立叶变换(dft)的结果。
36.回指消歧程序110a、110b可通过使用频谱图方法将信号分解成时间块(帧)来确定所产生的信号的频率和相位。根据示例实施例,回指消歧程序110a、i10b可通过相关的快速傅里叶变换(例如连续时间短期傅里叶变换算法(stft))产生频谱图。使用所确定的频率和相位,可以使用等式来绘制信号,其中,n是样本的数量,n是当前样本,xn是时间n处的信号的值,k是当前频率(从0hz到n-1hz),并且xk是dft(振幅和相位)的结果,w是回看窗口函数,并且m是回看的时间。
37.回看窗口w可随时间参数化以通过使用等式回看值,其中可通过分析背景信息而随时间学习参数m。调整参数m的背景信息可以是基于信息熵和主题深度的。可以使用在帧中覆盖的主要主题来测量主题深度。当主要主题改变时,可以相应地调整值m的长度。可使用等式确定熵(x)。
38.接下来,在206处,回指消歧程序110a、110b将多媒体数据和信号分割成帧。根据示例实施例,回指消歧程序110a、110b可以在持续时间内将多媒体对象和相关联的信号分离成帧,其中一个或多个帧包括回指。每一帧的持续时间可基于前一步骤中确定的回看值m来确定。
39.然后,在208处,回指消歧程序110a、110b使用深度神经网络(dnn)和词到向量方法将信号编码成振幅。根据示例实施例,回指消歧程序110a、110b可使用dnn来标记每个帧中的主要对象,其中可应用长短期记忆(lstm)方法来编码每个帧,其中标签可与主题域118中的一个或多个主题相关联。对于每一对象,可产生描述该对象的向量,该向量包括速度、加速度和标签。如果多媒体对象是视频内容,则色相颜色可被添加到向量作为参数中的一个参数。在dnn可能未确定对象的标签的情况下,回指消歧程序110a、110b可使用词到向量映射(即,词嵌入)方法来确定标签的类似词。在进一步的实施例中,可以对每个编码帧的幅度进行平均。
40.接下来,在210处,回指消歧程序110a、110b执行语义编码。根据示例性实施例,如果回指消歧不能通过用所确定的标签搜索主题域118来定位,则回指消歧程序110a、110b可以通过使用正弦波信号分解来识别对象和非活动媒体存储库122中的多个对象之间的关系来执行语义编码。根据示例,回指消歧程序110a、110b可使用离散傅里叶变换(dft)来分解一对对象之间的关系。
41.然后,在212处,回指消歧程序110a、110b使用相关系数识别内容相关性。根据示例实施例,回指消歧程序110a、110b可使用频谱图(例如,时间对振幅频谱图和频率对振幅频
rom、dvd、记忆棒、磁带、磁盘、光盘或半导体存储设备的一个或多个便携式计算机可读有形存储设备338中读取和向其写入。软件程序(诸如认知屏幕保护程序110a、110b)可存储在一个或多个相应的便携式计算机可读有形存储设备338上,经由相应的r/w驱动器或接口332读取,并加载到相应的硬盘驱动器330中。
49.每组内部组件302a、302b还包括网络适配器或接口336,诸如tcp/ip适配器卡、无线wi-fi接口卡、或3g或4g无线接口卡或其他有线或无线通信链路。客户端计算设备102中的软件程序108和回指消歧程序110a以及服务器112中的回指消歧程序110b可以经由网络(例如,互联网、局域网或其他广域网)和相应的网络适配器或接口336从外部计算机下载到客户端计算设备102和服务器112。从网络适配器或接口336,客户端计算设备102中的软件程序108和回指消歧程序110a以及服务器112中的回指消歧程序110b被加载到相应的硬盘驱动器330中。网络可以包括铜线、光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。
50.每组外部组件304a、304b可以包括计算机显示监测器344、键盘342和计算机鼠标334。外部组件304a、304b还可包括触摸屏、虚拟键盘、触摸板、指向设备、以及其他人机接口设备。每组内部组件302a、302b还包括设备驱动器340以与计算机显示监测器344、键盘342和计算机鼠标334接口连接。设备驱动器340、r/w驱动器或接口332和网络适配器或接口336包括硬件和软件(存储在存储设备330和/或rom 324中)。
51.提前理解的是,虽然本公开包括关于云计算的详细描述,但是本文所引用的教导的实现不限于云计算环境。相反,本发明的实施例能够结合现在已知的或以后开发的任何其他类型的计算环境来实现。
52.云计算是一种服务交付模型,用于使得能够方便地、按需地访问可配置计算资源(例如,可配置计算资源的共享池)的共享池。网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务),其能够以最小的管理努力或与服务的提供商的交互快速地供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。
53.特性如下:
54.按需自助服务:云消费者可以单方面地根据需要自动地提供计算能力,诸如服务器时间和网络存储,而不需要与服务的提供者的人类交互。
55.广泛的网络接入:能力可通过网络获得并且通过标准机制接入,该标准机制促进异构瘦客户机平台或厚客户机平台(例如,移动电话、膝上型计算机和pda)的使用。
56.资源池:提供者的计算资源被池化以使用多租户模型来服务于多个消费者,其中不同的物理和虚拟资源根据需要动态地指派和重新指派。存在位置独立性的感觉,因为消费者通常不具有对所提供的资源的确切位置的控制或了解,但可能能够以较高抽象级别(例如,国家、州或数据中心)指定位置。
57.快速弹性:能够快速和弹性地提供能力,在一些情况下自动地快速缩小和快速释放以快速放大。对于消费者而言,可用于供应的能力通常显得不受限制并且可以在任何时间以任何数量购买。
58.测量的服务:云系统通过在适合于服务类型(例如,存储、处理、带宽和活动用户账户)的某个抽象级别处利用计量能力来自动控制和优化资源使用。可以监测、控制和报告资源使用,为所利用的服务的提供者和消费者提供透明度。
59.服务模型如下:
60.软件即服务(saas):提供给消费者的能力是使用在云基础设施上运行的提供者的应用。可通过诸如web浏览器(例如,基于web的电子邮件)的瘦客户端接口从不同客户端设备访问应用。消费者不管理或控制包括网络、服务器、操作系统、存储或甚至单独的应用能力的底层云基础设施,可能的例外是有限的用户特定应用配置设置。
61.平台即服务(paas):提供给消费者的能力是将消费者创建的或获取的使用由提供商支持的编程语言和工具创建的应用部署到云基础设施上。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施,但是对所部署的应用和可能的应用托管环境配置具有控制。
62.基础设施即服务(iaas):提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其他基本计算资源,软件可以包括操作系统和应用。消费者不管理或控制底层云基础设施,而是具有对操作系统、存储、所部署的应用的控制以及对所选联网组件(例如,主机防火墙)的可能受限的控制。
63.部署模型如下:
64.私有云:云基础架构仅为组织运作。它可以由组织或第三方管理,并且可以存在于场所内或场所外。
65.社区云:云基础架构被若干组织共享并支持共享了关注(例如,任务、安全要求、策略、和合规性考虑)的特定社区。它可以由组织或第三方管理,并且可以存在于场所内或场所外。
66.公共云:使云基础架构对公众或大型行业组可用,并且由出售云服务的组织拥有。
67.混合云:云基础架构是两个或更多个云(私有、社区或公共)的组合,这些云保持唯一实体但通过使数据和应用能够移植的标准化或专有技术(例如,云突发以用于云之间的负载平衡)绑定在一起。
68.云计算环境是面向服务的,集中于无状态、低耦合、模块化和语义互操作性。云计算的核心是包括互连节点网络的基础设施。
69.现在参见图4,描绘了说明性云计算环境50。如图所示,云计算环境50包括云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点100,本地计算设备诸如例如个人数字助理(pda)或蜂窝电话54a、台式计算机54b、膝上型计算机54c和/或汽车计算机系统54n。节点100可彼此通信。它们可以物理地或虚拟地分组(未示出)在一个或多个网络中,诸如如上所述的私有云、社区云、公共云或混合云、或其组合。这允许云计算环境50提供基础设施、平台和/或软件作为云消费者不需要为其维护本地计算设备上的资源的服务。应当理解,图4中所示的计算设备54a-n的类型仅旨在是说明性的,并且计算节点100和云计算环境50可通过任何类型的网络和/或网络可寻址连接(例如,使用网络浏览器)与任何类型的计算机化设备通信。
70.现在参见图5,示出了由云计算环境50提供的一组功能抽象层500。应事先理解,图5中所示的组件、层和功能仅旨在是说明性的,并且本发明的实施例不限于此。如所描述,提供以下层和对应功能:
71.硬件和软件层60包括硬件和软件组件。硬件组件的示例包括:大型机61;基于risc(精简指令集计算机)架构的服务器62;服务器63;刀片服务器64;存储设备65;以及网络和
联网组件66。在一些实施例中,软件组件包括网络应用服务器软件67和数据库软件68。
72.虚拟化层70提供抽象层,从该抽象层可以提供虚拟实体的以下示例:虚拟服务器71;虚拟存储器72;虚拟网络73,包括虚拟专用网络;虚拟应用和操作系统74;以及虚拟客户端75。
73.在一个示例中,管理层80可以提供以下描述的功能。资源供应81提供用于在云计算环境内执行任务的计算资源和其他资源的动态采购。计量和定价82在云计算环境内利用资源时提供成本跟踪,并为这些资源的消费开账单或发票。在一个示例中,这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证,以及为数据和其他资源提供保护。用户门户83为消费者和系统管理员提供对云计算环境的访问。服务水平管理84提供云计算资源分配和管理,使得满足所需的服务水平。服务水平协议(sla)规划和履行85提供根据sla预期未来需求的云计算资源的预安排和采购。
74.工作负载层90提供可以利用云计算环境的功能的示例。可以从该层提供的工作负载和功能的示例包括:地图和导航91;软件开发和生命周期管理92;虚拟课堂教育交付93;数据分析处理94;交易处理95;以及回指消歧96。回指消歧96可涉及识别多媒体数据中的代词,以及通过将代词帧转换成波浪信号,从而在非活动媒体存储库中搜索具有与含有该代词的帧的信号波具有最高相关系数的信号波的一个或多个帧,并用来自该帧的具有最高相关系数的主题替换代词。
75.出于说明的目的呈现了本发明的各种实施方式的描述,但并不旨在是详尽的或者限于所公开的实施方式。在不脱离所描述的实施例的范围的情况下,许多修改和变化对于本领域普通技术人员来说是显而易见的。这里使用的术语被选择来最好地解释实施例的原理、实际应用或对在市场中找到的技术的技术改进,或者使得本领域普通技术人员能够理解这里公开的实施例。

技术特征:
1.一种用于回指消歧的处理器实现的方法,所述方法包括:接收多媒体数据,其中,所述多媒体数据包括多个帧;将所述多媒体数据转换成信号波,其中,使用直接傅里叶变换将所述信号波转换成具有多个频率和多个振幅的多个正弦波;从所述多个帧中识别具有代词的帧;使用深度神经网络标识所述帧的主题;在媒体存储库中搜索与所述帧具有最高相关系数的帧,其中,来自所述媒体存储库的所述帧包括对象袋;以及通过用来自所述对象袋的对象替换所述代词来解析所述回指消歧。2.根据权利要求1所述的方法,其中,将所述多媒体数据转换成所述信号波包括:使用自动解码器神经网络将所述多媒体数据转换成所述多个振幅;以及基于所述多个振幅中的每个振幅的时间帧,从所述多个振幅生成所述信号波。3.根据权利要求1所述的方法,其中,所述多个帧中的每个帧具有持续时间,并且其中,基于所述信号波的短期傅里叶变换来确定所述持续时间。4.根据权利要求1所述的方法,进一步包括:使用频谱图方法将所述信号波分离成帧。5.根据权利要求4所述的方法,其中,所述最高相关系数是基于所述频谱图方法的。6.根据权利要求1所述的方法,进一步包括:使用深度神经网络标识所述帧的标签。7.根据权利要求6所述的方法,进一步包括:生成描述所述对象的向量,其中,所述向量包括速度、加速度和所述标签。8.一种用于回指消歧的计算机系统,所述计算机系统包括:一个或多个处理器、一个或多个计算机可读存储器、一个或多个计算机可读有形存储介质、以及存储在所述一个或多个有形存储介质中的至少一个有形存储介质上的用于由所述一个或多个处理器中的至少一个处理器经由所述一个或多个存储器中的至少一个存储器执行的程序指令,其中,所述计算机系统能够执行方法,所述方法包括:接收多媒体数据,其中,所述多媒体数据包括多个帧;将所述多媒体数据转换成信号波,其中,使用直接傅里叶变换将所述信号波转换成具有多个频率和多个振幅的多个正弦波;从所述多个帧中识别具有代词的帧;使用深度神经网络标识所述帧的主题;在媒体存储库中搜索与所述帧具有最高相关系数的帧,其中,来自所述媒体存储库的所述帧包括对象袋;以及通过用来自所述对象袋的对象替换所述代词来解析所述回指消歧。9.根据权利要求8所述的计算机系统,其中,将所述多媒体数据转换成所述信号波包括:使用自动解码器神经网络将所述多媒体数据转换成所述多个振幅;以及基于所述多个振幅中的每个振幅的时间帧,从所述多个振幅生成所述信号波。10.根据权利要求8所述的计算机系统,其中,所述多个帧中的每个帧具有持续时间,并
且其中,基于所述信号波的短期傅里叶变换来确定所述持续时间。11.根据权利要求8所述的计算机系统,进一步包括:使用频谱图方法将所述信号波分离成帧。12.根据权利要求11所述的计算机系统,其中,所述最高相关系数是基于所述频谱图方法的。13.根据权利要求8所述的计算机系统,进一步包括:使用深度神经网络标识所述帧的标签。14.根据权利要求13所述的计算机系统,进一步包括生成描述所述对象的向量,其中,所述向量包括速度、加速度和所述标签。15.一种用于回指消歧的计算机程序产品,所述计算机程序产品包括:一个或多个计算机可读有形存储介质和存储在所述一个或多个有形存储介质中的至少一个有形存储介质上的程序指令,所述程序指令可由处理器执行,所述程序指令包括:用于接收多媒体数据的程序指令,其中,所述多媒体数据包括多个帧;将所述多媒体数据转换成信号波的程序指令,其中,使用直接傅里叶变换将所述信号波转换成具有多个频率和多个振幅的多个正弦波;用于从所述多个帧中识别具有代词的帧的程序指令;用于使用深度神经网络标识所述帧的主题的程序指令;用于在媒体储存库中搜索与所述帧具有最高相关系数的帧的程序指令,其中,来自所述媒体存储库的所述帧包括对象袋;以及用于通过用来自所述对象袋的对象替换所述代词来解析所述回指消歧的程序指令。16.根据权利要求15所述的计算机程序产品,其中,将所述多媒体数据转换成所述信号波的程序指令包括:使用自动解码器神经网络将所述多媒体数据转换成所述多个幅度的程序指令;以及基于所述多个振幅中的每个振幅的时间帧从所述多个振幅生成所述信号波的程序指令。17.根据权利要求15所述的计算机程序产品,其中,所述多个帧中的每个帧具有持续时间,并且其中,基于所述信号波的短期傅里叶变换来确定所述持续时间。18.根据权利要求15所述的计算机程序产品,进一步包括:用于使用频谱图方法将所述信号波分离成帧的程序指令。19.根据权利要求18所述的计算机程序产品,其中,所述最高相关系数是基于所述频谱图方法的。20.根据权利要求15所述的计算机程序产品,进一步包括:用于使用深度神经网络标识所述帧的标签的程序指令。

技术总结
计算机接收多媒体数据(120),其中多媒体数据(120)包括多个帧。计算机将多媒体数据(120)转换成具有多个频率和多个振幅的信号波。计算机从多个帧中确定具有代词的帧。计算机标识该帧的主题。计算机在媒体存储库(122)中搜索具有与该帧的主题的最高相关系数的帧,其中,来自媒体存储库(122)的帧包括对象袋,并且通过用来自对象袋的对象替换代词来解析回指消歧。指消歧。指消歧。


技术研发人员:A
受保护的技术使用者:国际商业机器公司
技术研发日:2021.12.02
技术公布日:2023/8/8
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐