任务处理方法、装置、计算机设备、存储介质及程序产品与流程

未命名 09-24 阅读:108 评论:0


1.本技术涉及计算机技术领域,具体涉及一种任务处理方法、装置、计算机设备、存储介质及程序产品。


背景技术:

2.随着计算机技术的快速发展,人工智能技术在各个应用领域都得到了快速发展,由于人工智能技术主要是依赖于网络模型实现的,在日常生活中可以通过网络模型解决越来越多的问题,在应用网络模型解决问题之前,对网络模型进行训练是一个关键步骤,模型训练通常需要大量训练数据进行对模型进行多轮训练,在这过程中还需要对原始数据进行训练从而得到训练数据,因此对算力资源的需求也随之增加。
3.相关技术中,在用户提交的训练任务同时需要多个不同类型算力资源的情况下,用户需要跟进算力资源在计算过程中的各种中间状态,从而在发现算力资源计算出错时执行重入或者重启训练任务。
4.在对相关技术的研究和实践中,本技术的发明人发现,现有技术中,采用算力资源对网络模型进行训练的过程中,需要用户全程进行把控,操作过程复杂且繁琐,导致模型训练的训练效率较低。


技术实现要素:

5.本技术实施例提供一种任务处理方法、装置、计算机设备、存储介质及程序产品,从而简化使用算力资源进行计算的操作过程,可以提高模型训练的训练效率。
6.本技术实施例提供了一种任务处理方法,应用于云端,所述云端连接有多个算力资源集群,每个算力资源集群提供一种类型的算力资源;所述云端包括中央处理器,所述中央处理器用于对所述多个算力资源集群进行管理,所述方法包括:
7.获取目标任务信息,所述目标任务信息包括目标任务的原始任务数据、以及目标任务的算力资源信息;
8.根据所述算力资源信息确定基于所述原始任务数据完成所述目标任务所需的目标算力资源类型;
9.基于所述目标算力资源类型和所述多个算力资源集群中各算力资源集群的处理状态,从所述多个算力资源集群中筛选出目标算力资源集群;
10.若所述目标算力资源类型的种类为至少两种,则从各所述目标算力资源类型对应的目标算力资源集群内,确定为所述目标任务分配的目标算力资源;
11.基于所述原始任务数据,按照所述目标任务处理过程中使用所述目标算力资源类型的顺序,依次使用对应的目标算力资源进行任务处理得到任务处理结果,其中,所述顺序中每种类型的目标算力资源得到的任务处理结果,存储在所述算力资源集群共享的分布式文件系统中,以供所述顺序中其他类型的目标算力资源读取以进行任务处理;所述顺序中最后一种类型的目标算力资源输出的任务处理结果为所述目标任务的目标任务处理结果。
12.相应的,本技术实施例还提供了一种任务处理装置,应用于云端,包括:
13.获取单元,用于获取目标任务信息,所述目标任务信息包括目标任务的原始任务数据、以及目标任务的算力资源信息;
14.第一确定单元,用于根据所述算力资源信息确定基于所述原始任务数据完成所述目标任务所需的目标算力资源类型;
15.筛选单元,用于基于所述目标算力资源类型和所述多个算力资源集群中各算力资源集群的处理状态,从所述多个算力资源集群中筛选出目标算力资源集群;
16.第二确定单元,用于若所述目标算力资源类型的种类为至少两种,则从各所述目标算力资源类型对应的目标算力资源集群内,确定为所述目标任务分配的目标算力资源;
17.处理单元,用于基于所述原始任务数据,按照所述目标任务处理过程中使用所述目标算力资源类型的顺序,依次使用对应的目标算力资源进行任务处理得到任务处理结果,其中,所述顺序中每种类型的目标算力资源得到的任务处理结果,存储在所述算力资源集群共享的分布式文件系统中,以供所述顺序中其他类型的目标算力资源读取以进行任务处理;所述顺序中最后一种类型的目标算力资源输出的任务处理结果为所述目标任务的目标任务处理结果。
18.在一些实施例中,第二确定单元包括:
19.第一确定子单元,用于若所述目标算力资源类型的种类为至少两种,则基于所述目标任务中的目标任务信息确定各所述目标算力资源类型下所述目标任务所需的资源大小;
20.第二确定子单元,用于基于所述目标算力资源类型和所述资源大小从各所述目标算力资源类型对应的目标算力资源集群内,确定为所述目标任务分配的目标算力资源。
21.在一些实施例中,第二确定单元包括:
22.第三确定子单元,用于根据所述算力资源信息中各目标算力资源类型对应的资源大小,从各所述目标算力资源类型对应的目标算力资源集群内,确定为所述目标任务分配的目标算力资源。
23.在一些实施例中,处理单元包括:
24.第一处理子单元,用于根据目标任务处理过程中使用目标算力资源类型的顺序,将第一种参与所述目标任务的目标算力资源作为当前目标算力资源,对所述原始任务数据进行处理,得到当前的任务处理结果;
25.第一生成子单元,用于将所述当前的任务处理结果存储在所述算力资源集群共享的分布式文件系统中,并基于所述当前的任务处理结果在所述分布式文件系统中的储存位置生成任务处理指令;
26.第一响应子单元,用于响应于所述任务处理指令,触发所述顺序中当前目标算力资源的下一目标算力资源作为新的当前目标算力资源,从所述存储位置中读取最新的任务处理结果进行任务处理,得到新的任务处理结果,返回执行所述将所述当前的任务处理结果存储在所述算力资源集群共享的分布式文件系统中的步骤,直到所述顺序中的最后一种目标算力资源输出任务处理结果为止。
27.在一些实施例中,第一确定单元包括:
28.第四确定子单元,用于基于所述目标算力资源类型标识确定目标算力资源类型。
29.在一些实施例中,处理单元包括:
30.第二处理子单元,用于采用目标cpu算力资源类型下分配的cpu算力资源对所述原始训练数据进行数据处理,得到处理后训练数据,并将所述处理后训练数据存储在所述算力资源集群共享的分布式文件系统中;
31.第二生成子单元,用于基于所述处理后训练数据在所述分布式文件系统中的储存位置生成模型训练请求,将所述模型训练请求发送给目标gpu算力资源类型下分配的gpu算力资源,触发所述gpu算力资源基于所述模型训练请求从所述分布式文件系统中获取所述处理后训练数据,基于所述处理后训练数据进行模型训练,得到包含训练后模型的任务处理结果。
32.在一些实施例中,该装置还包括:
33.评估单元,用于对所述目标任务的处理过程进行评估,判断在所述目标任务处理过程中是否存在处理异常;
34.返回单元,用于若是,则返回根据所述算力资源信息确定基于所述原始任务数据完成所述目标任务所需的目标算力资源类型的步骤。
35.在一些实施例中,获取单元包括:
36.第一接收子单元,用于接收用户终端的任务触发指令;
37.第二响应子单元,用于响应于所述任务触发指令,获取通用的算力资源控制页面的页面数据返回给所述用户终端以供所述用户终端显示算力资源控制页面;
38.第二接收子单元,用于接收所述用户终端通过所述算力资源控制页面提交的目标任务信息。
39.在一些实施例中,该装置还包括:
40.收集单元,用于对共用所述算力资源控制页面的多个用户终端提交的目标任务信息进行收集,得到多个目标任务信息;
41.信息获取单元,用于获取所述多个目标任务信息中每个目标任务信息的优先级;
42.排序单元,用于根据优先级的高低对所述多个目标任务信息进行排序,得到多个任务信息对应的目标任务的处理顺序;
43.任务处理单元,用于根据所述多个任务信息对应的目标任务的处理顺序,对所述多个目标任务信息对应的目标任务进行任务处理。
44.相应的,本技术实施例还提供了一种计算机设备,包括存储器,处理器及存储在储存器上并可在处理器上运行的计算机程序,其中,处理器执行本技术实施例任一提供的任务处理方法。
45.相应的,本技术实施例还提供了一种计算机可读存储介质,存储介质存储有多条指令,指令适于处理器进行加载,以执行如上的任务处理方法。
46.本技术实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在存储介质中。终端的处理器从存储介质读取该计算机指令,处理器执行该计算机指令,使得该终端执行上述方面的各种可选实现方式中提供的任务处理方法。
47.本技术实施例在确定了用户提交的目标任务同时需要多个不同类型算力资源的情况下,通过从各所述目标算力资源类型对应的算力资源集群内,确定为所述目标任务分
配的目标算力资源,之后,基于所述原始任务数据,按照所述目标任务处理过程中使用所述目标算力资源类型的顺序,依次使用对应的目标算力资源进行任务处理得到任务处理结果。本技术实施例通过将多个不同类型算力资源混合进行管控,并将算力资源的执行状态流转做流水线设计,以使不同类型的算力资源能够自动进行计算以及状态流转,从而简化使用算力资源进行计算的操作过程,可以提高模型训练的训练效率。
附图说明
48.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
49.图1为本技术实施例提供的任务处理系统的场景示意图。
50.图2为本技术实施例提供的一种任务处理方法的流程示意图。
51.图3为本技术实施例提供的一种算力流程化框架的流程示意图。
52.图4为本技术实施例提供的另一种任务处理方法的流程示意图。
53.图5为本技术实施例提供的另一种任务处理方法的流程示意图。
54.图6为本技术实施例提供的一种任务处理装置的结构框图。
55.图7为本技术实施例提供的计算机设备的结构示意图。
具体实施方式
56.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术的一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
57.本技术提供的方案可涉及人工智能技术。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
58.应理解,人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
59.随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
60.还需要说明的是,本技术实施例可以通过云平台实现人工智能技术。其中,云计算
(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。一般来说,作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为iaas(infrastructure as a service,基础设施即服务))平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备和网络设备;在本技术实施例中,当本技术实施例所提供的任务处理方法是应用在云平台中时,所涉及的设备资源为计算设备。
61.基于此,本技术实施例提供一种任务处理方法、装置、计算机设备、存储介质及程序产品,该任务处理方法可以应用于云端,所述云端连接有多个算力资源集群,每个算力资源集群可以提供一种类型的算力资源,所述云端包括中央处理器,所述中央处理器用于对所述多个算力资源集群进行管理,能够提升人工智能领域中算力资源的调度效率,提升ai模型的训练效率。
62.可选的,该云端包括的中央处理器可以是单独设置的处理器,也可以是多个算力资源集群中的至少一个算力资源集群作为中央处理器对多个算力资源集群进行管理,还可以是区别于多个算力资源集群的一个处理资源集群作为中央处理器对多个算力资源集群进行管理。
63.本技术实施例提供一种任务处理方法、装置、计算机设备、存储介质及程序产品。具体地,本技术实施例提供适用于计算机设备的任务处理装置。其中,该计算机设备可以为终端或服务器等设备,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。终端包括但不限于智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接;本发明实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等,本技术实施例在此不做限制。
64.请参阅图1,图1为本技术实施例所提供的任务处理系统的场景示意图,该系统可以包括至少一个终端,至少一个服务器,算力资源集群,以及网络。用户持有的终端可以通过网络连接到不同的服务器,服务器可以连接有多个算力资源集群。终端是具有计算硬件的任何设备,该计算硬件能够支持和执行与游戏对应的软件产品。
65.其中,服务器可以获取目标任务信息,所述目标任务信息包括目标任务的原始任务数据、以及目标任务的算力资源信息;根据所述算力资源信息确定基于所述原始任务数据完成所述目标任务所需的目标算力资源类型;若所述目标算力资源类型的种类为至少两种,则从各所述目标算力资源类型对应的算力资源集群内,确定为所述目标任务分配的目标算力资源;基于所述原始任务数据,按照所述目标任务处理过程中使用所述目标算力资源类型的顺序,依次使用对应的目标算力资源进行任务处理得到任务处理结果,其中,所述顺序中每种类型的目标算力资源得到的任务处理结果,存储在所述算力资源集群共享的分布式文件系统中,以供所述顺序中其他类型的目标算力资源读取以进行任务处理;所述顺序中最后一种类型的目标算力资源输出的任务处理结果为所述目标任务的目标任务处理
结果。
66.需要说明的是,图1所示的任务处理系统的场景示意图仅仅是一个示例,本技术实施例描述的任务处理系统以及场景是为了更加清楚的说明本技术实施例的技术方案,并不构成对于本技术实施例提供的技术方案的限定,本领域普通技术人员可知,随着任务处理系统的演变和新业务场景的出现,本技术实施例提供的技术方案对于类似的技术问题,同样适用。
67.基于上述问题,本技术实施例提供一种任务处理方法、装置、计算机设备、存储介质及程序产品,在本技术实施例通过将多个不同类型算力资源混合进行管控,并将算力资源的执行状态流转做流水线设计,以使不同类型的算力资源能够自动进行计算以及状态流转,从而简化使用算力资源进行计算的操作过程,可以提高模型训练的训练效率。以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
68.如图2所示,图2为本技术实施例提供的一种任务处理方法的流程示意图。该任务处理方法的具体流程可以如下:
69.101、获取目标任务信息,目标任务信息包括目标任务的原始任务数据、以及目标任务的算力资源信息。
70.例如,当用户针对ai模型下发针对ai模型的训练需求时,服务器也就接收到了ai模型的训练任务请求,也就是说,训练任务请求为请求针对ai模型执行训练任务的请求。这里,训练任务请求包括目标训练任务信息,此时,服务器响应于该训练任务请求,读取目标任务信息中目标训练任务的原始训练数据、以及目标训练任务的算力资源信息。
71.102、根据算力资源信息确定基于原始任务数据完成目标任务所需的目标算力资源类型。
72.在一些实施例中,算力资源信息中包括目标任务所需目标算力资源的目标算力资源类型标识。为了确定目标算力资源类型,步骤“根据所述算力资源信息确定基于所述原始任务数据完成所述目标任务所需的目标算力资源类型”,可以包括以下操作:
73.基于所述目标算力资源类型标识确定目标算力资源类型。
74.其中,算力资源类型可以为中央处理器(central processing unit,cpu)算力、图形处理器(graphics processing unit,gpu)算力、嵌入式神经网络处理器(neural-network processing units,npu)算力以及嵌入式处理器(branch processing unit,bpu)算力等算力资源,每一算力资源类型在云端对应有相应类型的算力资源集群,以供用户进行目标任务处理时进行调度。
75.103、基于目标算力资源类型和多个算力资源集群中各算力资源集群的处理状态,从多个算力资源集群中筛选出目标算力资源集群。
76.其中,处理状态可以为算力资源集群的空闲状态,也可以为算力资源集群的完成进度,还可以为算力资源集群的可用算力资源的数量。
77.为了进一步提高对算力资源的合理调控,在进行目标算力资源的调用之前,云端连接的多个算力资源集群可以通过同一中央处理器进行管控,中央处理器可以判断多个算力资源集群的空闲状态,可以将多个算力资源集群中所有处理状态为空闲状态的算力资源集群筛选出来,以供后续步骤进行算力资源的调用。
78.可选的,中央处理器可以基于多个算力资源集群的完成进度对所述多个算力资源
集群进行调用优先级的排序处理,按照完成进度的大小对多个算力资源集群进行排序,完成进度越大的算力资源集群的调用优先级就越高,以供后续步骤中优先调用优先级高的算力资源集群进行算力资源的调用。
79.104、若目标算力资源类型的种类为至少两种,则从各目标算力资源类型对应的算力资源集群内,确定为目标任务分配的目标算力资源。
80.其中,算力资源集群为通过云技术汇集了多个相同类型的算力资源的算力集群。例如,cpu算力资源集群包括多个cpu算力资源,当检测到目标任务为10个子任务组成时,可以将每个子任务分别分发给cpu算力资源集群中10个cpu算力资源同时进行处理。
81.可选的,为了能够节省算力资源调度的时间,在步骤“根据算力资源信息确定基于原始任务数据完成目标任务所需的目标算力资源类型”之后,还可以包括以下操作:
82.判断基于原始任务数据完成目标任务所需的目标算力资源类型的种类是否为至少两种;
83.若是,则从各目标算力资源类型对应的目标算力资源集群内,确定为目标任务分配的目标算力资源;
84.若否,则基于目标算力资源类型确定为目标任务分配的目标算力资源。
85.例如,若是单一的cpu算力资源类型,则将原始任务数据输入cpu算力资源集群进行处理,从而得到目标任务数据,并基于目标任务数据对待训练模型进行训练,以得到目标训练模型,并储存至用户指定的文件目录中;若是单一的gpu算力资源类型,则将原始任务数据输入gpu算力资源集群进行处理,从而得到目标任务数据,并基于目标任务数据对待训练模型进行训练,以得到目标训练模型,并储存至用户指定的文件目录中。
86.在一些实施例中,为了提高算力资源的分配效率,步骤“若所述目标算力资源类型的种类为至少两种,则从各所述目标算力资源类型对应的目标算力资源集群内,确定为所述目标任务分配的目标算力资源”,可以包括以下操作:
87.若所述目标算力资源类型的种类为至少两种,则基于所述目标任务中的目标任务信息确定各目标算力资源类型下目标任务所需的资源大小;
88.基于目标算力资源类型和资源大小从各目标算力资源类型对应的目标算力资源集群内,确定为目标任务分配的目标算力资源。
89.可选的,算力资源信息可以包括有目标算力资源类型下所述目标任务所需的资源大小。步骤“若所述目标算力资源类型的种类为至少两种,则从各所述目标算力资源类型对应的算力资源集群内,确定为所述目标任务分配的目标算力资源”,可以包括以下操作:
90.根据所述算力资源信息中各目标算力资源类型对应的资源大小,从各所述目标算力资源类型对应的目标算力资源集群内,确定为所述目标任务分配的目标算力资源。
91.105、基于原始任务数据,按照目标任务处理过程中使用目标算力资源类型的顺序,依次使用对应的目标算力资源进行任务处理得到任务处理结果,其中,顺序中每种类型的目标算力资源得到的任务处理结果,存储在算力资源集群共享的分布式文件系统中,以供顺序中其他类型的目标算力资源读取以进行任务处理;顺序中最后一种类型的目标算力资源输出的任务处理结果为目标任务的目标任务处理结果。
92.其中,分布式文件系统(distributed file system,dfs)是一种允许文件通过网络在多台主机上分享的文件系统,是建立在网络之上的软件系统,可让多机器上的多用户
分享文件和存储空间。在分布式文件系统中,客户端并非直接访问底层的数据存储区块,而是通过网络,以特定的通信协议和服务器沟通。借由通信协议的设计,可以让客户端和服务器端都能根据访问控制清单或是授权,来限制对于文件系统的访问。
93.需要说明的是,分布式文件系统可以包括文件存储、块存储以及对象存储上述三种形式的储存方式。其中,文件存储可以使数据以文件的方式进行存储和访问;块存储可以使数据按字节来进行访问;对象存储则是每个对象都会被分配一个唯一的标识符,允许一个服务器或者最终用户来检索对象。
94.在一些实施例中,为了实现不同类型的算力资源的执行状态流转,步骤“基于所述原始任务数据,按照所述目标任务处理过程中使用所述目标算力资源类型的顺序,依次使用对应的目标算力资源进行任务处理得到任务处理结果”,可以包括以下操作:
95.根据目标任务处理过程中使用目标算力资源类型的顺序,将第一种参与目标任务的目标算力资源作为当前目标算力资源,对原始任务数据进行处理,得到当前的任务处理结果;
96.将当前的任务处理结果存储在算力资源集群共享的分布式文件系统中,并基于当前的任务处理结果在分布式文件系统中的储存位置生成任务处理指令;
97.响应于任务处理指令,触发顺序中当前目标算力资源的下一目标算力资源作为新的当前目标算力资源,从存储位置中读取最新的任务处理结果进行任务处理,得到新的任务处理结果,返回执行将当前的任务处理结果存储在算力资源集群共享的分布式文件系统中的步骤,直到顺序中的最后一种目标算力资源输出任务处理结果为止。
98.可选的,目标算力资源类型标识包括cpu算力资源类型和gpu算力资源类型,所述目标任务为模型训练任务,所述原始任务数据包括原始训练数据;步骤“基于所述原始任务数据,按照所述目标任务处理过程中使用所述目标算力资源类型的顺序,依次使用对应的目标算力资源进行任务处理得到任务处理结果”,可以包括以下操作:
99.采用目标cpu算力资源类型下分配的cpu算力资源对原始训练数据进行数据处理,得到处理后训练数据,并将处理后训练数据存储在算力资源集群共享的分布式文件系统中;
100.基于处理后训练数据在分布式文件系统中的储存位置生成模型训练请求,将模型训练请求发送给目标gpu算力资源类型下分配的gpu算力资源,触发gpu算力资源基于模型训练请求从分布式文件系统中获取处理后训练数据,基于处理后训练数据进行模型训练,得到包含训练后模型的任务处理结果。
101.具体的,为了能够实现算力资源执行流程化,使不同类型的算力资源能够自动进行计算以及状态流转,在步骤“获取目标任务信息,所述目标任务信息包括目标任务的原始任务数据、以及目标任务的算力资源信息”之后,还可以包括以下操作:
102.对目标任务的处理过程进行评估,判断在目标任务处理过程中是否存在处理异常;
103.若是,则返回根据算力资源信息确定基于原始任务数据完成目标任务所需的目标算力资源类型的步骤,并采用新的目标算力资源类型进行目标任务的处理过程。
104.本技术实施例通过将多个不同类型算力资源混合进行管控,并将算力资源的执行状态流转做流水线设计,对目标任务的处理过程进行评估,判断在目标任务处理过程中是
否存在处理异常,从而实现在目标任务进行任务处理的过程中,算力资源可以按照算力执行流程进行执行,当检测到任务处理的过程中存在处理异常时,则流程异常处理会将目标任务自动的重入或者任务重启操作。本技术实施例将算力资源执行进行流程化后,能够有利于平台优化支持业务的服务,尤其在业务容灾、算力故障迁移等灾备故障模式下的自动化处理。
105.在一具体实施例中,为了能够获取用户提供的目标任务对应的目标任务信息,步骤“获取目标任务信息”,可以包括以下操作:
106.接收用户终端的任务触发指令;
107.响应于所述任务触发指令,获取通用的算力资源控制页面的页面数据返回给所述用户终端以供所述用户终端显示算力资源控制页面;
108.接收所述用户终端通过所述算力资源控制页面提交的目标任务信息。
109.在一具体实施例中,为了优先对重要任务进行任务处理,在步骤“接收所述用户终端通过算力资源控制页面提交的目标任务信息”之后,还可以包括以下操作:
110.对共用所述算力资源控制页面的多个用户终端提交的目标任务信息进行收集,得到多个目标任务信息;
111.获取所述多个目标任务信息中每个目标任务信息的优先级;
112.根据优先级的高低对所述多个目标任务信息进行排序,得到多个任务信息对应的目标任务的处理顺序;
113.根据所述多个任务信息对应的目标任务的处理顺序,对所述多个目标任务信息对应的目标任务进行任务处理。
114.本技术实施例公开了一种任务处理方法,该方法包括:获取目标任务信息,所述目标任务信息包括目标任务的原始任务数据、以及目标任务的算力资源信息;根据所述算力资源信息确定基于所述原始任务数据完成所述目标任务所需的目标算力资源类型;若所述目标算力资源类型的种类为至少两种,则从各所述目标算力资源类型对应的算力资源集群内,确定为所述目标任务分配的目标算力资源;基于所述原始任务数据,按照所述目标任务处理过程中使用所述目标算力资源类型的顺序,依次使用对应的目标算力资源进行任务处理得到任务处理结果,其中,所述顺序中每种类型的目标算力资源得到的任务处理结果,存储在所述算力资源集群共享的分布式文件系统中,以供所述顺序中其他类型的目标算力资源读取以进行任务处理;所述顺序中最后一种类型的目标算力资源输出的任务处理结果为所述目标任务的目标任务处理结果。以此,能够简化使用算力资源进行计算的操作过程,可以提高模型训练的训练效率。
115.根据上述介绍的内容,下面将举例来进一步说明本技术的任务处理方法。本技术的任务处理方法可以基于构建的算力流程化框架上进行任务处理。具体的,请参阅图3,本技术构建的算力流程化框架可以包括用户层、统一管控层以及算力资源层上述三个层次,每个层次的具体作用如下所述:
116.(1)用户层,用于供用户提交目标任务(例如训练任务)。用户层主要负责提交训练任务和接收训练完成的ai模型,在本技术实施例中,训练任务可以支持所需多种算力资源的任务,例如,训练任务可以包括以下三种类型:需要单一cpu算力资源的训练任务,需要cpu算力资源和gpu算力资源混合的训练任务,需要单一gpu算力资源的训练任务,每种训练
任务的所需求的算力资源类型会携带在用户提交的训练请求中,所需求的算力资源类型可以由用户进行指定,也可以由计算机设备根据目标任务对应的原始任务数据进行识别后进行确定。
117.(2)统一管控层,用于管理算力资源集群以及算力资源集群中包括的若干算力资源(例如cpu算力资源和gpu算力资源),可以统一控制面给到用户层。统一管控层是个虚拟的逻辑服务层,主要的作用包括:第一,收敛用户提交的训练任务的需求,用户的训练请求会统一提交到统一管控层,统一管控层根据用户提交的训练请求中的算力资源标识识别出需求的算力资源类型,并针对原始训练数据进行算力资源的分发,例如,单独需要cpu算力资源或者gpu算力资源的训练任务会被提交到cpu算力资源集群或者gpu算力资源集群;第二,统一管控层可以将cpu算力资源和gpu算力资源层统一管控到同一管理层,从而对用户屏蔽底层资源的多个算力资源集群以及多个不同的资源环境。
118.(3)算力资源层,包括若干算力资源集群,每个类型的算力资源集群内包括若干个同类型的算力资源,每一个算力资源集群均有对应的资源管理系统进行管理。
119.例如,算力资源集群可以包括cpu算力资源集群和gpu算力资源集群,cpu算力资源集群包含若干个cpu算力,gpu算力资源集群包含若干个gpu算力;其中,cpu算力资源可以负责对原始任务数据进行数据的预处理,例如做数据的清洗和序列化的操作;cpu算力资源处理完的数据会存放到分布式文件系统,支持posix的接口,可以像用本地文件系统一样通过read、write操作分布式文件系统;当cpu算力资源处理完的数据落到存储后,会通过事件主动通知gpu算力资源执行训练操作,gpu算力资源通过事件通知中的数据目录,实现数据的索引和读取操作,gpu算力资源完成数据的训练后,会输出训练模型,模型会被存放到文件存储中,存放的目录可以是用户层提交训练任务时指定的某目录。
120.根据上述介绍的内容,下面将举例来进一步说明本技术的任务处理方法。请参考图4,图4为本技术实施例提供的另一种任务处理方法的流程示意图。具体流程可以如下:
121.201、获取目标训练任务。
122.在本技术实施例中,当用户针对ai模型下发针对ai模型的目标训练任务时,服务器也就接收到了ai模型的目标训练任务,统一管控层获取目标训练任务携带的目标训练任务信息,该目标训练任务信息包括目标训练任务的原始训练数据、以及目标训练任务的算力资源信息。
123.202、基于算力资源信息确定目标算力资源类型的类型数量。
124.具体的,基于算力资源信息确定完成目标训练任务所需的原始训练数据对应的目标算力资源类型的类型数量。可以从算力资源信息中获取目标算力资源类型标识,从而确定完成目标训练任务所需的原始训练数据对应的目标算力资源类型的类型数量。
125.203、判断所述类型数量是否为至少两种。
126.在本技术实施例中,可以基于所述类型数量判断基于算力资源信息确定完成目标训练任务所需的原始训练数据对应的目标算力资源类型是否为至少两种;若是,则进行步骤204a,从各目标算力资源类型对应的算力资源集群内,确定为目标任务分配的目标算力资源;若否,则进行步骤204a,基于目标算力资源类型确定为目标任务分配的目标算力资源,并对目标训练任务对应的原始训练数据进行数据处理。
127.204a、基于原始任务数据,按照目标训练任务处理过程中使用目标算力资源类型
的顺序,依次使用对应的目标算力资源进行数据处理,得到数据处理结果。
128.在本技术实施例中,可以先采用目标cpu算力资源类型下分配的cpu算力资源对原始训练数据进行数据处理,得到处理后训练数据,并将处理后训练数据存储在算力资源集群共享的分布式文件系统中;之后,基于处理后训练数据在分布式文件系统中的储存位置生成模型训练请求,将模型训练请求发送给目标gpu算力资源类型下分配的gpu算力资源,触发gpu算力资源基于模型训练请求从分布式文件系统中获取处理后训练数据,基于处理后训练数据进行模型训练,得到包含训练后模型的任务处理结果。
129.204a,基于目标算力资源类型确定为目标任务分配的目标算力资源,并对目标训练任务对应的原始训练数据进行数据处理,得到数据处理结果。
130.在本技术实施例中,若是单一的gpu算力资源类型,则将原始任务数据输入gpu算力资源集群进行处理,从而得到目标任务数据,并基于目标任务数据对待训练模型进行训练,以得到目标训练模型,并储存至用户指定的文件目录中。
131.可选的,若是单一的cpu算力资源类型,则将原始训练数据输入cpu算力资源集群进行处理,从而得到目标任务数据,并基于目标任务数据对待训练模型进行训练,以得到目标训练模型,并储存至用户指定的文件目录中;
132.例如,当检测到目标训练任务需求仅需单一的cpu算力资源类型时,将目标训练任务对应的原始训练数据提交到cpu算力资源集群,其中,cpu算力资源集群包括若干个cpu算力资源,当检测到目标训练任务为10个子任务组成,可以将每个子任务分别分发给cpu算力资源集群中的10个cpu算力资源同步进行处理;当检测到目标训练任务需求仅需单一的gpu算力资源类型时,将目标训练任务对应的原始训练数据提交到gpu算力资源集群,其中,gpu算力资源集群包括若干个gpu算力资源,当检测到目标训练任务为20个子任务组成,可以将每个子任务分别分发给gpu算力资源集群中的20个cpu算力资源同步进行处理。
133.根据上述介绍的内容,下面将举例来进一步说明本技术的任务处理方法。请参考图5,图5为本技术实施例提供的另一种任务处理方法的流程示意图。具体流程可以如下:
134.301、获取目标训练任务。
135.在本技术实施例中,当用户针对ai模型下发针对ai模型的目标训练任务时,服务器也就接收到了ai模型的目标训练任务,统一管控层获取目标训练任务携带的目标训练任务信息,该目标训练任务信息包括目标训练任务的原始训练数据、以及目标训练任务的算力资源信息。
136.302、基于目标训练任务信息确定是否进行数据清洗。
137.具体的,获取目标训练任务信息中携带的用户层的配置或者用户层任务请求中的指定进行数据清洗的请求,判断是否要进行数据清洗;若是,则进行步骤303a,采用cpu算力资源集群中的若干个cpu算力资源对原始训练数据进行数据处理;若否,则进行步骤303a,采用gpu算力资源集群中的若干个gpu算力资源对目标训练任务对应的原始训练数据进行数据处理。
138.303a、采用cpu算力资源集群中的若干个cpu算力资源对原始训练数据进行数据预处理,得到预处理数据。
139.在本技术实施例中,可以采用cpu算力资源集群中的若干个cpu算力资源对原始训练数据进行数据清洗和序列化操作。例如,cpu算力资源可以按照指定时间进行清洗操作,
用户可以选择需要的数据的时间区段要求(例如大于某个时间点或小于某个时间点),筛选出符合需求时间区段要求的原始训练数据;又或者,用户可以选择需要筛选出携带某个指定属性的原始训练数据,基于指定属性对原始训练数据进行筛选,则可以将符合指定属性的原始训练数据筛选出来,完成数据的筛选清洗。
140.303b、将预处理数据存储在算力资源集群共享的分布式文件系统中,并基于预处理数据在分布式文件系统中的储存位置生成模型训练请求。
141.303c、将模型训练请求发送给gpu算力资源类型下分配的gpu算力资源,以得到模型训练结果。
142.具体的,模型训练请求可以触发gpu算力资源基于模型训练请求从分布式文件系统中获取预处理数据,并基于预处理数据进行模型训练,得到包含训练后模型的模型训练结果。
143.303a,采用gpu算力资源集群中的若干个gpu算力资源对原始训练数据进行数据处理,以得到模型训练结果。
144.在本技术实施例中,将原始任务数据输入gpu算力资源集群进行处理,从而得到目标任务数据,并基于目标任务数据对待训练模型进行训练,以得到目标训练模型,并储存至用户指定的文件目录中。例如,将目标训练任务对应的原始训练数据提交到gpu算力资源集群,其中,gpu算力资源集群包括若干个gpu算力资源,当检测到目标训练任务为20个子任务组成,可以将每个子任务分别分发给gpu算力资源集群中的20个cpu算力资源同步进行处理。
145.本技术实施例公开了一种任务处理方法,本技术实施例在确定了用户提交的目标任务同时需要多个不同类型算力资源的情况下,通过从各所述目标算力资源类型对应的算力资源集群内,确定为所述目标任务分配的目标算力资源,之后,基于所述原始任务数据,按照所述目标任务处理过程中使用所述目标算力资源类型的顺序,依次使用对应的目标算力资源进行任务处理得到任务处理结果。本技术实施例通过将多个不同类型算力资源混合进行管控,并将算力资源的执行状态流转做流水线设计,以使不同类型的算力资源能够自动进行计算以及状态流转,从而简化使用算力资源进行计算的操作过程,可以提高模型训练的训练效率。
146.为便于更好的实施本技术实施例提供的任务处理方法,本技术实施例还提供一种基于上述任务处理方法的任务处理装置。其中名词的含义与上述任务处理方法中相同,具体实现细节可以参考方法实施例中的说明。
147.请参阅图6,图6为本技术实施例提供的一种任务处理装置的结构框图,该装置包括:
148.获取单元401,用于获取目标任务信息,所述目标任务信息包括目标任务的原始任务数据、以及目标任务的算力资源信息;
149.第一确定单元402,用于根据所述算力资源信息确定基于所述原始任务数据完成所述目标任务所需的目标算力资源类型;
150.筛选单元403,用于基于所述目标算力资源类型和所述多个算力资源集群中各算力资源集群的处理状态,从所述多个算力资源集群中筛选出目标算力资源集群;
151.第二确定单元404,用于若所述目标算力资源类型的种类为至少两种,则从各所述
目标算力资源类型对应的算力资源集群内,确定为所述目标任务分配的目标算力资源;
152.处理单元405,用于基于所述原始任务数据,按照所述目标任务处理过程中使用所述目标算力资源类型的顺序,依次使用对应的目标算力资源进行任务处理得到任务处理结果,其中,所述顺序中每种类型的目标算力资源得到的任务处理结果,存储在所述算力资源集群共享的分布式文件系统中,以供所述顺序中其他类型的目标算力资源读取以进行任务处理;所述顺序中最后一种类型的目标算力资源输出的任务处理结果为所述目标任务的目标任务处理结果。
153.在一些实施例中,第二确定单元404包括:
154.第一确定子单元,用于若所述目标算力资源类型的种类为至少两种,则基于所述目标任务中的目标任务信息确定各所述目标算力资源类型下所述目标任务所需的资源大小;
155.第二确定子单元,用于基于所述目标算力资源类型和所述资源大小从各所述目标算力资源类型对应的目标算力资源集群内,确定为所述目标任务分配的目标算力资源。
156.在一些实施例中,第二确定单元404包括:
157.第三确定子单元,用于根据所述算力资源信息中各目标算力资源类型对应的资源大小,从各所述目标算力资源类型对应的目标算力资源集群内,确定为所述目标任务分配的目标算力资源。
158.在一些实施例中,处理单元405包括:
159.第一处理子单元,用于根据目标任务处理过程中使用目标算力资源类型的顺序,将第一种参与所述目标任务的目标算力资源作为当前目标算力资源,对所述原始任务数据进行处理,得到当前的任务处理结果;
160.第一生成子单元,用于将所述当前的任务处理结果存储在所述算力资源集群共享的分布式文件系统中,并基于所述当前的任务处理结果在所述分布式文件系统中的储存位置生成任务处理指令;
161.第一响应子单元,用于响应于所述任务处理指令,触发所述顺序中当前目标算力资源的下一目标算力资源作为新的当前目标算力资源,从所述存储位置中读取最新的任务处理结果进行任务处理,得到新的任务处理结果,返回执行所述将所述当前的任务处理结果存储在所述算力资源集群共享的分布式文件系统中的步骤,直到所述顺序中的最后一种目标算力资源输出任务处理结果为止。
162.在一些实施例中,第一确定单元402包括:
163.第四确定子单元,用于基于所述目标算力资源类型标识确定目标算力资源类型。
164.在一些实施例中,处理单元405包括:
165.第二处理子单元,用于采用目标cpu算力资源类型下分配的cpu算力资源对所述原始训练数据进行数据处理,得到处理后训练数据,并将所述处理后训练数据存储在所述算力资源集群共享的分布式文件系统中;
166.第二生成子单元,用于基于所述处理后训练数据在所述分布式文件系统中的储存位置生成模型训练请求,将所述模型训练请求发送给目标gpu算力资源类型下分配的gpu算力资源,触发所述gpu算力资源基于所述模型训练请求从所述分布式文件系统中获取所述处理后训练数据,基于所述处理后训练数据进行模型训练,得到包含训练后模型的任务处
理结果。
167.在一些实施例中,该装置还包括:
168.评估单元,用于对所述目标任务的处理过程进行评估,判断在所述目标任务处理过程中是否存在处理异常;
169.返回单元,用于若是,则返回根据所述算力资源信息确定基于所述原始任务数据完成所述目标任务所需的目标算力资源类型的步骤。
170.在一些实施例中,获取单元401包括:
171.第一接收子单元,用于接收用户终端的任务触发指令;
172.第二响应子单元,用于响应于所述任务触发指令,获取通用的算力资源控制页面的页面数据返回给所述用户终端以供所述用户终端显示算力资源控制页面;
173.第二接收子单元,用于接收所述用户终端通过所述算力资源控制页面提交的目标任务信息。
174.在一些实施例中,该装置还包括:
175.收集单元,用于对共用所述算力资源控制页面的多个用户终端提交的目标任务信息进行收集,得到多个目标任务信息;
176.信息获取单元,用于获取所述多个目标任务信息中每个目标任务信息的优先级;
177.排序单元,用于根据优先级的高低对所述多个目标任务信息进行排序,得到多个任务信息对应的目标任务的处理顺序;
178.任务处理单元,用于根据所述多个任务信息对应的目标任务的处理顺序,对所述多个目标任务信息对应的目标任务进行任务处理。
179.本技术实施例公开了一种任务处理装置,通过获取单元401获取目标任务信息,所述目标任务信息包括目标任务的原始任务数据、以及目标任务的算力资源信息;第一确定单元402根据所述算力资源信息确定基于所述原始任务数据完成所述目标任务所需的目标算力资源类型;第二确定单元404若所述目标算力资源类型的种类为至少两种,则从各所述目标算力资源类型对应的算力资源集群内,确定为所述目标任务分配的目标算力资源;处理单元405基于所述原始任务数据,按照所述目标任务处理过程中使用所述目标算力资源类型的顺序,依次使用对应的目标算力资源进行任务处理得到任务处理结果,其中,所述顺序中每种类型的目标算力资源得到的任务处理结果,存储在所述算力资源集群共享的分布式文件系统中,以供所述顺序中其他类型的目标算力资源读取以进行任务处理;所述顺序中最后一种类型的目标算力资源输出的任务处理结果为所述目标任务的目标任务处理结果;以此,通过将多个不同类型算力资源混合进行管控,并将算力资源的执行状态流转做流水线设计,以使不同类型的算力资源能够自动进行计算以及状态流转,从而简化使用算力资源进行计算的操作过程,可以提高模型训练的训练效率。
180.本技术实施例还提供一种计算机设备,该计算机设备可以服务器,如图7所示,其示出了本技术实施例所涉及的服务器的结构示意图,具体来讲:
181.该服务器可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、电源503和输入单元504等部件。本领域技术人员可以理解,图7中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
182.处理器501是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器502内的软件程序和/或模块,以及调用存储在存储器502内的数据,执行服务器的各种功能和处理数据。可选的,处理器501可包括一个或多个处理核心;优选的,处理器501可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器501中。
183.存储器502可用于存储软件程序以及模块,处理器501通过运行存储在存储器502的软件程序以及模块,从而执行各种功能应用以及任务处理。存储器502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器502还可以包括存储器控制器,以提供处理器501对存储器502的访问。
184.服务器还包括给各个部件供电的电源503,优选的,电源503可以通过电源管理系统与处理器501逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源503还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
185.该服务器还可包括输入单元504,该输入单元504可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
186.尽管未示出,服务器还可以包括显示单元等,在此不再赘述。具体在本实施例中,服务器中的处理器501会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中,并由处理器501来运行存储在存储器502中的应用程序,从而实现各种功能,如下:
187.获取目标任务信息,所述目标任务信息包括目标任务的原始任务数据、以及目标任务的算力资源信息;
188.根据所述算力资源信息确定基于所述原始任务数据完成所述目标任务所需的目标算力资源类型;
189.基于所述目标算力资源类型和所述多个算力资源集群中各算力资源集群的处理状态,从所述多个算力资源集群中筛选出目标算力资源集群;
190.若所述目标算力资源类型的种类为至少两种,则从各所述目标算力资源类型对应的目标算力资源集群内,确定为所述目标任务分配的目标算力资源;
191.基于所述原始任务数据,按照所述目标任务处理过程中使用所述目标算力资源类型的顺序,依次使用对应的目标算力资源进行任务处理得到任务处理结果,其中,所述顺序中每种类型的目标算力资源得到的任务处理结果,存储在所述算力资源集群共享的分布式文件系统中,以供所述顺序中其他类型的目标算力资源读取以进行任务处理;所述顺序中最后一种类型的目标算力资源输出的任务处理结果为所述目标任务的目标任务处理结果。
192.以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
193.由上可知,本实施例的服务器可以实现任务处理的步骤,提高模型训练的训练效
率。
194.本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于计算机可读存储介质中,并由处理器进行加载和执行。
195.为此,本技术实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本技术实施例所提供的任一种任务处理方法中的步骤。例如,该指令可以执行如下步骤:
196.获取目标任务信息,所述目标任务信息包括目标任务的原始任务数据、以及目标任务的算力资源信息;
197.根据所述算力资源信息确定基于所述原始任务数据完成所述目标任务所需的目标算力资源类型;
198.基于所述目标算力资源类型和所述多个算力资源集群中各算力资源集群的处理状态,从所述多个算力资源集群中筛选出目标算力资源集群;
199.若所述目标算力资源类型的种类为至少两种,则从各所述目标算力资源类型对应的目标算力资源集群内,确定为所述目标任务分配的目标算力资源;
200.基于所述原始任务数据,按照所述目标任务处理过程中使用所述目标算力资源类型的顺序,依次使用对应的目标算力资源进行任务处理得到任务处理结果,其中,所述顺序中每种类型的目标算力资源得到的任务处理结果,存储在所述算力资源集群共享的分布式文件系统中,以供所述顺序中其他类型的目标算力资源读取以进行任务处理;所述顺序中最后一种类型的目标算力资源输出的任务处理结果为所述目标任务的目标任务处理结果。
201.以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
202.其中,该计算机可读存储介质可以包括:只读存储器(rom,read only memory)、随机存取记忆体(ram,random access memory)、磁盘或光盘等。
203.由于该计算机可读存储介质中所存储的指令,可以执行本技术实施例所提供的任一种任务处理方法中的步骤,因此,可以实现本技术实施例所提供的任一种任务处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
204.本技术实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。终端的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该终端执行上述方面的各种可选实现方式中提供的任务处理方法。
205.以上对本技术实施例所提供的任务处理方法、装置、计算机设备、存储介质及程序产品进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本技术的限定。

技术特征:
1.一种任务处理方法,其特征在于,应用于云端,所述云端连接有多个算力资源集群,每个算力资源集群提供一种类型的算力资源;所述云端包括中央处理器,所述中央处理器用于对所述多个算力资源集群进行管理,所述方法包括:获取目标任务信息,所述目标任务信息包括目标任务的原始任务数据、以及目标任务的算力资源信息;根据所述算力资源信息确定基于所述原始任务数据完成所述目标任务所需的目标算力资源类型;基于所述目标算力资源类型和所述多个算力资源集群中各算力资源集群的处理状态,从所述多个算力资源集群中筛选出目标算力资源集群;若所述目标算力资源类型的种类为至少两种,则从各所述目标算力资源类型对应的目标算力资源集群内,确定为所述目标任务分配的目标算力资源;基于所述原始任务数据,按照所述目标任务处理过程中使用所述目标算力资源类型的顺序,依次使用对应的目标算力资源进行任务处理得到任务处理结果,其中,所述顺序中每种类型的目标算力资源得到的任务处理结果,存储在所述算力资源集群共享的分布式文件系统中,以供所述顺序中其他类型的目标算力资源读取以进行任务处理;所述顺序中最后一种类型的目标算力资源输出的任务处理结果为所述目标任务的目标任务处理结果。2.根据权利要求1所述的方法,其特征在于,所述若所述目标算力资源类型的种类为至少两种,则从各所述目标算力资源类型对应的目标算力资源集群内,确定为所述目标任务分配的目标算力资源,包括:若所述目标算力资源类型的种类为至少两种,则基于所述目标任务中的目标任务信息确定各所述目标算力资源类型下所述目标任务所需的资源大小;基于所述目标算力资源类型和所述资源大小从各所述目标算力资源类型对应的目标算力资源集群内,确定为所述目标任务分配的目标算力资源。3.根据权利要求1所述的方法,其特征在于,所述算力资源信息包括目标算力资源类型下所述目标任务所需的资源大小;所述若所述目标算力资源类型的种类为至少两种,则从各所述目标算力资源类型对应的目标算力资源集群内,确定为所述目标任务分配的目标算力资源,包括:根据所述算力资源信息中各目标算力资源类型对应的资源大小,从各所述目标算力资源类型对应的目标算力资源集群内,确定为所述目标任务分配的目标算力资源。4.根据权利要求1所述的方法,其特征在于,所述基于所述原始任务数据,按照所述目标任务处理过程中使用所述目标算力资源类型的顺序,依次使用对应的目标算力资源进行任务处理得到任务处理结果,包括:根据目标任务处理过程中使用目标算力资源类型的顺序,将第一种参与所述目标任务的目标算力资源作为当前目标算力资源,对所述原始任务数据进行处理,得到当前的任务处理结果;将所述当前的任务处理结果存储在所述算力资源集群共享的分布式文件系统中,并基于所述当前的任务处理结果在所述分布式文件系统中的储存位置生成任务处理指令;响应于所述任务处理指令,触发所述顺序中当前目标算力资源的下一目标算力资源作为新的当前目标算力资源,从所述存储位置中读取最新的任务处理结果进行任务处理,得
到新的任务处理结果,返回执行所述将所述当前的任务处理结果存储在所述算力资源集群共享的分布式文件系统中的步骤,直到所述顺序中的最后一种目标算力资源输出任务处理结果为止。5.根据权利要求1所述的方法,其特征在于,所述算力资源信息中包括所述目标任务所需目标算力资源的目标算力资源类型标识;所述根据所述算力资源信息确定基于所述原始任务数据完成所述目标任务所需的目标算力资源类型,包括:基于所述目标算力资源类型标识确定目标算力资源类型。6.根据权利要求5所述的方法,其特征在于,所述目标算力资源类型标识包括cpu算力资源类型和gpu算力资源类型,所述目标任务为模型训练任务,所述原始任务数据包括原始训练数据;所述基于所述原始任务数据,按照所述目标任务处理过程中使用所述目标算力资源类型的顺序,依次使用对应的目标算力资源进行任务处理得到任务处理结果,包括:采用目标cpu算力资源类型下分配的cpu算力资源对所述原始训练数据进行数据处理,得到处理后训练数据,并将所述处理后训练数据存储在所述算力资源集群共享的分布式文件系统中;基于所述处理后训练数据在所述分布式文件系统中的储存位置生成模型训练请求,将所述模型训练请求发送给目标gpu算力资源类型下分配的gpu算力资源,触发所述gpu算力资源基于所述模型训练请求从所述分布式文件系统中获取所述处理后训练数据,基于所述处理后训练数据进行模型训练,得到包含训练后模型的任务处理结果。7.根据权利要求1至6任一项所述的方法,其特征在于,在获取目标任务信息之后,还包括:对所述目标任务的处理过程进行评估,判断在所述目标任务处理过程中是否存在处理异常;若是,则返回根据所述算力资源信息确定基于所述原始任务数据完成所述目标任务所需的目标算力资源类型的步骤。8.根据权利要求1所述的方法,其特征在于,所述获取目标任务信息,包括:接收用户终端的任务触发指令;响应于所述任务触发指令,获取通用的算力资源控制页面的页面数据返回给所述用户终端以供所述用户终端显示算力资源控制页面;接收所述用户终端通过所述算力资源控制页面提交的目标任务信息。9.根据权利要求8所述的方法,其特征在于,在接收所述用户终端通过算力资源控制页面提交的目标任务信息之后,还包括:对共用所述算力资源控制页面的多个用户终端提交的目标任务信息进行收集,得到多个目标任务信息;获取所述多个目标任务信息中每个目标任务信息的优先级;根据优先级的高低对所述多个目标任务信息进行排序,得到多个任务信息对应的目标任务的处理顺序;根据所述多个任务信息对应的目标任务的处理顺序,对所述多个目标任务信息对应的
目标任务进行任务处理。10.一种任务处理装置,其特征在于,应用于云端,所述装置包括:获取单元,用于获取目标任务信息,所述目标任务信息包括目标任务的原始任务数据、以及目标任务的算力资源信息;第一确定单元,用于根据所述算力资源信息确定基于所述原始任务数据完成所述目标任务所需的目标算力资源类型;筛选单元,用于基于所述目标算力资源类型和所述多个算力资源集群中各算力资源集群的处理状态,从所述多个算力资源集群中筛选出目标算力资源集群;第二确定单元,用于若所述目标算力资源类型的种类为至少两种,则从各所述目标算力资源类型对应的目标算力资源集群内,确定为所述目标任务分配的目标算力资源;处理单元,用于基于所述原始任务数据,按照所述目标任务处理过程中使用所述目标算力资源类型的顺序,依次使用对应的目标算力资源进行任务处理得到任务处理结果,其中,所述顺序中每种类型的目标算力资源得到的任务处理结果,存储在所述算力资源集群共享的分布式文件系统中,以供所述顺序中其他类型的目标算力资源读取以进行任务处理;所述顺序中最后一种类型的目标算力资源输出的任务处理结果为所述目标任务的目标任务处理结果。11.一种计算机设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求1至9任一项所述的任务处理方法。12.一种计算机可读存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至9任一项所述的任务处理方法。13.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现权利要求1至9任一项所述的任务处理方法。

技术总结
本申请实施例公开了一种任务处理方法、装置、计算机设备、存储介质及程序产品。本申请实施例在确定了用户提交的目标任务同时需要多个不同类型算力资源的情况下,通过从各所述目标算力资源类型对应的算力资源集群内,确定为所述目标任务分配的目标算力资源,之后,基于所述原始任务数据,按照所述目标任务处理过程中使用所述目标算力资源类型的顺序,依次使用对应的目标算力资源进行任务处理得到任务处理结果。本申请实施例可应用于云技术、人工智能、智慧交通等各种场景,云服务器可以过将多个不同类型算力资源混合进行管控,使不同类型的算力资源能够自动进行计算以及状态流转,从而简化使用算力资源进行计算的操作过程,提高模型训练效率。模型训练效率。模型训练效率。


技术研发人员:查冲
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:2022.03.16
技术公布日:2023/9/22
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐