一种提高HBM芯片带宽利用率的脉动总线及数据处理方法与流程

未命名 07-14 阅读:119 评论:0

一种提高hbm芯片带宽利用率的脉动总线及数据处理方法
技术领域
1.本说明书涉及计算机体系结构领域,尤其涉及一种提高hbm芯片带宽利用率的脉动总线及数据处理方法、电子设备和存储介质。


背景技术:

2.随着算法的快速发展,对芯片的算力需求也在快速增长。伴随着高算力芯片的出现,需要高带宽的片上系统为芯片计算部分提供数据读写,高带宽存储hb的发展则正好可以满足芯片的需求。hbm近年来快速发展的一类高性能dram,能够为片上系统提供非常高的带宽。hbm的发展同时为片上网络no结构提出了挑战。由于传统芯片最高频率以及布局布线的限制,能够提供的系统带宽是有限的,hbm高带宽很难得到充分利用。现有片上系统总线结构包括mesh总线结构,星型总线结构等。如何克服现有总线结构不能完全适应hbm高算力芯片对带宽需求以及不能充分利用hbm提供的高带宽的缺陷,对总线结构进行优化,是亟待解决的技术问题。


技术实现要素:

3.本说明书实施例的目的是针对上述问题,提供一种提高hbm芯片带宽利用率的脉动总线及数据处理方法、电子设备和存储介质。
4.为解决上述技术问题,本说明书实施例是这样实现的:
5.第一方面,提出了一种提高hbm芯片带宽利用率的脉动总线,所述脉动总线包括由数据处理节点排布而成的脉动阵列;其中,相邻数据处理节点之间建立数据连接;第一行数据处理节点与hbm芯片连接,用于在节拍周期的开始时刻读取来自所述hbm芯片的数据;当前数据处理节点在完成相应数据处理后,响应于对应节拍,依据数据定向传送规则传送数据至相邻数据处理节点;最后一行数据处理节点与所述hbm芯片连接,用于响应于对应节拍写入数据至所述hbm芯片,以完成当前节拍周期的数据处理操作。
6.进一步地,所述脉动阵列为m
×
n个数据处理节点构成的阵列;其中,m和n分别为所述脉动阵列的行数和列数,且m和n均大于1。
7.进一步地,所述数据处理节点用于实现相同或者不同数据处理功能,所述数据处理功能包括数据运算、数据存储、数据接口调用中的至少一种。
8.进一步地,所述数据处理节点响应于对应节拍的预设指令,执行相应数据处理功能。
9.进一步地,所述数据定向传送规则包括向当前数据处理节点的上方和右方的相邻脉动节点传送数据。
10.进一步地,依据所述脉动阵列大小、所述数据定向传送规则以及当前节拍周期内所述最后一行数据处理节点输出的数据与下一节拍周期开始时刻从所述hbm芯片所读取数据的关联性,确定节拍周期的节拍数,其中所述节拍数取值范围为[m,m+n]。
[0011]
进一步地,所述hbm芯片暂存所述数据处理节点的数据处理结果。
[0012]
第二方面,提出一种提高hbm芯片带宽利用率的数据处理方法,hbm芯片按预设节拍将待处理数据发送至脉动总线;其中,所述脉动总线包括由数据处理节点排布而成的脉动阵列,相邻数据处理节点之间建立数据连接;在一个节拍周期内,所述方法包括:
[0013]
与hbm芯片相连接的第一行数据处理节点在节拍周期的开始时刻读取来自所述hbm芯片的数据;
[0014]
当前数据处理节点在完成相应数据处理后,响应于对应节拍,依据数据定向传送规则传送数据至相邻数据处理节点;
[0015]
与所述hbm芯片连接的最后一行数据处理节点,响应于对应节拍写入数据至所述hbm芯片,以完成当前节拍周期的数据处理操作。
[0016]
进一步地,所述数据处理节点用于实现相同或者不同数据处理功能,所述数据处理功能包括数据运算、数据存储、数据接口调用中的至少一种;和/或,所述数据处理节点响应于对应节拍的预设指令,执行相应数据处理功能。
[0017]
进一步地,所述数据定向传送规则包括向当前数据处理节点的上方和右方的相邻脉动节点传送数据;和/或,依据所述脉动阵列大小、所述数据定向传送规则以及当前节拍周期内所述最后一行数据处理节点输出的数据与下一节拍周期开始时刻从所述hbm芯片所读取数据的关联性,确定节拍周期的节拍数,其中所述节拍数取值范围为[m,m+n]。
[0018]
第三方面,提出了一种电子设备,包括:处理器;以及
[0019]
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行第二方面所述的方法。
[0020]
第四方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行第二方面所述的方法。
[0021]
本说明书可以达到至少以下技术效果:
[0022]
本发明方案通过构建包括由数据处理节点排布而成的脉动阵列形成脉动总线结构,以及设计你的对应数据处理节点连接方式、脉动总线的数据传输方式,可以有效提高hbm系统带宽上限,支持更大带宽的数据传输;同时,充分利用hbm提供的带宽,提升带宽利用率。
附图说明
[0023]
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0024]
图1为本说明书实施例提供的一种提高hbm芯片带宽利用率的脉动总线结构示意图。
[0025]
图2为本说明书实施例提供的一种提高hbm芯片带宽利用率的脉动总线节拍流水线示意图之一。
[0026]
图3为本说明书实施例提供的一种提高hbm芯片带宽利用率的脉动总线结构示意图之二。
[0027]
图4为本说明书实施例提供的一种提高hbm芯片带宽利用率的脉动总线结构示意图之三。
[0028]
图5为本说明书实施例提供的一种提高hbm芯片带宽利用率的脉动总线结构示意图之四。
[0029]
图6为本说明书实施例提供的一种提高hbm芯片带宽利用率的数据处理方法流程示意图。
[0030]
图7为本说明书的一个实施例提供的电子设备的结构示意图。
具体实施方式
[0031]
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
[0032]
下面通过具体的实例对本说明书所涉及的一种异构区块链管理平台方案进行详述。
[0033]
关键术语
[0034]
高带宽存储hbm:是一种cpu/gpu内存芯片(即“ram”),即将很多个ddr芯片堆叠在一起后和gpu封装在一起,实现大容量,高位宽的ddr组合阵列。hbm堆栈没有以物理方式与cpu或gpu集成,而是通过中介层紧凑而快速地连接,hbm具备的特性几乎和芯片集成的ram一样,因此,具有更高速,更高带宽。目前,片上hbm(high bandwidth memory,高带宽存储器)的出现使ai/深度学习完全放到片上成为可能,集成度提升的同时,使带宽不再受制于芯片引脚的互联数量,从而在一定程度上解决了io瓶颈。
[0035]
总线结构:分为内部总线、系统总线和外部总线。其中,内部总线分为芯片内总线和元件级总线。芯片内总线是指集成电路芯片内部各部分的连接。早期芯片内部模块数目较少,结构单一,多采用星型、全连接或者交换开关crossbar拓扑结构。随着多核处理器逐渐取代了单核处理器,芯片中的ip逐渐增多,如何处理好它们之间的通讯成为了解决芯片性能的重要抓手。新型片上总线主要基本结构有三种:(1)环形总线,是现在已经广泛应用在消费品市场和服务器市场芯片中;(2)mesh总线主要应用在服务器芯片;(3)在mesh的基础上进行变形而成的torus总线,将每个行列的节点收尾相连,组成了一个个环,可以看做(1)和(2)的结合体。另外,还存在树形总线结构,即单向回路,这使得某一个节点出现故障,其后面的节点也将无法工作。
[0036]
脉动阵列systolic array:一种阵列结构。脉动意即其工作方式和过程犹如人体血液循环系统的工作方式和过程。在这种阵列结构中,数据按预先确定的“流水”方式在阵列的处理单元间有节奏地“流动”。在数据流动的过程中,所有的处理单元同时并行地对流经它的数据进行处理,因而它可以达到很高的并行处理速度。时,预先确定的数据流动模式使数据从流进处理单元阵列到流出处理单元阵列的过程中完成所有对它应做的处理,无需再重新输入这些数据,且只有阵列的“边界”处理单元与外界进行通信,由此实现在不增加阵列机输入、输出速率的条件下,提高阵列机的处理速度。由于阵列和处理单元的结构简
单、规则一致,可达到很高的模块化程度,非常适合超大规模集成电路的设计和制造。
[0037]
本发明关注的是如何克服现有总线结构不能完全适应hbm高算力芯片对带宽需求以及不能充分利用hbm提供的高带宽的缺陷,对总线结构进行优化的技术问题。通常地,hbm带宽特性的提升可以从以下三个角度来考虑,即性能、功耗和面积。由于hbm支持高带宽,而带宽指的是在特定单位时间内可以传输的数据量,其具有高带宽的特性使得hbm主要应用于高性能计算场景。一般来说,hbm存储器带宽是指单位时间内可以传输的数据量,要想增加带宽最简单的方法是增加数据传输线路数量;当然,也可以包括提升系统时钟频率或者增加芯片面积可达到类似目的。从增加数据传输线路数量的角度而言,事实上每个hbm由多达1024个数据引脚组成,hbm内部的数据传输路径随着每一代产品的发展而显著增长。但是,芯片尺寸限制了传输路径的增加。因为增加不仅是数据传输线路,还有使用每条传输线路的传输/接收电路。此外,随着传输线路的增加,等量匹配每条传输线路长度和配置的难度加大,使得运行速度无法提升。因此,如何选择适当的总线结构,对于提高hbm带宽利用率达到与计算速度的最优平衡至关重要。
[0038]
实施例一
[0039]
为了达到提高hbm带宽利用率的目的,本发明实施例提供了一种脉动式总线结构,实现比现有总线结构更高的带宽利用率。同时,本发明实施例对于基于脉动总线拓扑结构下的数据处理节点连接方式和脉动总线的数据传输方式也进行了详细说明。具体地,本发明实施例中如图1至5所示的脉动总线结构为由4
×
4脉动阵列所构成,以下实施例详细说明也以此4
×
4脉动阵列所构成脉动总线结构举例。应当理解的是,脉动阵列的大小是可以依据对hbm芯片带宽利用率的提高要求进行调整的,同样调整大小的脉动阵列也势必会改变对流水节拍等数据传输细节。但是,凡是能够通过构建脉动阵列并按照所设计的对应数据处理节点连接方式和脉动总线数据传输方式,达到提高hbm芯片带宽利用率技术效果的改进,均在本发明实施例的技术方案保护范围内。
[0040]
如图1所示,为本发明实施例提出一种提高hbm芯片带宽利用率的脉动总。所述脉动总线包括由数据处理节点排布而成的脉动阵列;其中,相邻数据处理节点之间建立数据连接;第一行数据处理节点与hbm芯片连接,用于在节拍周期的开始时刻读取来自所述hbm芯片的数据;当前数据处理节点在完成相应数据处理后,响应于对应节拍,依据数据定向传送规则传送数据至相邻数据处理节点;最后一行数据处理节点与所述hbm芯片连接,用于响应于对应节拍写入数据至所述hbm芯片,以完成当前节拍周期的数据处理操作。
[0041]
可选地,所述脉动阵列为m
×
n个数据处理节点构成的阵列;其中,m和n分别为所述脉动阵列的行数和列数,且m和n均大于1。
[0042]
可选地,所述数据处理节点用于实现相同或者不同数据处理功能,所述数据处理功能包括数据运算、数据存储、数据接口调用中的至少一种。具体地,数据处理节点作为总线结构网络中的节点,需要通过总线从其他节点读取数据,或者向总线上其他节点写入数据。
[0043]
可选地,所述数据处理节点响应于对应节拍的预设指令,执行相应数据处理功能。
[0044]
可选地,所述数据定向传送规则包括向当前数据处理节点的上方和右方的相邻脉动节点传送数据。
[0045]
可选地,依据所述脉动阵列大小、所述数据定向传送规则以及当前节拍周期内所
述最后一行数据处理节点输出的数据与下一节拍周期开始时刻从所述hbm芯片所读取数据的关联性,确定节拍周期的节拍数,其中所述节拍数取值范围为[m,m+n]。
[0046]
可选地,所述hbm芯片暂存所述数据处理节点的数据处理结果。
[0047]
具体以如图2至5所示脉动总线结构示意图,详细说明本发明实施例所披露的脉动总线拓扑结构、数据节点连接和脉动总线的数据传输方式。由于图2至5所示脉动总线结构为4
×
4大小的脉动阵列,因此,m=4,n=4。此时,第一行数据处理节点即为node00、node01、node02、node03,最后一行数据处理节点为node30、node31、node32、node33。数据流向为图2至5所示的各node箭头方向,即向依次向上以及向右的相邻数据处理节点传播。
[0048]
如图2所示,对于一个流水节拍周期而言,数据在时刻p0从hbm芯片同时进入node00、node01、node02、node03。经过向上、向右的相邻node的处理过后,数据在p4时刻经过节点node30,若p4时刻经由节点node30写入hbm芯片的数据并非下一流水节拍周期需要用的数据,那么继续执行下一流水节拍p5;当数据在p5时刻经过节点node31,若p5时刻经由节点node31写入hbm芯片的数据并非下一流水节拍周期需要用的数据,那么继续执行下一流水节拍p6;当数据在p6时刻经过节点node32,若p6时刻经由节点node32写入hbm芯片的数据并非下一流水节拍周期需要用的数据,那么继续执行下一流水节拍p7;即数据在p7时刻经过节点node33,p7时刻经由节点node33写入hbm芯片的数据无论是否下一流水节拍周期需要用的数据,此时本轮流水节拍周期已经全部执行完毕,进入下一个流水节拍周期。同时,hbm芯片均暂存p0-p7时刻计算的数据结果,以便进行相应数据计算。
[0049]
如图3所示,对于一个流水节拍周期而言,数据在时刻p0从hbm芯片同时进入node00、node01、node02、node03。经过向上、向右的相邻node的处理过后,数据在p4时刻经过节点node30,若p4时刻经由节点node30写入hbm芯片的数据并非下一流水节拍周期需要用的数据,那么继续执行下一流水节拍p5;当数据在p5时刻经过节点node31,若p5时刻经由节点node31写入hbm芯片的数据并非下一流水节拍周期需要用的数据,那么继续执行下一流水节拍p6;当数据在p6时刻经过节点node32,若p6时刻经由节点node32写入hbm芯片的数据为下一流水节拍周期需要用的数据,那么此时本轮流水节拍周期已经全部执行完毕,进入下一个流水节拍周期。同时,hbm芯片均暂存p0-p6时刻计算的数据结果,以便进行相应数据计算。
[0050]
同样地,如图4所示,对于一个流水节拍周期而言,数据在时刻p0从hbm芯片同时进入node00、node01、node02、node03。经过向上、向右的相邻node的处理过后,数据在p5时刻经过节点node31,若p5时刻经由节点node31写入hbm芯片的数据为下一流水节拍周期需要用的数据,那么此时本轮流水节拍周期已经全部执行完毕,进入下一个流水节拍周期。同时,hbm芯片均暂存p0-p5时刻计算的数据结果,以便进行相应数据计算。如图5所示,对于一个流水节拍周期而言,数据在时刻p0从hbm芯片同时进入node00、node01、node02、node03。经过向上、向右的相邻node的处理过后,数据在p4时刻经过节点node30,若p5时刻经由节点node30写入hbm芯片的数据为下一流水节拍周期需要用的数据,那么此时本轮流水节拍周期已经全部执行完毕,进入下一个流水节拍周期。
[0051]
本发明方案通过构建包括由数据处理节点排布而成的脉动阵列形成脉动总线结构,以及设计的对应数据处理节点连接方式、脉动总线的数据传输方式,可以有效提高hbm系统带宽上限,支持更大带宽的数据传输;同时,充分利用hbm提供的带宽,提升带宽利用
率。
[0052]
实施例二
[0053]
参照图6所示,为本发明实施例提出的一种提高hbm芯片带宽利用率的数据处理方法流程示意图。hbm芯片按预设节拍将待处理数据发送至脉动总线;其中,所述脉动总线包括由数据处理节点排布而成的脉动阵列,相邻数据处理节点之间建立数据连接。
[0054]
进一步地,所述数据处理节点用于实现相同或者不同数据处理功能,所述数据处理功能包括数据运算、数据存储、数据接口调用中的至少一种;和/或,所述数据处理节点响应于对应节拍的预设指令,执行相应数据处理功能。
[0055]
在一个节拍周期内,所述方法包括:
[0056]
s1:与hbm芯片相连接的第一行数据处理节点在节拍周期的开始时刻读取来自所述hbm芯片的数据。
[0057]
s2:当前数据处理节点在完成相应数据处理后,响应于对应节拍,依据数据定向传送规则传送数据至相邻数据处理节点。
[0058]
进一步地,所述数据定向传送规则包括向当前数据处理节点的上方和右方的相邻脉动节点传送数据;和/或,依据所述脉动阵列大小、所述数据定向传送规则以及当前节拍周期内所述最后一行数据处理节点输出的数据与下一节拍周期开始时刻从所述hbm芯片所读取数据的关联性,确定节拍周期的节拍数,其中所述节拍数取值范围为[m+1,m+n]。
[0059]
s3:与所述hbm芯片连接的最后一行数据处理节点,响应于对应节拍写入数据至所述hbm芯片,以完成当前节拍周期的数据处理操作。
[0060]
本发明方案通过构建包括由数据处理节点排布而成的脉动阵列形成脉动总线结构,以及设计的对应数据处理节点连接方式、脉动总线的数据传输方式,可以有效提高hbm系统带宽上限,支持更大带宽的数据传输;同时,充分利用hbm提供的带宽,提升带宽利用率。
[0061]
实施例三
[0062]
图7是本说明书的一个实施例电子设备的结构示意图。请参考图7,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(random-access memory,ram),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
[0063]
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是isa(industry standard architecture,工业标准体系结构)总线、pci(peripheral component interconnect,外设部件互连标准)总线或eisa(extended industry standard architecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
[0064]
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
[0065]
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成共享资源访问控制装置。处理器,执行存储器所存放的程序,并具体用于执行以下
操作:
[0066]
hbm芯片按预设节拍将待处理数据发送至脉动总线;其中,所述脉动总线包括由数据处理节点排布而成的脉动阵列,相邻数据处理节点之间建立数据连接;在一个节拍周期内,所述方法包括:
[0067]
与hbm芯片相连接的第一行数据处理节点在节拍周期的开始时刻读取来自所述hbm芯片的数据;
[0068]
当前数据处理节点在完成相应数据处理后,响应于对应节拍,依据数据定向传送规则传送数据至相邻数据处理节点;
[0069]
与所述hbm芯片连接的最后一行数据处理节点,响应于对应节拍写入数据至所述hbm芯片,以完成当前节拍周期的数据处理操作。
[0070]
上述如本说明书图6所示实施例揭示的异构区块链管理平台实现方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
[0071]
当然,除了软件实现方式之外,本说明书实施例的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
[0072]
实施例四
[0073]
本说明书实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图6所示实施例的异构区块链管理平台实现方法,并具体用于执行以下方法:
[0074]
hbm芯片按预设节拍将待处理数据发送至脉动总线;其中,所述脉动总线包括由数据处理节点排布而成的脉动阵列,相邻数据处理节点之间建立数据连接;在一个节拍周期内,所述方法包括:
[0075]
与hbm芯片相连接的第一行数据处理节点在节拍周期的开始时刻读取来自所述hbm芯片的数据;
[0076]
当前数据处理节点在完成相应数据处理后,响应于对应节拍,依据数据定向传送规则传送数据至相邻数据处理节点;
[0077]
与所述hbm芯片连接的最后一行数据处理节点,响应于对应节拍写入数据至所述hbm芯片,以完成当前节拍周期的数据处理操作。
[0078]
总之,以上所述仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书的保护范围之内。
[0079]
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
[0080]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0081]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0082]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

技术特征:
1.一种提高hbm芯片带宽利用率的脉动总线,其特征在于,所述脉动总线包括由数据处理节点排布而成的脉动阵列;其中,相邻数据处理节点之间建立数据连接;第一行数据处理节点与hbm芯片连接,用于在节拍周期的开始时刻读取来自所述hbm芯片的数据;当前数据处理节点在完成相应数据处理后,响应于对应节拍,依据数据定向传送规则传送数据至相邻数据处理节点;最后一行数据处理节点与所述hbm芯片连接,用于响应于对应节拍写入数据至所述hbm芯片,以完成当前节拍周期的数据处理操作。2.根据权利要求1所述的提高hbm芯片带宽利用率的脉动总线,其特征在于,所述脉动阵列为m
×
n个数据处理节点构成的阵列;其中,m和n分别为所述脉动阵列的行数和列数,且m和n均大于1。3.根据权利要求1所述的提高hbm芯片带宽利用率的脉动总线,其特征在于,所述数据处理节点用于实现相同或者不同数据处理功能,所述数据处理功能包括数据运算、数据存储、数据接口调用中的至少一种。4.根据权利要求3所述的提高hbm芯片带宽利用率的脉动总线,其特征在于,所述数据处理节点响应于对应节拍的预设指令,执行相应数据处理功能。5.根据权利要求1所述的提高hbm芯片带宽利用率的脉动总线,其特征在于,所述数据定向传送规则包括向当前数据处理节点的上方和右方的相邻脉动节点传送数据。6.根据权利要求5所述的提高hbm芯片带宽利用率的脉动总线,其特征在于,依据所述脉动阵列大小、所述数据定向传送规则以及当前节拍周期内所述最后一行数据处理节点输出的数据与下一节拍周期开始时刻从所述hbm芯片所读取数据的关联性,确定节拍周期的节拍数,其中所述节拍数取值范围为[m,m+n]。7.根据权利要求1所述的提高hbm芯片带宽利用率的脉动总线,其特征在于,所述hbm芯片暂存所述数据处理节点的数据处理结果。8.一种提高hbm芯片带宽利用率的数据处理方法,其特征在于,hbm芯片按预设节拍将待处理数据发送至脉动总线;其中,所述脉动总线包括由数据处理节点排布而成的脉动阵列,相邻数据处理节点之间建立数据连接;在一个节拍周期内,所述方法包括:与hbm芯片相连接的第一行数据处理节点在节拍周期的开始时刻读取来自所述hbm芯片的数据;当前数据处理节点在完成相应数据处理后,响应于对应节拍,依据数据定向传送规则传送数据至相邻数据处理节点;与所述hbm芯片连接的最后一行数据处理节点,响应于对应节拍写入数据至所述hbm芯片,以完成当前节拍周期的数据处理操作。9.根据权利要求8所述的提高hbm芯片带宽利用率的方法,其特征在于,所述数据处理节点用于实现相同或者不同数据处理功能,所述数据处理功能包括数据运算、数据存储、数据接口调用中的至少一种;和/或,所述数据处理节点响应于对应节拍的预设指令,执行相应的数据处理功能。10.根据权利要求8所述的提高hbm芯片带宽利用率的方法,其特征在于,所述数据定向传送规则包括向当前数据处理节点的上方和右方的相邻脉动节点传送数据;和/或,依据所述脉动阵列大小、所述数据定向传送规则以及当前节拍周期内所述最后一行数据处理节点输出的数据与下一节拍周期开始时刻从所述hbm芯片所读取数据的关联性,确定节拍周期
的节拍数,其中所述节拍数取值范围为[m,m+n]。11.一种电子设备,其特征在于,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行权利要求8至10任一项所述的方法。12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行权利要求8至10任一项所述的方法。

技术总结
本说明书实施例公开了一种提高HBM芯片带宽利用率的脉动总线及数据处理方法,其中所述脉动总线包括由数据处理节点排布而成的脉动阵列;其中,相邻数据处理节点之间建立数据连接;第一行数据处理节点与HBM芯片连接,用于在节拍周期的开始时刻读取来自所述HBM芯片的数据;当前数据处理节点在完成相应数据处理后,响应于对应节拍,依据数据定向传送规则传送数据至相邻数据处理节点;最后一行数据处理节点与所述HBM芯片连接,用于响应于对应节拍写入数据至所述HBM芯片,以完成当前节拍周期的数据处理操作。本发明方案提高了HBM系统带宽上限,可支持更大带宽的数据传输;同时,充分利用HBM提供的带宽,提升带宽利用率。提升带宽利用率。提升带宽利用率。


技术研发人员:陈铖
受保护的技术使用者:九识(苏州)智能科技有限公司
技术研发日:2023.02.28
技术公布日:2023/7/13
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐