一种用于重建点云帧的占用图的方法和装置与流程

未命名 08-15 阅读:98 评论:0


1.本发明实施方案中的至少一个实施方案大体涉及点云处理。具体地,提出了占用图的神经网络放大。


背景技术:

2.本部分旨在向读者介绍本领域的各个方面,这些方面可能与下文描述和/或要求保护的本发明实施方案中的至少一个实施方案的各个方面有关。此讨论被认为有助于向读者提供背景信息,以促进更好地理解至少一个实施方案的各个方面。
3.点云可用于各种目的,诸如文化遗产/建筑物,其中雕像或建筑物等对象以3d形式扫描,以便在不发送或访问对象的情况下共享该对象的空间配置。而且,这是一种确保在对象可能被破坏的情况下保存其知识的方式;例如,地震后的寺庙。此类点云通常是静态的、彩色的并且非常大。
4.另一种用例是在地形图和制图中,其中使用3d表示可使地图不限于平面并且可包括地形凹凸。谷歌地图现在是3d地图的良好示例,但其使用网格而不是点云。然而,点云可以是用于3d地图的合适数据格式,并且此类点云通常是静态的、彩色的并且非常大。
5.汽车行业和自动驾驶汽车也是可使用点云的领域。自动驾驶汽车应该能够“探测”其环境,以基于其紧邻区域的实际情况做出良好的驾驶决策。激光雷达(lidar)等典型的传感器会产生由决策引擎使用的动态点云。这些点云并非旨在被人看到,并且它们通常是小的,不一定是彩色的,并且是动态的,具有高的捕获频率。这些点云可具有其他属性,如由lidar提供的反射率,因为该属性良好地指示被感测对象的材料,并且可有助于做出决策。
6.虚拟现实和沉浸式世界最近俨然已成为热门话题,并且被许多人预测为2d平面视频的未来。基本理念是使观看者沉浸在其周围的环境中,这与观看者只能观看其面前的虚拟世界的标准tv相反。根据观察者在环境中的自由度,沉浸感有若干层次。点云是分布虚拟现实(vr)世界的良好格式候选。
7.在许多应用中,必须能够通过仅消耗合理的比特率(或用于存储应用的存储空间)将动态点云分发给终端用户(或将其存储在服务器中),同时保持可接受的(或者优选地,非常好的)体验质量。这些动态点云的有效压缩是使许多沉浸式世界的分布链变得实用的关键点。
8.鉴于以上内容设计了至少一个实施方案。


技术实现要素:

9.以下呈现本发明实施方案中的至少一个实施方案的简化概述,以便提供对本公开的一些方面的基本理解。本发明内容不是实施方案的广泛概述。并非旨在标识实施方案的关键或重要元素。以下发明内容仅以简化形式呈现本发明实施方案中的至少一个实施方案的一些方面,作为本文其他地方提供的更详细描述的前言。
10.根据至少一个实施方案的一般方面,提供了一种方法,该方法包括重建占用图,该
占用图包括体积内容的占用数据,其中重建占用图包括:以第一分辨率对占用图进行解码;确定作为第一分辨率的函数的比例因子;使用神经网络按该比例因子放大占用图。
11.根据另一方面,提供了一种装置,该装置包括一个或多个处理器,其中该一个或多个处理器被配置为重建占用图,该占用图包括体积内容的占用数据,其中重建占用图包括:以第一分辨率对占用图进行解码;确定作为第一分辨率的函数的比例因子;使用神经网络按该比例因子放大占用图。
12.根据另一方面,提供了一种装置,该装置包括:用于重建占用图的装置,该占用图包括体积内容的占用数据;用于以第一分辨率对占用图进行解码的装置;用于确定作为第一分辨率的函数的比例因子的装置;以及用于使用神经网络按比例因子放大占用图的装置。
13.根据另一方面,提供了一种包括编码数据的比特流,该编码数据至少表示占用图,该占用图包括体积内容的占用数据,其中比特流进一步包括指示是否要使用神经网络或另一种放大方法按比例因子放大占用图的信息。
14.根据另一方面,提供了一种方法,该方法包括对占用图进行编码,该占用图包括体积内容的占用数据,其中对占用图进行编码包括:以第一分辨率缩小占用图;对所缩小的占用图进行编码;对指示是否要使用神经网络或用于重建占用图的另一种放大方法来放大占用图的信息进行编码。
15.根据另一方面,提供了一种装置,该装置包括一个或多个处理器,其中一个或多个处理器被配置为对占用图进行编码,占用图包括体积内容的占用数据,其中对占用图进行编码包括:以第一分辨率缩小占用图;对所缩小的占用图进行编码;对指示是否要使用神经网络或用于重建占用图的另一种放大方法来放大占用图的信息进行编码。
16.至少一个实施方案中的一个或多个实施方案还提供了一种设备、计算机程序产品和非暂态计算机可读介质。
17.根据下面结合附图对示例进行的描述,本发明实施方案中的至少一个实施方案的具体性质以及本发明实施方案中的至少一个实施方案的其他目的、优点、特征和用途将变得显而易见。
附图说明
18.在附图中,示出了若干实施方案的示例。附图示出:
[0019]-图1示出了根据本发明实施方案中的至少一个实施方案的基于两层的点云编码结构的示例的示意性框图;
[0020]-图2示出了根据本发明实施方案中的至少一个实施方案的基于两层的点云解码结构的示例的示意性框图;
[0021]-图3示出了根据本发明实施方案中的至少一个实施方案的基于图像的点云编码器的示例的示意性框图;
[0022]-图3a示出了包括2个图块及其2d边界框的画布的示例;
[0023]-图3b示出了沿着投影线位于两个3d样本之间的两个中间3d样本的示例;
[0024]-图4示出了根据本发明实施方案中的至少一个实施方案的基于图像的点云解码器的示例的示意性框图;
[0025]-图5示意性地示出了根据本发明实施方案中的至少一个实施方案的表示基本层(bl)的比特流的语法的示例;
[0026]-图6示出了在其中实现各个方面和实施方案的系统的示例的示意性框图;
[0027]-图7示出了源占用图(a)和来自缩小的占用图(c)的重建占用图(b)的示例;
[0028]-图8示出了来自使用根据v-pcc方法放大的缩小的占用图重建的点云的帧的示例;
[0029]-图9示出了根据实施方案的用于重建占用图的方法的流程图;
[0030]-图10示出了根据实施方案的用于传输和重建占用图的示例性系统的图;
[0031]-图11示出了根据实施方案的用于放大占用图的神经网络的示例性训练;
[0032]-图12示出了根据实施方案的用于放大占用图的示例性卷积神经网络;
[0033]-图13示出了根据另一实施方案的用于放大占用图的示例性卷积神经网络;
[0034]-图14示出了根据另一实施方案的用于重建占用图的方法的流程图;
[0035]-图15示出了根据实施方案的用于使用cnn放大占用图的方法的流程图;
[0036]-图16示出了根据实施方案的用于对占用图进行编码的方法的流程图。
具体实施方式
[0037]
下文参考附图更全面地描述本发明实施方案中的至少一个实施方案,其中附图中示出了本发明实施方案中的至少一个实施方案的示例。然而,实施方案可以许多替代形式体现,并且不应被解释为限制于本文阐述的示例。因此,应当理解,不意欲将实施方案限制于所公开的特定形式。相反,本公开旨在涵盖属于本技术的精神和范围内的所有修改、等效物和替代方案。
[0038]
当附图呈现为流程图时,应当理解,其还提供了对应装置的框图。类似地,当附图呈现为框图时,应当理解,其还提供了对应的方法/过程的流程图。
[0039]
附图中类似或相同的元件用相同的附图标记表示。
[0040]
下面描述和设想的方面可以许多不同的形式实现。下面的图1至图7提供了一些实施方案,但是设想了其他实施方案,并且图1至图7的讨论不限制具体实施的广度。
[0041]
这些方面中的至少一个方面通常涉及点云编码和解码,并且至少一个其他方面通常涉及传输所生成或所编码的比特流。
[0042]
更精确地,本文描述的各种方法和其他方面可用于实现模块,例如,本发明实施方案可由几何rg(几何生成模块(ggm)4500的输出)和所重建的点云rpcf(irpcf)(纹理生成模块(tgm)4600的输出)的一种混合器/组合器来实现。
[0043]
此外,本发明各方面不限于mpeg标准(诸如涉及点云压缩的mpeg-i第5部分),并且可应用于其他标准和推荐标准(无论是预先存在的还是未来开发的)以及任何此类标准和推荐标准的扩展(包括mpeg-i第5部分)等。除非另有指示或技术上排除,否则本技术中所述的方面可单独使用或组合使用。
[0044]
在下文中,图像数据是指特定图像/视频格式的一个或几个2d样本阵列等数据。特定图像/视频格式可指定与图像(或视频)的像素值有关的信息。特定图像/视频格式还可指定可由显示器和/或任何其他装置用来可视化和/或解码图像(或视频)等的信息。图像通常包括第一分量(也称为信道),其形状为样本的第一2d阵列,通常表示图像的亮度。图像还可
包括第二分量和第三分量,其形状为样本的其他2d阵列,通常表示图像的色度。此类图像通常表示为3信道图像,诸如例如传统的三色rgb图像或ycbcr/yuv图像。
[0045]
在一个或多个实施方案中,像素值由c个值的向量表示,其中c是分量(信道)的数量。向量的每个值通常用可定义像素值的动态范围的多个位来表示。
[0046]
图像块指的是属于图像的一组像素。图像块(或图像块数据)的像素值是指属于该图像块的像素的值。尽管图像块通常是矩形,但其可以具有任意形状。
[0047]
点云可以由3d体积空间内具有唯一坐标并且还可以具有一个或多个属性的3d样本的数据集来表示。
[0048]
该数据集中的3d样本可由其空间位置(3d空间中的x、y和z坐标)来定义,并且可能由一个或多个相关联属性来定义,诸如色彩(例如,以rgb或yuv色彩空间表示)、透明度、反射率、两分量法向矢量或表示该样本的特征的任何特征。例如,3d样本可由6个分量(x、y、z、r、g、b)或等效地由(x、y、z、y、u、v)来定义,其中(x,y,z)定义3d空间中的点的坐标,(r,g,b)或(y,u,v)定义该3d样本的色彩。相同类型的属性可以呈现多次。例如,多个色彩属性可从不同的角度提供色彩信息。
[0049]
点云可以是静态的,也可以是动态的,具体取决于云是否随时间变化。动态点云的实例或静态点云通常被表示为点云帧。应当注意,在动态点云的情况下,点的数量通常不是恒定的,相反,该数量通常随时间变化。更一般地,如果任何事物随时间变化,诸如例如点的数量、一个或多个点的位置或任何点的任何属性,则点云可被视为动态点云。
[0050]
作为示例,2d样本可由6个分量(u、v、z、r、g、b)或等效地由(u、v、z、y、u、v)来定义。(u,v)定义投影平面的2d空间中2d样本的坐标。z是投影到该投影平面上的3d样本的深度值。(r,g,b)或(y,u,v)定义该3d样本的色彩。
[0051]
图1示出了根据本发明实施方案中的至少一个实施方案的基于两层的点云编码结构1000的示例的示意性框图。
[0052]
基于两层的点云编码结构1000可提供表示输入点云帧(ipcf)的比特流(b)。所述输入点云帧(ipcf)可能表示动态点云的帧。然后,所述动态点云的帧可由基于两层的点云编码结构1000独立于另一帧进行编码。
[0053]
基于两层的点云编码结构1000基本上能够将比特流(b)构造为基本层(bl)和增强层(el)。基本层(bl)可提供输入点云帧(ipcf)的有损表示,增强层(el)可通过对并非由基本层(bl)表示的孤立点进行编码来提供更高质量(可能无损)的表示。
[0054]
基本层(bl)可由图3所示的基于图像的编码器3000提供。所述基于图像的编码器3000可提供表示输入点云帧(ipcf)的3d样本的几何/属性的几何/纹理图像。它可以允许孤立的3d样本。基本层(bl)可由图4所示的基于图像的解码器4000解码,该基于图像的解码器可提供中间重建点云帧(irpcf)。
[0055]
然后,回到图1所示的基于两层的点云编码结构1000,比较器(comp)可将输入点云帧(ipcf)的3d样本与中间重建点云帧(irpcf)的3d样本进行比较,以便检测/定位遗漏/孤立的3d样本。接下来,编码器(enc)可对遗漏的3d样本进行编码,并且可提供增强层(el)。最后,基本层(bl)和增强层(el)可由复用器(mux)复用在一起,以便生成比特流(b)。
[0056]
根据实施方案,编码器(enc)可包括检测器,该检测器可检测中间重建点云帧(irpcf)的3d参考样本r,并将其与遗漏的3d样本m关联。
[0057]
例如,根据给定度量,与遗漏的3d样本m相关联的3d参考样本r可以是m的最近邻居。
[0058]
根据实施方案,编码器(enc)然后可将遗漏的3d样本m的空间位置和其属性编码为根据所述3d参考样本r的空间位置和属性确定的差异。
[0059]
在一种变型中,这些差异可以单独编码。
[0060]
例如,对于具有空间坐标x(m)、y(m)和z(m)的遗漏的3d样本m,可以按如下所述计算x坐标位置差dx(m)、y坐标位置差dy(m)、z坐标位置差dz(m)、r属性分量差dr(m)、g属性分量差dg(m)和b属性分量差db(m):
[0061]
dx(m)=x(m)-x(r),
[0062]
其中x(m)和x(r)分别是由图3提供的几何图像中的3d样本m和r的x坐标,
[0063]
dy(m)=y(m)-y(r),
[0064]
其中y(m)和y(r)分别是由图3提供的几何图像中的3d样本m和r的y坐标,
[0065]
dz(m)=z(m)-z(r),
[0066]
其中z(m)和z(r)分别是由图3提供的几何图像中的3d样本m和r的z坐标,
[0067]
dr(m)=r(m)-r(r)。
[0068]
其中r(m)和r(r)分别是3d样本m和r的色彩属性的r色彩分量,
[0069]
dg(m)=g(m)-g(r)。
[0070]
其中g(m)和g(r)分别是3d样本m和r的色彩属性的g色彩分量,
[0071]
db(m)=b(m)-b(r)。
[0072]
其中b(m)和b(r)分别是3d样本m和r的色彩属性的b色彩分量。
[0073]
图2示出了根据本发明实施方案中的至少一个实施方案的基于两层的点云解码结构2000的示例的示意性框图。
[0074]
基于两层的点云解码结构2000的行为取决于其能力。
[0075]
具有有限能力的基于两层的点云解码结构2000可通过使用解复用器(dmux)从比特流(b)仅访问基本层(bl),然后可通过由图4所示的点云解码器4000对基本层(bl)进行解码来提供输入点云帧(ipcf)的忠实(但有损)版本irpcf。
[0076]
具有完全能力的基于两层的点云解码结构2000可通过使用解复用器(dmux)从比特流(b)访问基本层(bl)和增强层(el)两者。图4所示的点云解码器4000可从基本层(bl)确定中间重建点云帧(irpcf)。解码器(dec)可从增强层(el)确定互补点云帧(cpcf)。然后,组合器(comb)可将中间重建点云帧(irpcf)和互补点云帧(cpcf)组合在一起,从而提供输入点云帧(ipcf)的更高质量(可能无损)的表示(重建)crpcf。
[0077]
图3示出了根据本发明实施方案中的至少一个实施方案的基于图像的点云编码器3000的示例的示意性框图。
[0078]
基于图像的点云编码器3000利用现有视频编解码器来压缩动态点云的几何和纹理(属性)信息。这基本上是通过将点云数据转换为一组不同的视频序列来实现的。
[0079]
在特定实施方案中,可以使用现有视频编解码器来生成并压缩两个视频,一个视频用于捕获点云数据的几何信息,另一个视频用于捕获纹理信息。现有视频编解码器的示例是hevc main profile编码器/解码器(itu-th.265电信标准化itu部门(2018年2月),h系列:视听和多媒体系统、视听服务的基础设施-移动视频的编码、高效视频编码、推荐标准
itu-th.265)。
[0080]
通常还分别生成和压缩用于解释这两个视频的附加元数据。例如,此类附加元数据包括占用图(om)和/或辅助图块信息(pi)。
[0081]
然后,可将所生成的视频比特流和元数据复用在一起,以便生成组合比特流。
[0082]
应当注意,元数据通常表示总体信息的一小部分。大部分信息在视频比特流中。
[0083]
此类点云编码/解码过程的示例在iso/iec fdis 23090-5基于视觉体积视频的编码和基于视频的点云压缩、iso/iec jtc 1/sc 29/wg 11/mpeg-i3dg/w19579中给出。
[0084]
在步骤3100中,模块pgm可通过使用提供最佳压缩的策略,将表示输入点云帧(ipcf)的数据集的3d样本分解为投影平面上的2d样本来生成至少一个图块。
[0085]
图块可定义为一组2d样本。
[0086]
例如,在v-pcc中,首先如hoppe等人(hugues hoppe、tony derose、tom duchamp、john mcdonald、werner stuetzle,散乱点的曲面重建,acm siggraph 1992proceedings,第71-78页)所述估计每个3d样本处的法线。接下来,通过将每个3d样本与包含输入点云帧(ipcf)的3d样本的3d边界框的六个定向平面中的一个定向平面关联,来获得输入点云帧(ipcf)的初始聚类。更精确地,对每个3d样本进行聚类处理,并将其与具有最接近法线的定向平面关联(即最大化点法线和平面法线的点积)。然后,将3d样本投影到其相关联平面。在平面中形成连通区域的一组3d样本称为连通分量。连通分量是具有相似法线和同一相关联定向平面的至少一个3d样本的集合。然后,通过基于每个3d样本的法线和其最近邻样本的聚类迭代地更新与每个3d样本相关联的聚类来细化初始聚类。最终步骤包括从每个连通分量生成一个图块,这可通过将每个连通分量的3d样本投影到与所述连通分量相关联的定向平面上来实现。图块与辅助图块信息(pi)相关联,辅助图块信息(pi)表示针对每个图块定义的辅助图块信息,以解释与几何和/或属性信息对应的所投影的2d样本。
[0087]
例如,在v-pcc中,辅助图块信息(pi)包括:1)指示包含连通分量的3d样本的3d边界框的六个定向平面中的一个定向平面的信息;2)相对于平面法线的信息;3)用于确定连通分量相对于以深度、切向移位和双切向移位表示的图块的3d位置的信息;以及4)在限定包含图块的2d边界框的投影平面中的坐标(u0,v0,u1,v1)等信息。
[0088]
在步骤3200中,图块封装模块(ppm)可以通常最小化未使用空间的方式将至少一个所生成的图块映射(放置)到2d网格(也称为画布)上而不会产生任何重叠,并且可保证2d网格的每个txt(例如,16x16)块与唯一图块相关联。2d网格的给定最小块大小txt可指定放置在该2d网格上的不同图块之间的最小距离。2d网格分辨率可取决于输入点云大小及其宽度w和高度h,并且块大小t可作为元数据传输到解码器。
[0089]
辅助图块信息(pi)可进一步包括与2d网格的块与图块之间的关联有关的信息。
[0090]
在v-pcc中,辅助信息(pi)可包括块到图块索引信息(blocktopatch),该块到图块索引信息确定2d网格的块与图块索引之间的关联。
[0091]
图3a示出了包括2个图块p1和p2及其相关联的2d边界框b1和b2的画布c的示例。应当注意,如图3a所示,两个边界框可以在画布c中重叠。2d网格(画布的拆分)仅在边界框内部表示,但是画布的拆分还发生在这些边界框外部。与图块相关联的边界框可以拆分为txt个块,通常t=16。
[0092]
包含属于图块的2d样本的txt个块可视为已占用块。画布的每个已占用块由占用
图(om)(三信道图像)中的特定像素值(例如1)表示,并且画布的每个未占用块由另一特定值(例如0)表示。然后,占用图(om)的像素值可指示画布的txt块是否已占用,即是否包含属于图块的2d样本。
[0093]
在图3a中,已占用块由白色块表示,而浅灰色块表示未占用块。图像生成过程(步骤3300和步骤3400)利用至少一个所生成的图块到在步骤3200中计算的2d网格上的映射,以将输入点云帧(ipcf)的几何结构和纹理存储为图像。
[0094]
在步骤3300中,几何图像生成器(gig)可从输入点云帧(ipcf)、占用图(om)和辅助图块信息(pi)生成至少一个几何图像(gi)。几何图像生成器(gig)可利用占用图信息,以便检测(定位)已占用块并因此检测(定位)几何图像(gi)中的非空像素。
[0095]
几何图像(gi)可表示输入点云帧(ipcf)的几何结构,并且可以是以yuv420-8比特格式等表示的wxh像素的单色图像。
[0096]
为了更好地处理将多个3d样本投影(映射)到投影平面的相同2d样本(沿着相同投影方向(线))这一情况,可以生成多个图像,该多个图像称为层。因此,可将不同的深度值d1,

,dn与图块的2d样本关联,然后可生成多个几何图像。
[0097]
在v-pcc中,将图块的2d样本投影到两层上。第一层(也称为近层)可存储与具有较小深度的2d样本相关联的深度值d0等。第二层(称为远层)可存储与具有较大深度的2d样本相关联的深度值d1等。或者,第二层可存储深度值d1与d0之间的差值。例如,由第二深度图像存储的信息可在与范围[d0,d0+δ]内的深度值对应的区间[0,δ]内,其中δ是描述曲面厚度的用户定义的参数。
[0098]
通过这种方式,第二层可包含显著的轮廓状高频特征。因此,可以清楚地看出,第二深度图像可能难以使用传统的视频编码器进行编码,并且因此深度值可能很难从所述解码的第二深度图像重建,这会导致重建点云帧的几何结构质量较差。
[0099]
根据实施方案,几何图像生成模块(gig)可通过使用辅助图块信息(pi)来编码(导出)与第一层和第二层的2d样本相关联的深度值。
[0100]
在v-pcc中,3d样本在具有对应连通分量的图块中的位置可以深度δ(u,v)、切向位移s(u,v)和双切向移位r(u,v)表示如下:
[0101]
δ(u,v)=δ0+g(u,v)
[0102]
s(u,v)=s0

u0+u
[0103]
r(u,v)=r0

v0+v
[0104]
其中g(u,v)是几何图像的亮度分量,(u,v)是与投影平面上的3d样本相关联的像素,(δ0,s0,r0)是3d样本所属的连通分量的对应图块的3d位置,(u0,v0,u1,v1)是所述投影平面中的坐标,该坐标限定包含与所述连通分量相关联的图块的投影的2d边界框。
[0105]
因此,几何图像生成模块(gig)可以将与层(第一层或第二层或两者)的2d样本相关联的深度值编码(导出)为亮度分量g(u,v),该亮度分量通过下式得出:g(u,v)=δ(u,v)-δ0。应当注意,该关系可用于从具有附加辅助图块信息(pi)的重建几何图像g(u,v)重建3d样本位置(δ0,s0,r0)。
[0106]
根据实施方案,可以使用投影模式来指示第一几何图像gi0是否可存储第一层或第二层的2d样本的深度值,并且第二几何图像gi1是否可存储与第二层或第一层的2d样本相关联的深度值。
[0107]
例如,当投影模式等于0时,第一几何图像gi0可存储第一层的2d样本的深度值,并且第二几何图像gi1可存储与第二层的2d样本相关联的深度值。相反,当投影模式等于1时,第一几何图像gi0可存储第二层的2d样本的深度值,并且第二几何图像gi1可存储与第一层的2d样本相关联的深度值。
[0108]
根据实施方案,可使用帧投影模式来指示是针对所有图块使用固定投影模式,还是使用可变投影模式(其中每个图块可使用不同的投影模式)。投影模式和/或帧投影模式可以作为元数据传输。
[0109]
根据实施方案,当帧投影指示可使用可变投影模式时,可使用图块投影模式来指示要用于(取消)投射图块的适当模式。
[0110]
图块投影模式可作为元数据传输,并且可能是包括在辅助图块信息(pi)中的信息。
[0111]
根据步骤3300的实施方案,与图块的2d样本(u,v)对应的第一几何图像(例如gi0)的像素值可表示沿着与所述2d样本(u,v)对应的投影线限定的至少一个中间3d样本的深度值。更精确地,所述中间3d样本沿着投影线驻留,并且共享其深度值d1被编码在第二几何图像(例如gi1)中的2d样本(u,v)的相同坐标。此外,所述中间3d样本的深度值可位于深度值d0与深度值d1之间。可以将指定比特与每个所述中间3d样本关联;如果存在中间3d样本,则将指定比特设置为1,否则设置为0。
[0112]
图3b示出了沿着投影线(pl)位于两个3d样本p0和p1之间的两个中间3d样本p
i1
和p
i2
的示例。3d样本p0和p1的深度值分别等于d0和d1。两个中间3d样本p
i1
和p
i2
的深度值d
i1
和d
i2
分别大于d0和小于d1。
[0113]
然后,可以级联沿着所述投影线的所有所述指定比特以形成码字,其在下文中表示为增强占用图(eom)码字。如图3b所示,假设eom码字的长度为8比特,2比特等于1以指示两个3d样本p
i1
和p
i2
的位置。最后,可将所有eom码字封装在占用图(om)等图像中。在这种情况下,画布的至少一个图块可包含至少一个eom码字。此类图块被表示为参考图块,并且参考图块的块被表示为eom参考块。因此,占用图(om)的像素值可等于第一值(例如0)以指示画布的未占用块,或者等于另一值(例如大于0)以指示(例如)当d1-d0《=1时画布的已占用块,或者(例如)当d1-d0》1时画布的eom参考块。
[0114]
占用图(om)中指示eom参考块的像素的位置以及从这些像素的值获得的eom码字的比特值指示中间3d样本的3d坐标。
[0115]
在步骤3400中,纹理图像生成器(tig)可从输入点云帧(ipcf)、占用图(om)、辅助图块信息(pi)以及从视频解码器(vdec)的至少一个解码几何图像(dgi)输出导出的重建点云帧的几何结构(图4中的步骤4200)来生成至少一个纹理图像(ti)。
[0116]
纹理图像(ti)是可表示输入点云帧(ipcf)的纹理的三信道图像,并且可以是以yuv420-8比特格式或以rgb444-8比特格式等表示的wxh像素的图像。
[0117]
纹理图像生成器(tig)可利用占用图信息,以便检测(定位)已占用块并因此检测(定位)纹理图像中的非空像素。
[0118]
纹理图像生成器(tig)可适于生成纹理图像(ti),并将其与每个几何图像/层(dgi)关联。
[0119]
根据实施方案,纹理图像生成器(tig)可将与第一层的2d样本相关联的纹理(属
性)值t0编码(存储)为第一纹理图像ti0的像素值,并将与第二层的2d样本相关联的纹理值t1编码(存储)为第二纹理图像ti1的像素值。
[0120]
或者,纹理图像生成模块(tig)可将与第二层的2d样本相关联的纹理值t1编码(存储)为第一纹理图像ti0的像素值,并将与第一层的2d样本相关联的纹理值d0编码(存储)为第二几何图像gi1的像素值。
[0121]
例如,可以如w19579的第9.5节“属性视频解码过程”所述获得3d样本的色彩。
[0122]
两个3d样本的纹理值存储在第一纹理图像或第二纹理图像中。但是,中间3d样本的纹理值既不能存储在该第一纹理图像ti0中,也不能存储在第二纹理图像ti1中,这是因为所投影的中间3d样本的位置对应于已用于存储图3b所示的另一3d样本(p0或p1)的纹理值的已占用块。因此,中间3d样本的纹理值存储在位于第一纹理图像或第二纹理图像中其他位置的eom纹理块中,位于如w19579的第9.5节“属性视频解码过程”中按程序定义的位置。简而言之,该过程确定纹理图像中未占用块的位置,并将与中间3d样本相关联的纹理值存储为纹理图像的所述未占用块(表示为eom纹理块)的像素值。
[0123]
根据实施方案,可对几何和/或纹理图像应用填充处理。填充处理可用于填充图块之间的空白空间,以生成适于视频压缩的分段平滑图像。
[0124]
在步骤3500中,视频编码器(venc)可对所生成的图像/层ti和gi进行编码。
[0125]
在步骤3600中,编码器omenc可将占用图编码为图像,如w19579的第h9.3节“占用视频解码过程”中详细描述的。可以使用有损或无损编码。
[0126]
根据实施方案,视频编码器enc和/或omenc可以是基于hevc的编码器。
[0127]
在步骤3700中,编码器pienc可对辅助图块信息(pi)以及可能的附加元数据(诸如几何/纹理图像的块大小t、宽度w和高度h)进行编码。
[0128]
根据实施方案,可对辅助图块信息进行差分编码(如w19579的第h.9.6节“子比特流提取过程”等中所定义的)。
[0129]
在步骤3800中,可将复用器应用于步骤3500、步骤3600和步骤3700中所生成的输出,并且因此可将这些输出复用在一起,以便生成表示基本层(bl)的比特流。应当注意,元数据信息表示总体比特流的一小部分。使用视频编解码器对大部分信息进行压缩。
[0130]
图4示出了根据本发明实施方案中的至少一个实施方案的基于图像的点云解码器4000的示例的示意性框图。
[0131]
在步骤4100中,可应用解复用器(dmux)来对表示基本层(bl)的比特流的编码信息进行解复用。
[0132]
在步骤4200中,视频解码器(vdec)可对编码信息进行解码,以导出至少一个解码几何图像(dgi)和至少一个解码纹理图像(dti)。
[0133]
在步骤4300中,解码器omdec可对编码信息进行解码,以导出解码占用图(dom)。
[0134]
根据实施方案,视频解码器vdec和/或omdec可以是基于hevc的解码器。
[0135]
在步骤4400中,解码器pidec可对编码信息进行解码,以导出辅助图块信息(dpi)。
[0136]
此外,还可从比特流(b)导出元数据。
[0137]
在步骤4500中,几何生成模块(ggm)可从至少一个解码几何图像(dgi)、解码占用图(dom)、解码辅助图块信息(dpi)和可能的附加元数据导出重建点云帧(irpcf)的几何结构rg。
[0138]
几何生成模块(ggm)可利用解码占用图(dom)信息,以便定位至少一个解码几何图像(dgi)中的非空像素。
[0139]
如上所述,根据解码占用图(dom)信息的像素值和d1-d0的值,所述非空像素属于已占用块或eom参考块。
[0140]
根据步骤4500的实施方案,几何生成模块(ggm)可从非空像素的坐标导出中间3d样本的3d坐标中的两个3d坐标。
[0141]
根据步骤4500的实施方案,当所述非空像素属于所述eom参考块时,几何生成模块(ggm)可从eom码字的比特值导出中间3d样本的3d坐标中的第三3d坐标。
[0142]
例如,根据图3b的示例,eom码字(eomc)用于确定中间3d样本p
i1
和p
i2
的3d坐标。例如,中间3d样本p
i1
的第三坐标可根据d
i1
=d0+3从d0导出,并且重建3d样本p
i2
的第三坐标可根据d
i2
=d0+5从d0导出。偏移值(3或5)是沿着投影线位于d0与d1之间的区间的数量。
[0143]
根据实施方案,当所述非空像素属于已占用块时,几何生成模块(ggm)可从非空像素的坐标、至少一个解码几何图像(dgi)中的一个解码几何图像的所述非空像素的值、解码辅助图块信息以及可能地从附加元数据导出重建3d样本的3d坐标。
[0144]
非空像素的使用基于2d像素与3d样本的关系。例如,在v-pcc中,通过所述投影,重建3d样本的3d坐标可以深度δ(u,v)、切向位移s(u,v)和双切向位移r(u,v)表示如下:
[0145]
δ(u,v)=δ0+g(u,v)
[0146]
s(u,v)=s0

u0+u
[0147]
r(u,v)=r0

v0+v
[0148]
其中g(u,v)是解码几何图像(dgi)的亮度分量,(u,v)是与重建3d样本相关联的像素,(δ0,s0,r0)是重建3d样本所属的连通分量的3d位置,(u0,v0,u1,v1)是投影平面中的坐标,该坐标限定包含与所述连通分量相关联的图块的投影的2d边界框。
[0149]
在步骤4600中,纹理生成模块(tgm)可从几何结构rg和至少一个解码纹理图像(dti)导出重建点云帧(irpcf)的纹理。
[0150]
根据步骤4600的实施方案,纹理生成模块(tgm)可从对应的eom纹理块导出属于eom参考块的非空像素的纹理。例如,eom纹理块在纹理图像中的位置在w19579的第h.11.3节“eom图块重建”中按程序定义。
[0151]
根据步骤4600的实施方案,纹理生成模块(tgm)可直接导出属于已占用块的非空像素的纹理,作为第一纹理图像或第二纹理图像的像素值。
[0152]
图5示意性地示出了根据本发明实施方案中的至少一个实施方案的表示基本层(bl)的比特流的语法的示例。
[0153]
该比特流包括比特流报头sh和至少一组帧流(gofs)。
[0154]
一组帧流(gofs)包括报头hs、表示占用图(om)的至少一个语法元素oms、表示至少一个几何图像(或视频)的至少一个语法元素gvs、表示至少一个纹理图像(或视频)的至少一个语法元素tvs以及表示辅助图块信息和其他附加元数据的至少一个语法元素pis。
[0155]
在一种变型中,一组帧流(gofs)包括至少一个帧流。
[0156]
图6示出了在其中实现各个方面和实施方案的系统的示例的示意性框图。
[0157]
系统6000可体现为一个或多个设备,该一个或多个设备包括下文所述的各种部件并且被配置为执行本文档中所述方面中的一个或多个方面。可构成系统6000的全部或部分
的设备的示例包括个人计算机、笔记本计算机、智能电话、平板计算机、数字多媒体机顶盒、数字电视接收器、个人视频录制系统、连接的家用电器、连接的车辆及其相关联的处理系统、头戴式显示(hmd)设备(透视眼镜)、投影仪(投影机)、“洞穴”(包括多个显示器的系统)、服务器、视频编码器、视频解码器、处理视频解码器输出的后处理器、向视频编码器提供输入的预处理器、web服务器、机顶盒、用于处理点云、视频或图像的任何其他设备或其他通信设备。系统6000的元件可单独地或组合地体现在单个集成电路、多个ic和/或分立部件中。例如,在至少一个实施方案中,系统6000的处理和编码器/解码器元件可跨多个ic和/或分立部件分布。在各种实施方案中,系统6000可经由通信总线等或通过专用输入和/或输出端口通信地耦接到其他类似系统或其他电子设备。在各种实施方案中,系统6000可被配置为实现本文档中所述的方面中的一个或多个方面。
[0158]
系统6000可包括至少一个处理器6010,该至少一个处理器被配置为执行加载到其中的指令,例如以用于实现本文档中所述的各个方面。处理器6010可包括嵌入式存储器、输入输出接口和本领域已知的各种其他电路。系统6000可包括至少一个存储器6020(例如,易失性存储器设备和/或非易失性存储器设备)。系统6000可包括存储设备6040,该存储设备可包括非易失性存储器和/或易失性存储器,包括但不限于电可擦除可编程只读存储器(eeprom)、只读存储器(rom)、可编程只读存储器(prom)、随机存取存储器(ram)、动态随机存取存储器(dram)、静态随机存取存储器(sram)、闪存、磁盘驱动器和/或光盘驱动器。作为非限制性示例,存储设备6040可包括内部存储设备、附接存储设备和/或网络可访问的存储设备。
[0159]
系统6000可包括编码器/解码器模块6030,例如该编码器/解码器模块被配置为处理数据以提供编码数据或解码数据,并且编码器/解码器模块6030可包括其自身的处理器和存储器。编码器/解码器模块6030可表示可被包括在设备中以执行编码功能和/或解码功能的模块。众所周知,设备可包括编码模块和解码模块中的一者或两者。另外,编码器/解码器模块6030可被实现为系统6000的独立元件,或可被结合在处理器6010内作为本领域技术人员已知的硬件和软件的组合。
[0160]
要加载到处理器6010或编码器/解码器6030上以执行本文档中所述的各个方面的程序代码可存储在存储设备6040中,并且随后加载到存储器6020上以供处理器6010执行。根据各种实施方案,处理器6010、存储器6020、存储设备6040和编码器/解码器模块6030中的一者或多者可在本文档中所述过程的执行期间存储各个项目中的一个或多个项目。此类存储项目可包括但不限于点云帧、编码/解码几何/纹理视频/图像或该编码/解码几何/纹理视频/图像的部分、比特流、矩阵、变量以及处理等式、公式、运算和运算逻辑的中间或最终结果。
[0161]
在若干实施方案中,处理器6010和/或编码器/解码器模块6030内部的存储器可用于存储指令并提供工作存储器以用于可在编码或解码期间执行的处理。
[0162]
然而,在其他实施方案中,在处理设备外部的存储器(例如,处理设备可以是处理器6010或编码器/解码器模块6030)可用于这些功能中的一个或多个功能。外部存储器可以是存储器6020和/或存储设备6040,例如动态易失性存储器和/或非易失性闪存存储器。在若干实施方案中,外部非易失性闪存存储器可用于存储电视机的操作系统。在至少一个实施方案中,ram等快速外部动态易失性存储器可用作用于视频编码和解码操作的工作存储
器,诸如用于mpeg-2第2部分(也称为itu-t推荐标准h.262,以及iso/iec 13818-2,也称为mpeg-2视频)、高效视频编码(hevc)或通用视频编码(vvc)。
[0163]
如框6130中所指示,可通过各种输入设备提供对系统6000的元件的输入。此类输入设备包括但不限于:(i)接收(例如)由广播器通过无线电传输的rf信号的rf部分;(ii)复合输入端子;(iii)usb输入端子和/或(iv)hdmi输入端子。
[0164]
在各种实施方案中,框6130的输入设备可具有本领域已知的相关联的相应输入处理元件。例如,rf部分可与以下各项所需的元件相关联:(i)选择期望的频率(也称为选择信号,或将信号频带限制到一个频带);(ii)下变频所选的信号;(iii)再次将频带限制到更窄频带以选择(例如)在某些实施方案中可称为信道的信号频带;(iv)解调经下变频和频带限制的信号;(v)执行纠错;以及(vi)解复用以选择期望的数据包流。各种实施方案的rf部分可包括用于执行这些功能的一个或多个元件,例如频率选择器、信号选择器、频带限制器、信道选择器、滤波器、下变频器、解调器、纠错器和解复用器。rf部分可包括执行这些功能中的各种功能的调谐器,例如这些功能包括下变频接收的信号至更低频率(例如,中频或近基带频率)或至基带。
[0165]
在一个机顶盒实施方案中,rf部分及其相关联的输入处理元件可接收通过有线(例如,电缆)介质传输的rf信号。然后,rf部分可通过滤波、下变频以及再次滤波到期望的频带来执行频率选择。
[0166]
各种实施方案重新布置上述(和其他)元件的顺序,移除这些元件中的一些元件,和/或添加执行类似或不同功能的其他元件。
[0167]
添加元素可包括在现有元素之间插入元素,诸如例如,插入放大器和模数变换器。在各种实施方案中,rf部分可包括天线。
[0168]
另外,usb和/或hdmi端子可包括用于跨usb和/或hdmi连接将系统6000连接到其他电子设备的相应接口处理器。应当理解,输入处理(例如,reed-solomon纠错)的各个方面可根据需要在单独的输入处理ic内或在处理器6010等内实现。类似地,usb或hdmi接口处理的各方面可根据需要在单独的接口ic内或在处理器6010内实现。可以将解调流、纠错流和解复用流提供给各种处理元件,例如包括与存储器和存储元件结合操作的处理器6010以及编码器/解码器6030,以根据需要处理数据流从而呈现在输出设备上。
[0169]
系统6000的各种元件可设置在集成壳体内。在集成壳体内,各种元件可使用合适的连接布置6140(例如,本领域已知的内部总线,包括i2c总线、布线和印刷电路板)互连并且在这些元件之间传输数据。
[0170]
系统6000可包括能够经由通信信道6060与其他设备通信的通信接口6050。通信接口6050可包括但不限于被配置为通过通信信道6060传输和接收数据的收发器。通信接口6050可包括但不限于调制解调器或网卡,并且通信信道6060可在有线和/或无线介质等内实现。
[0171]
在各种实施方案中,可使用诸如ieee 802.11的wi-fi网络将数据流式传输到系统6000。这些实施方案的wi-fi信号可通过适于wi-fi通信的通信信道6060和通信接口6050来接收。这些实施方案中的通信信道6060通常可连接到接入点或路由器,该接入点或路由器提供对包括互联网的外部网络的访问,以允许流式传输应用和其他过顶通信。
[0172]
其他实施方案可使用机顶盒向系统6000提供流式传输数据,该机顶盒通过输入框
6130的hdmi连接来递送数据。
[0173]
其他实施方案可使用输入框6130的rf连接向系统6000提供流式传输数据。
[0174]
应当理解,信令可以多种方式实现。例如,在各种实施方案中,可使用一个或多个语法元素、标志等将信息发信号通知至对应解码器。
[0175]
系统6000可向各种输出设备(包括显示器6100、扬声器6110和其他外围设备6120)提供输出信号。在实施方案的各种示例中,其他外围设备6120可包括以下各项中的一者或多者:独立dvr、磁盘播放器、立体音响系统、照明系统和基于系统3000的输出提供功能的其他设备。
[0176]
在各种实施方案中,控制信号可使用信令(诸如av.link(音频/视频链路)、cec(消费电子产品控制)或能够在有或没有用户干预的情况下实现设备到设备控制的其他通信协议)在系统6000与显示器6100、扬声器6110或其他外围设备6120之间传达。
[0177]
这些输出设备可通过相应的接口6070、6080和6090经由专用连接通信地耦接到系统6000。
[0178]
或者,输出设备可使用通信信道6060经由通信接口6050连接到系统6000。显示器6100和扬声器6110可与电子设备(诸如例如电视)中的系统6000的其他部件集成在单个单元中。
[0179]
在各种实施方案中,显示器接口6070可包括显示驱动器,诸如例如定时控制器(t con)芯片。
[0180]
或者,例如,如果输入6130的rf部分是单独机顶盒的一部分,则显示器6100和扬声器6110可与其他部件中的一个或多个部件分开。在显示器6100和扬声器6110可为外部部件的各种实施方案中,输出信号可经由专用输出连接(例如包括hdmi端口、usb端口或comp输出)来提供。
[0181]
如上所述,体积三维(3d)数据被表示为到2d部件上的一组投影,也称为图集:占用图、几何图、属性图。辅助元数据也用于重建3d点云模型。
[0182]
用常规2d编解码器(例如,avc、hevc或vvc等)来压缩图集。此外,为了增加压缩增益,可以在编码之前按称为占用图精度的因子缩小占用图。
[0183]
为了重建点云,解码器对缩小的占用图进行解码,并将其放大到其标称分辨率。图7示出了投影到平面上的源点云帧的连通分量的占用图(a)以及当占用图缩小4(c)时在v-pcc中重建的对应占用图(b)的示例。
[0184]
当原始投影点云的块在至少一个像素中被占用时,与该块相关联的占用图的像素被设置为1,从而导致在解码阶段重建时许多点被重建。
[0185]
例如,如果占用精度被设置为4,则每个块的重建点数为16。如果4*4块几乎填满了原始点云,则将整个块的占用精度设置为1是有效的。
[0186]
然而,如果在编码器侧只有一个点占用4x4块,则该占用指示整个块被占用,并且导致在解码过程中生成16个点而不是1个点,这一点都不精确。
[0187]
占用图的放大并不规范。w19579中的b2.2占用标称格式部分描述了示例性方法。如图8所示,这种放大方法导致所重建的占用图图像中出现许多混叠伪影。图8示出了来自使用根据v-pcc方法放大的缩小的占用图重建的点云的帧的示例。图8中的圆圈区域突出显示重建帧中的混叠问题。这导致3d重建不能忠实于源点云,并且需要进行几何平滑处理等
额外处理,以减少混叠效应。
[0188]
根据实施方案,公开了一种用于重建缩小的占用图的方法。图9示出了根据实施方案的用于重建占用图的方法90的流程图。占用图包括体积内容的占用数据。体积内容可以被表示为动画点云,或者被表示为适于传输3d内容的任何其他表示,诸如沉浸式视频元数据(miv)表示等。
[0189]
在91处,接收占用图并以第一分辨率进行解码。占用图可包括至少一个值,该至少一个值指示2d投影帧(诸如纹理帧或几何帧)中的至少一个2d样本是否对应于体积内容中的至少一个相关联样本。
[0190]
在92处,确定占用图的作为第一分辨率的函数的比例因子。例如,将该比例因子确定为内容的帧的宽度(诸如几何帧的宽度)与所解码的占用图的宽度之间的比率。在93处,使用神经网络按所确定的比例因子放大所解码的占用图。
[0191]
该方法以如下方式放大占用图:占用图保持如上结合图7所述的压缩效率的益处,即按比例因子缩小。如在v-pcc标准中所做的那样,使占用图保持压缩。
[0192]
根据实施方案,将附加数据发送到比特流中,以便指示要在解码器侧应用的优选放大方法或占用图滤波/合成方法。
[0193]
与在v-pcc中描述的直接方法相比,基于神经网络的放大方法旨在改进占用图的2d图像的放大。通过基于神经网络的放大方法对所重建的占用图图像进行视觉改进。
[0194]
图10示出了根据实施方案的用于传输和重建占用图的示例性系统的图。将占用图提供给编码器,该编码器缩小占用图并对缩小的占用图进行编码。然后,将所编码的占用图以及最终与神经网络信息(cnn信息)一起传输到解码器。然后,解码器对占用图进行解码,并使用神经网络以及(最终地)神经网络信息放大所解码的占用图。
[0195]
图11示出了根据实施方案的用于放大占用图的神经网络的示例性训练。在编码器侧,通过使用该图所示的源占用图和重建占用图来训练神经网络。该训练旨在通过最小化所重建的放大占用图与标称大小的源占用图之间的距离,来改进神经网络模型。图11的左侧示出了输入占用图的示例。该图示出了占用图的源块的示例,其中占用精度(op)等于1,这意味着不执行缩小;并且上面示出了按因子4缩小的对应块(占用图op=4)。图11的右侧示出了已由神经网络放大的缩小块。该训练旨在最小化由神经网络放大的块样本与源块之间的上采样误差。
[0196]
根据实施方案,与在v-pcc测试模型中实现的现有方法相比,压缩占用图的重建更忠实于原始点云占用图。该训练是“离线”执行的一次性过程,所生成的模型可以嵌入到解码器中或发信号通知。
[0197]
使用诸如神经网络、像素复制、lancsoz等几种放大方法中的放大方法需要在比特流中发信号通知哪种方法优选地用于最终使用该比特流的参数进行解码。
[0198]
在解码器侧,对比特流信息进行解复用,并且使用该信息来确定建议使用哪种放大方法。可以使用对应方法以及(最终地)相关联的参数来执行占用图的重建。
[0199]
图12示出了根据实施方案的用于放大占用图的示例性卷积神经网络(cnn)。图12是用于放大的神经网络架构和设置(训练)的示例性但非限制性描述。根据其他变型,可以使用其他卷积神经网络(cnn)架构来进行放大。
[0200]
该网络由多层称为神经元的简单处理单元组成,其经由加权连接彼此交互。神经
元通过来自先前激活的神经元的加权连接而被激活。激活可以通过激活函数进行阈值处理。
[0201]
如图12所示,在8x8像素的小块(也称为8x8块)上训练cnn,在该示例中,这些块旨在放大到32x32块。
[0202]
示例性地,使用由以下两层组成的神经网络架构:一个输入层和一个输出层。第一层包含128个神经元,而输出层具有一个神经元。如图12所示,每一层由卷积层和随后的放大层组成。执行从8x8块到16x16块的放大。然后,在cnn的第二部分将16x16块放大到32x32块。该架构(隐藏层的数量和每层的神经元数量)有助于平衡学习和预测质量。
[0203]
使用渐进式放大可获得更高性能,这意味着放大被分解为具有小因子的许多小级联放大层。
[0204]
图12的右侧示出了使用cnn按因子4放大的占用图的一部分的示例。
[0205]
放大cnn模型的示例性具体实施如下:在以下条件下,使用mpeg pcc内容(iso/iec jtc1/sc29 wg11,奥地利阿尔巴哈,2020年4月,w19234,用于pcc的公共测试条件)来训练cnn放大模型:
[0206]
·
所有模型内容:长裙、红黑相间、战利品、女王、士兵、篮球、舞者,
[0207]
·
使用100个gop_file(一个gop包含32帧)-3200帧
[0208]
·
针对每个帧取所有32x32块
[0209]
·
对文件执行随机操作,但条件r05(对应于最高比特率并且具有最忠实的重建,这是因为占用图更精确(占用图精度为2)且图像的压缩率更低)和随机访问条件(ra)除外。
[0210]
根据实施方案,从训练中排除所有空的或满的8x8块,其原因在于太多满的或空的块会降低训练性能,这是因为此类块太《容易》放大。
[0211]
图13示出了根据另一实施方案的用于放大占用图的示例性卷积神经网络。卷积层和放大层是图13所示的转置卷积层。例如,根据输入(块大小为2x2),步长为2、内边距为1的内核大小(3x3)会产生4x4输出。以这种方式堆叠两层可按因子4放大图像。
[0212]
在v-pcc中,当在编码器处对占用图进行下采样后,应在v-pcc解码过程中执行占用图的放大。然而,用于放大的方法并不规范。
[0213]
为了提供由内容创建者或服务提供者核实的经验证放大方法,可以在(v-pcc)比特流中携带占用图放大方法。
[0214]
根据实施方案,在比特流中的每个图集或占用图实例中传输用于执行占用图放大的方法的类型。所选择的方法可以是像素复制方法、基于神经网络的放大方法或使用线性(lanczos等)、可分离或双线性上采样滤波器的另一种放大方法。
[0215]
在v3c_parameter_set()语法结构内并且具体地在如下表1所示的occupancy_information()函数中携带与占用图相关联的信息,包括关于当前v-pcc语法的附加语法元素(突出显示附加语法元素)。
[0216][0217]
表1:占用信息
[0218]
oi_occupancy_type指示占用图的放大方法。oi_occupancy_type等于0指定使用直接方法的放大方法,例如在w19579的b2.2占用标称格式中所描述的。oi_occupancy_type等于1指定使用深度神经网络的放大方法。保留在3至7的范围内的oi_occupancy_type值,以供iso/iec将来使用。
[0219]
oi_occupancy_cnn_params_present_flag等于1指示存在使用深度网络来放大占用图的信息(oi_occupancy_type等于1)。oi_occupancy_cnn_params_present_flag等于0指示不存在使用深度网络来放大占用图的信息,并且应当使用默认参数。
[0220]
oi_cnn_model_id包含可用于标识cnn模型路径的标识号。oi_cnn_model_id应当在0至7的范围内(包括0和7)。应当在解码器中定义模型路径与oi_cnn_model_id之间的对应关系。
[0221]
oi_cnn_block_size指定由cnn模型使用的块大小的值作为输入数据大小以执行占用图放大。oi_cnn_block_size应当在0至7的范围内(包括0和7)。
[0222]
在另一变型中,根据v-pcc定义,在基本或非基本sei消息中(例如,在占用合成sei
消息中)携带附加语法元素。表1中突出显示的语法封装在sei消息中。
[0223]
图14示出了根据另一实施方案的用于重建占用图的方法1400的流程图。在1401处,对比特流进行解复用,并对占用图进行解码。
[0224]
在1402处,从比特流(例如,从如上所述的occupancy_information()语法结构)中提取关于放大占用图的信息并对其进行解码。
[0225]
在1403处,确定用于所解码的占用图的比例因子。例如,确定比例因子作为几何帧宽度与占用图宽度之间的比率:
[0226][0227]
如果比例因子大于1,则应放大占用图。
[0228]
在1404处,确定占用图的放大类型。例如,如果语法元素oi_occupancy_type不等于1,则该过程转到1405,并且使用直接方法(例如,使用像素复制方法)来放大占用图。
[0229]
如果语法元素oi_occupancy_type等于1,则该过程转到1406。根据该实施方案,使用神经网络来执行放大。在1406处,例如通过检查语法元素oi_occupancy_cnn_params_present_flag来确定比特流中是否存在cnn参数。如果比特流中不存在cnn参数,则在1407处,从解码器的存储器中检索cnn参数。例如,一个或多个默认cnn模型被存储在存储器中,每个默认cnn模型与cnn输入块大小和比例因子相关联。
[0230]
根据一种变型(其中cnn与不同比例因子相关联),在1407处,根据在1403处确定的比例因子选择cnn。
[0231]
根据另一变型(其中没有与所确定的比例因子相关联的cnn可用),在1410处,选择默认cnn,并且在放大占用图时应用cnn的迭代。例如,如果检索到与比例因子2相关联的默认cnn,并且在1403处确定的比例因子为4,则在1410处,通过应用两次默认cnn来放大所解码的占用图。
[0232]
如果比特流中存在cnn参数(在1406处为“是”),则在1408处,从比特流对cnn参数进行解码。下面描述的不同变型是可能的。
[0233]
在1409处,基于所解码的cnn参数来选择cnn模型;并且在1410处,使用所选择的cnn模型来放大所解码的占用图。
[0234]
在1409处,根据在比特流中发信号通知的cnn参数,在一组神经网络模型中选择cnn模型。
[0235]
根据一种变型,基于在比特流中发信号通知的cnn模型标识符来选择cnn模型。根据该变型,与标识符相关联的不同cnn模型被存储在解码器处,每个cnn模型具有不同的结构和/或权重。
[0236]
根据另一实施方案,基于cnn的输入块大小来选择cnn模型。
[0237]
可以在图块级别、图像级别或序列级别在比特流中发信号通知cnn参数。可以在补充增强信息消息或占用合成补充增强信息消息中发信号通知cnn参数。
[0238]
根据实施方案,假设模型和权重对于解码器是已知的,因此这些模型并未携带在比特流中。
[0239]
根据另一实施方案,cnn的模型和权重作为辅助信息被携带在该比特流或另一比
特流中。在该实施方案中,例如为了在权重动态与所需精度之间进行权衡,或者为了减小网络的大小,对权重进行压缩。
[0240]
根据方法1400的实施方案,以占用图的标称分辨率输出放大的占用图,并且可以将其用于重建3d对象,诸如点云帧。
[0241]
图15示出了根据实施方案的用于使用cnn放大占用图的方法1500的流程图。图15示出了关于使用cnn放大过程块的详细信息。在1501处,基于cnn块大小输入,从所解码的占用图构建占用图块的列表。在1502处,针对具有cnn块大小的每个输入样本生成输出预测,输入样本是所解码的占用图的块。
[0242]
在1503处,将占用图的块输入到cnn,并通过cnn放大该块。cnn在所生成的输出预测中输出放大的占用图块。在1504处,将每个放大的占用图块复制到占用图图像中,作为比例因子的函数。
[0243]
下文描述了其中呈现cnn参数的不同信令的实施方案。
[0244]
根据实施方案,在cnn是全卷积网络的情况下,解码器侧不需要oi_cnn_block_size。全卷积网络是卷积的级联。这种类型的神经网络的优点是能够灵活使用,因为可以根据所定义的块大小(例如,8x8或16x16等)来学习模型,并将其应用于解码器处的任何块大小。输入大小由解码器给出,并且cnn通过应用在cnn模型的体系结构中写入的放大因子scalefactor的信息来放大图像。scalefactor的该信息是根据每个卷积层中卷积核的内边距、步长和大小来计算的。
[0245]
通过由oi_cnn_model_id语法元素标识的深度cnn来执行占用图的放大。下表2描述了对应语法的示例:
[0246][0247]
表2:全卷积网络的占用信息
[0248]
oi_occupancy_type指示占用图的放大方法。oi_occupancy_type等于0指定使用直接方法的放大方法,例如在w19579的b2.2占用标称格式中所描述的。oi_occupancy_type等于1指定使用深度神经网络的放大方法。保留在3至7的范围内的oi_occupancy_type值,以供iso/iec将来使用。
[0249]
oi_occupancy_cnn_params_present_flag等于1指示存在使用深度网络来放大占用图的信息(oi_occupancy_type等于1)。oi_occupancy_cnn_params_present_flag等于0指示不存在使用深度网络来放大占用图的信息,并且应当使用默认参数。
[0250]
oi_cnn_model_id包含可用于标识cnn模型路径的标识号。oi_cnn_model_id应当在0至7的范围内(包括0和7)。应当在解码器中定义模型路径与oi_cnn_model_id之间的对应关系。
[0251]
根据另一实施方案,如果仅有一个模型放大占用图,则不需要发信号通知oi_cnn_model_id。解码器使用被称为默认cnn_model_id的标识号。下
[0252]
表3显示了对应语法的示例:
[0253][0254]
表3:当cnn模型是唯一的并且在解码器侧可用时的占用信息oi_occupancy_type指示占用图的放大方法。oi_occupancy_type等于0指定使用直接方法的放大方法,例如在w19579的b2.2占用标称格式中所描述的。oi_occupancy_type等于1指定使用深度神经网络的放大方法。保留在3至7的范围内的oi_occupancy_type值,以供iso/iec将来使用。
[0255]
oi_occupancy_cnn_params_present_flag等于1指示存在使用深度网络来放大占用图的信息(oi_occupancy_type等于1)。oi_occupancy_cnn_params_present_flag等于0指示不存在使用深度网络来放大占用图的信息,并且应当使用默认参数。
[0256]
oi_cnn_block_size指定由cnn模型使用的块大小的值作为输入数据大小以执行占用图放大。oi_cnn_block_size应当在0至7的范围内(包括0和7)。
[0257]
前述实施方案可以组合使用。根据另一实施方案,cnn是全卷积网络(因此不需要oi_cnn_block_size),并且oi_cnn_model_id在解码器侧是唯一的。下表4显示了对应语法的示例:
[0258][0259]
表4:当解码器知道要使用cnn_model并且该cnn模型是全卷积网络时的占用信息
[0260]
oi_occupancy_type指示占用图的放大方法。oi_occupancy_type等于0指定使用直接方法的放大方法,例如在w19579的b2.2占用标称格式中所描述的。oi_occupancy_type等于1指定使用深度神经网络的放大方法。保留在3至7的范围内的oi_occupancy_type值,以供iso/iec将来使用。
[0261]
作为一种变型,例如由于“占用类型”发信号通知方法之上的for...loop,可以同时发信号通知多种方法(类型)。
[0262]
根据另一实施方案,没有放大cnn模型可允许按所确定的比例因子放大,并且放大cnn模型可能必须应用多次。例如,如果在解码器处可用或在解码器处标识的放大神经网络仅允许按因子2放大,而所确定的scalefactor为4,则该神经网络可连续调用两次。
[0263]
根据该实施方案,发信号通知用于指示神经网络是否必须应用多次以及应用次数的标志。下表5描述了语法的示例:
[0264][0265]
表5:需要对模型进行迭代时的占用信息
[0266]
oi_occupancy_type指示占用图的放大方法。oi_occupancy_type等于0指定使用直接方法的放大方法,例如在w19579的b2.2占用标称格式中所描述的。oi_occupancy_type等于1指定使用深度神经网络的放大方法。保留在3至7的范围内的oi_occupancy_type值,以供iso/iec将来使用。
[0267]
oi_occupancy_cnn_params_present_flag等于1指示存在使用深度网络来放大占用图的信息(oi_occupancy_type等于1)。oi_occupancy_cnn_params_present_flag等于0指示不存在使用深度网络来放大占用图的信息,并且应当使用默认参数。
[0268]
oi_cnn_model_id包含可用于标识cnn模型路径的标识号。oi_cnn_model_id应当在0至7的范围内(包括0和7)。应当在解码器中定义模型路径与oi_cnn_model_id之间的对应关系。
[0269]
oi_cnn_block_size指定由cnn模型使用的块大小的值作为输入数据大小以执行占用图放大。oi_cnn_block_size应当在0至7的范围内(包括0和7)。
[0270]
oi_cnn_iteration指定按所确定的scalefactor放大占用图所需的cnn模型的连续调用次数。oi_cnn_iteration应当在0至7的范围内(包括0和7)。
[0271]
如上所述,该实施方案可以与前述实施方案组合使用。
[0272]
下表6示出了当网络是全卷积网络(没有发信号通知oi_cnn_block_size)时的语法的示例:
[0273][0274]
表6:需要对模型和全卷积模型进行迭代时的占用信息
[0275]
下表7示出了语法的另一示例,其中不发信号通知oi_cnn_model_id,并且解码器使用默认cnn模型:
[0276][0277]
表7:需要对模型进行迭代并且没有向解码器发送模型标识符时的占用信息
[0278]
下表8示出了语法的另一示例,其中全卷积神经网络和默认模型组合使用:
[0279][0280]
表8:需要对模型进行迭代并且模型是全卷积网络时的占用信息。
[0281]
下表9示出了语法的另一示例。先前,每个atlasid携带关于占用图的放大信息。根据另一实施方案,每个比特流或子比特流也会携带一次指示如何放大占用图的方法,例如在表9中所示的v3c_unit_header()级别。
[0282]
[0283][0284]
表9:在v3c_unit_header中发信号通知时的占用信息
[0285]
vuh_occupancy_type指示占用图的放大方法。vuh_occupancy_type等于0指定使用直接方法的放大方法,例如在w19579的b2.2占用标称格式中所描述的。vuh_occupancy_type等于1指定使用深度神经网络的放大方法。保留在3至7的范围内的vuh_occupancy_type值,以供iso/iec将来使用。
[0286]
vuh_occupancy_cnn_params_present_flag等于1指示存在使用深度网络来放大占用图的信息(vuh_occupancy_type等于1)。vuh_occupancy_cnn_params_present_flag等于0指示不存在使用深度网络来放大占用图的信息,并且应当使用默认参数。
[0287]
vuh_cnn_model_id包含可用于标识cnn模型路径的标识号。vuh_cnn_model_id应当在0至7的范围内(包括0和7)。
[0288]
vuh_cnn_block_size指定由cnn模型使用的块大小的值作为输入数据大小以执行
占用图放大。vuh_cnn_block_size应当在0至7的范围内(包括0和7)。
[0289]
根据另一实施方案,使用sei机制来发信号通知放大占用图的方法。对于占用图放大,利用持久性“访问单元包含sei消息”来定义新的payload_type。
[0290]
下表10显示了sei语法的示例:
[0291][0292]
表10:占用放大参数sei消息
[0293]
该实施方案可与上文呈现的实施方案中的任何一个实施方案(即,全卷积、默认model_id、多次cnn迭代)组合。
[0294]
根据另一实施方案,占用合成sei消息可用于发信号通知将用于放大占用图的方法,如下表11中所示。
[0295]
占用合成sei消息指定所推荐的占用合成方法及其相关联参数,当占用视频帧的分辨率低于图集的标称分辨率时,该相关联参数可用于处理与当前点云帧相关联的占用视频帧。
[0296]
占用合成sei消息语法
[0297][0298]
[0299]
表11:占用合成sei消息中的占用放大参数
[0300]
图16示出了根据实施方案的用于对占用图进行编码的方法的流程图。在1601处,将占用图缩小到第一分辨率。在1602处,例如,如结合图1和图3所述,对缩小的占用图进行编码。在1603处,对放大占用信息进行编码。放大占用信息包括上述实施方案中的任何一个实施方案。例如,在1603处,对指示是否要使用神经网络或用于重建占用图的另一种放大方法来放大占用图的信息进行编码。可将放大占用信息嵌入图5所示的比特流中。
[0301]
在图1至图16中,本文描述了各种方法,并且每种方法包括用于实现所述方法的一个或多个步骤或动作。除非正确操作方法需要特定顺序的步骤或动作,否则可修改或组合特定步骤和/或动作的顺序和/或用途。
[0302]
结合框图和操作流程图描述了一些示例。每个框表示电路元件、模块或代码部分,其包括用于实现指定逻辑功能的一个或多个可执行指令。还应当指出的是,在其他具体实施中,框中标注的功能可能不按指示的顺序出现。例如,连续显示的两个框实际上可基本上同时执行,或者这些框有时可根据所涉及的功能以相反的顺序执行。
[0303]
本文所述的具体实施和方面可在方法或过程、装置、计算机程序、数据流、比特流或信号等中实现。即使仅在单个形式的具体实施的上下文中讨论(例如,仅作为方法讨论),所讨论的特征的具体实施也可以其他形式(例如,装置或计算机程序)实现。
[0304]
这些方法可在例如处理器中实现,该处理器通常指处理设备,包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备。
[0305]
另外,这些方法可通过由处理器执行的指令来实现,并且此类指令(和/或由具体实施产生的数据值)可存储在计算机可读存储介质上。计算机可读存储介质可采用计算机可读程序产品的形式,该计算机可读程序产品在一个或多个计算机可读介质中体现并且具有在其上体现的可由计算机执行的计算机可读程序代码。考虑到存储信息的固有能力以及提供从其中检索信息的固有能力,本文中使用的计算机可读存储介质可被认为是非暂态存储介质。计算机可读存储介质可以是例如但不限于电子、磁性、光学、电磁、红外或半导体系统、装置或设备或前述各项的任何合适的组合。应当理解,尽管提供了可以应用本发明实施方案的计算机可读存储介质的更具体示例,但是如本领域普通技术人员容易理解的那样,以下内容仅仅是为了说明而非穷尽列举:便携式计算机磁盘;硬盘;只读存储器(rom);可擦除可编程只读存储器(eprom或闪存存储器);便携式光盘只读存储器(cd-rom);光存储设备;磁存储设备;或前述各项的任何合适的组合。
[0306]
指令可以形成在处理器可读介质上有形地体现的应用程序。
[0307]
指令可以是例如硬件、固件、软件或组合。指令可以在例如操作系统、单独应用程序或两者的组合中发现。因此,处理器可以被表征为例如被配置为执行过程的设备和包括具有用于执行过程的指令的处理器可读介质(诸如存储设备)的设备。此外,除了或代替指令,处理器可读介质可以存储由具体实施产生的数据值。
[0308]
装置可在例如适当的硬件、软件和固件中实现。此类装置的示例包括个人计算机、笔记本计算机、智能电话、平板计算机、数字多媒体机顶盒、数字电视接收器、个人视频录制系统、连接的家用电器、头戴式显示(hmd)设备(透视眼镜)、投影仪(投影机)、“洞穴”(包括多个显示器的系统)、服务器、视频编码器、视频解码器、处理视频解码器输出的后处理器、向视频编码器提供输入的预处理器、web服务器、机顶盒、用于处理点云、视频或图像的任何
其他设备或其他通信设备。应当清楚的是,设备可以是移动的,甚至安装在移动车辆中。
[0309]
计算机软件可由处理器6010或通过硬件或通过硬件和软件的组合实现。作为非限制性示例,这些实施方案还可由一个或多个集成电路实现。作为非限制性示例,存储器6020可以是适合于技术环境的任何类型,并且可以使用任何适当的数据存储技术来实现,诸如光存储器设备、磁存储器设备、基于半导体的存储器设备、固定存储器和可移动存储器。作为非限制性示例,处理器6010可以是适合于技术环境的任何类型,并且可以涵盖微处理器、通用计算机、专用计算机和基于多核架构的处理器中的一者或多者。
[0310]
对于本领域的普通技术人员将显而易见的是,具体实施可产生格式化为携带例如可存储或可传输的信息的多种信号。信息可包括例如用于执行方法的指令或由所述具体实施中的一个具体实施产生的数据。例如,可格式化信号以携带该实施方案的比特流。此类信号可格式化为例如电磁波(例如,使用频谱的射频部分)或基带信号。格式化可包括例如对数据流进行编码并且使用经编码的数据流调制载体。信号携带的信息可为例如模拟或数字信息。如已知的,信号可通过多种不同的有线或无线链路传输。信号可存储在处理器可读介质上。
[0311]
本文中使用的术语仅出于描述特定实施方案的目的,并非旨在进行限制。除非上下文中另有明确说明,否则本文中使用的单数形式“一”、“一个”和“该”也包括复数含义。应当进一步理解,本说明书中使用的术语“包括”可用于说明存在所述特征、整数、步骤、操作、元件和/或部件等,但并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、部件和/或它们的组合。此外,当元件被称为“响应”或“连接”到另一元件时,它可直接响应或连接到其他元件,也可以存在中间元件。相反,当元件被称为“直接响应”或“直接连接”到其他元件时,不存在中间元件。
[0312]
应当理解,例如,在“a/b”、“a和/或b”以及“a和b中的至少一者”的情况下,使用符号/术语“/”、“和/或”和“至少一者”中的任一种可旨在涵盖仅选择第一列出的选项(a),或仅选择第二列出的选项(b),或选择两个选项(a和b)。作为进一步的示例,在“a、b和/或c”和“a、b和c中的至少一者”的情况下,此类短语旨在涵盖仅选择第一列出的选项(a),或仅选择第二列出的选项(b),或仅选择第三列出的选项(c),或仅选择第一列出的选项和第二列出的选项(a和b),或仅选择第一列出的选项和第三列出的选项(a和c),或仅选择第二列出的选项和第三列出的选项(b和c),或选择所有三个选项(a和b和c)。如对于本领域和相关领域的普通技术人员显而易见的是,这可扩展到所列出的尽可能多的项目。
[0313]
应当理解,尽管在本文中可使用术语“第一”、“第二”等来描述各种元件,但是这些元件不受这些术语的限制。这些术语仅用于将一个元件与另一元件区分开。例如,在不脱离本技术的教导内容的情况下,第一元件可以被称为第二元件,并且类似地,第二元件可以被称为第一元件。第一元件和第二元件并非暗示排序。
[0314]
提及“一个实施方案”或“实施方案”或“一个具体实施”或“具体实施”以及它们的其他变型,通常用于传达(结合实施方案/具体实施描述的)特定特征、结构、特性等包括在至少一个实施方案/具体实施中。因此,短语“在一个实施方案中”或“在实施方案中”或“在一个具体实施中”或“在具体实施中”的出现以及出现在本技术通篇的各个地方的任何其他变型不一定都是指相同的实施方案。
[0315]
类似地,本文提及“根据实施方案/示例/具体实施”或“在实施方案/示例/具体实
施中”以及它们的其他变型,通常用于传达(结合实施方案/示例/具体实施描述的)特定特征、结构或特性可包括在至少一个实施方案/示例/具体实施中。因此,说明书中不同位置出现的短语“根据实施方案/示例/具体实施”或“在实施方案/示例/具体实施中”不一定全部指代同一实施方案/示例/具体实施,也不一定是与其他实施方案/示例/具体实施相互排斥的单独或替代实施方案/示例/具体实施。
[0316]
在权利要求书中出现的附图标号仅通过说明的方式,并且对权利要求书的范围没有限制作用。虽然未明确描述,但本发明实施方案/示例和变型可以任何组合或子组合采用。
[0317]
当附图呈现为流程图时,应当理解,其还提供了对应装置的框图。类似地,当附图呈现为框图时,应当理解,其还提供了对应的方法/过程的流程图。
[0318]
尽管一些图示包括通信路径上的箭头以显示主通信方向,但是应理解,通信可以在与所描绘箭头相反的方向上发生。
[0319]
各种具体实施参与解码。本技术中使用的“解码”可涵盖对所接收的点云帧(可能包括对一个或多个点云帧进行编码的所接收的比特流)等执行的全部或部分过程,以便生成适于显示或适于在所重建的点云域中进一步处理的最终输出。在各种实施方案中,此类过程包括通常由基于图像的解码器执行的一个或多个过程。在各种实施方案中,例如,此类过程还包括或另选地包括由本技术中所述的各种具体实施的解码器执行的过程。
[0320]
作为进一步的示例,在一个实施方案中,“解码”可仅指熵解码;在另一实施方案中,“解码”可仅指差分解码;并且在又一实施方案中,“解码”可指熵解码和差分解码的组合。短语“解码过程”可旨在具体地指代操作的子集还是广义地指代更广泛的解码过程基于具体描述的上下文将是清楚的,并且被认为会被本领域的技术人员很好地理解。
[0321]
各种具体实施参与编码。以与上面关于“解码”的讨论类似的方式,本技术中使用的“编码”可涵盖对输入点云帧等执行以便产生编码比特流的全部或部分过程。在各种实施方案中,此类过程包括通常由基于图像的解码器执行的一个或多个过程。在各种实施方案中,例如,此类过程还包括或另选地包括由本技术中所述的各种具体实施的编码器执行的过程。
[0322]
作为进一步的示例,在一个实施方案中,“编码”可仅指熵编码;在另一实施方案中,“编码”可仅指差分编码;并且在又一实施方案中,“编码”可指差分编码和熵编码的组合。短语“编码过程”可旨在具体地指代操作的子集还是广义地指代更广泛的编码过程基于具体描述的上下文将是清楚的,并且被认为会被本领域的技术人员很好地理解。
[0323]
各种实施方案是指速率失真优化。具体地,在编码过程期间,通常考虑速率和失真之间的平衡或权衡,这常常考虑到计算复杂性的约束。速率失真优化通常可表述为最小化速率失真函数,该速率失真函数是速率和失真的加权和。存在不同的方法解决速率失真优化问题。例如,这些方法可基于对所有编码选项(包括所有考虑的模式或编码参数值)的广泛测试,并且完整评估其编码成本以及重建信号在编码和解码之后的相关失真。更快的方法还可用于降低编码复杂性,特别是对基于预测或预测残差信号而不是重建的残差信号的近似失真的计算。也可使用这两种方法的混合,诸如通过针对可能的编码选项中的仅一些编码选项使用近似失真,而针对其他编码选项使用完全失真。其他方法仅评估可能的编码选项的子集。更一般地,许多方法采用各种技术中任一种来执行优化,但是优化不一定是对
编码成本和相关失真两者的完整评估。
[0324]
另外,本技术可涉及“确定”各种信息。确定信息可包括例如估计信息、计算信息、预测信息或从存储器检索信息中的一者或多者。
[0325]
此外,本技术可涉及“访问”各种信息。访问信息可包括例如接收信息、(例如,从存储器)检索信息、存储信息、移动信息、复制信息、计算信息、确定信息、预测信息或估计信息中的一者或多者。
[0326]
另外,本技术可涉及“接收”各种信息。与“访问”一样,接收旨在为广义的术语。接收信息可包括例如访问信息或检索信息(例如,从存储器)中的一者或多者。此外,在诸如例如存储信息、处理信息、发射信息、移动信息、复制信息、擦除信息、计算信息、确定信息、预测信息或估计信息的操作期间,“接收”通常以一种方式或另一种方式参与。
[0327]
而且,如本文所用,词语“发信号通知”是指(除了别的以外)向对应解码器指示某物。例如,在某些实施方案中,编码器发信号通知特定xxx。通过这种方式,在实施方案中,在编码器侧和解码器侧两者均可使用相同的参数。因此,例如,编码器可将特定参数传输(显式信令)到解码器,使得解码器可使用相同的特定参数。相反,如果解码器已具有特定参数以及其他参数,则可在不传输(隐式信令)的情况下使用信令,以简单地允许解码器知道和选择特定参数。通过避免发射任何实际功能,在各种实施方案中实现了比特节省。应当理解,信令可以多种方式实现。例如,在各种实施方案中,使用一个或多个语法元素、标志等将信息发信号通知至对应解码器。虽然前面涉及词语“signal(发信号通知)”的动词形式,但是词语“signal(信号)”在本文也可用作名词。
[0328]
已描述了多个具体实施。但应理解的是,可以作出许多修改。例如,可以组合、补充、修改或移除不同具体实施的元件以产生其他具体实施。另外,普通技术人员将理解,其他结构和过程可以被替换为所公开的那些,并且所得具体实施将以至少基本上相同的方式执行至少基本上相同的功能,以实现与所公开的具体实施至少基本相同的结果。因此,本技术考虑了这些和其他具体实施。

技术特征:
1.一种方法,所述方法包括重建占用图,所述占用图包括体积内容的占用数据,其中重建所述占用图包括:-以第一分辨率对所述占用图进行解码,-确定作为所述第一分辨率的函数的比例因子,-使用神经网络按所述比例因子放大所述占用图。2.一种装置,所述装置包括一个或多个处理器,其中所述一个或多个处理器被配置为重建占用图,所述占用图包括体积内容的占用数据,其中重建所述占用图包括:-以第一分辨率对所述占用图进行解码,-确定作为所述第一分辨率的函数的比例因子,-使用神经网络按所述比例因子放大所述占用图。3.根据权利要求1所述的方法或根据权利要求2所述的装置,其中重建所述占用图包括:-对指示是否要使用神经网络或另一种放大方法来放大所述占用图的信息进行解码。4.根据权利要求1或3中任一项所述的方法或根据权利要求2至3中任一项所述的装置,其中重建所述占用图进一步包括:-对表示神经网络模型的信息进行解码。5.根据权利要求1或3至4中任一项所述的方法或根据权利要求2至4中任一项所述的装置,其中重建所述占用图进一步包括:-对表示用作所述神经网络的输入的块的大小的信息进行解码。6.根据权利要求1或3至5中任一项所述的方法或根据权利要求2至5中任一项所述的装置,其中重建所述占用图进一步包括:-对指示迭代次数的信息进行解码,根据所述迭代次数,使用所述神经网络来执行第一占用图的放大。7.根据权利要求3至6中任一项所述的方法或根据权利要求3至6中任一项所述的装置,其中在图块级别、图像级别、序列级别或从补充增强信息消息对所述信息进行解码。8.根据权利要求3至6中任一项所述的方法或根据权利要求3至6中任一项所述的装置,其中从占用合成补充增强信息消息对所述信息进行解码。9.根据权利要求1或3至6中任一项所述的方法或根据权利要求2至6中任一项所述的装置,其中所述占用图包括至少一个值,所述至少一个值指示2d投影帧中的至少一个2d样本是否对应于所述体积内容中的至少一个相关联样本。10.根据权利要求9所述的方法或装置,其中所述2d投影帧是几何帧或纹理帧。11.根据权利要求1或3至10中任一项所述的方法,所述方法还包括,或根据权利要求2至10中任一项所述的装置,其中所述一个或多个处理器被进一步配置为:-使用所放大的占用图来重建所述体积内容。12.一种包括编码数据的比特流,所述编码数据至少表示占用图,所述占用图包括体积内容的占用数据,其中所述比特流进一步包括指示是否要使用神经网络或另一种放大方法按比例因子放大所述占用图的信息。13.根据权利要求12所述的比特流,所述比特流进一步包括表示神经网络模型的信息。14.根据权利要求12至13中任一项所述的比特流,所述比特流进一步包括表示用作所
述神经网络的输入的块的大小的信息。15.根据权利要求12至14中任一项所述的比特流,所述比特流进一步包括指示迭代次数的信息,根据所述迭代次数,使用所述神经网络来执行第一占用图的放大。16.根据权利要求12至15中任一项所述的比特流,其中在图块级别、图像级别、序列级别或在补充增强信息消息或占用合成补充增强信息消息中发信号通知所述信息。17.一种方法,所述方法包括对占用图进行编码,所述占用图包括体积内容的占用数据,其中对所述占用图进行编码包括:-以第一分辨率缩小所述占用图,-对所缩小的占用图进行编码,-对指示是否要使用神经网络或用于重建所述占用图的另一种放大方法来放大所述占用图的信息进行编码。18.一种装置,所述装置包括一个或多个处理器,其中所述一个或多个处理器被配置为对占用图进行编码,所述占用图包括体积内容的占用数据,其中对所述占用图进行编码包括:-以第一分辨率缩小所述占用图,-对所缩小的占用图进行编码,-对指示是否要使用神经网络或用于重建所述占用图的另一种放大方法来放大所述占用图的信息进行编码。19.根据权利要求17所述的方法或根据权利要求18所述的装置,其中对所述占用图进行编码进一步包括:-对表示神经网络模型的信息进行编码。20.根据权利要求17或19中任一项所述的方法或根据权利要求18至19中任一项所述的装置,其中对所述占用图进行编码进一步包括:-对表示用作所述神经网络的输入的块的大小的信息进行编码。21.根据权利要求17或19至20中任一项所述的方法或根据权利要求18至20中任一项所述的装置,其中对所述占用图进行编码进一步包括:-对指示迭代次数的信息进行编码,根据所述迭代次数,使用所述神经网络来执行第一占用图的放大。22.根据权利要求17或19至21中任一项所述的方法或根据权利要求18至21中任一项所述的装置,其中在图块级别、图像级别、序列级别或在补充增强信息消息或占用合成补充增强信息消息中对所述信息进行编码。23.根据权利要求17或19至22中任一项所述的方法或根据权利要求18至22中任一项所述的装置,其中所述占用图包括至少一个值,所述至少一个值指示2d投影帧中的至少一个2d样本是否对应于所述体积内容中的至少一个相关联样本。24.根据权利要求23所述的方法或装置,其中所述2d投影帧是几何帧或纹理帧。25.一种计算机可读存储介质,所述计算机可读存储介质在其上存储有根据权利要求12至16中任一项所述的比特流。26.一种计算机可读存储介质,所述计算机可读存储介质在其上存储有指令,所述指令用于使一个或多个处理器执行根据权利要求1或3至11、17、19至24中任一项所述的方法。
27.一种设备,所述设备包括:-根据权利要求19至24中任一项所述的装置;和-以下各项中的至少一者:(i)天线,所述天线被配置为接收信号,所述信号包括表示体积内容的至少一部分的数据;(ii)频带限制器,所述频带限制器被配置为将所接收的信号限制为包括表示所述体积内容的所述至少一部分的所述数据的频带;或(iii)显示器,所述显示器被配置为显示所述体积内容的所述至少一部分。28.根据权利要求27所述的设备,所述设备包括tv、手机、平板计算机、机顶盒或头戴式显示器。

技术总结
至少一个实施方案涉及一种用于重建占用图的方法和装置,该占用图包括体积内容的占用数据,其中重建该占用图包括:-以第一分辨率对该占用图进行解码,-确定作为该第一分辨率的函数的比例因子,-使用神经网络按该比例因子放大该占用图。放大该占用图。放大该占用图。


技术研发人员:C
受保护的技术使用者:交互数字CE专利控股有限公司
技术研发日:2021.09.29
技术公布日:2023/8/13
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐