用于生成图像数据比特流的装置和方法-好方法网

技术摘要：
一种装置包括：存储部(201)，其存储针对表示来自不同查看姿态(位置和取向)的场景的图像的图像部分集合和相关联的深度数据。可预测性处理器(203)针对场景的查看姿态的图像集合中的图像部分生成可预测性量度。针对第一查看姿态的第一图像部分的可预测性量度指示对于来自全部
背景技术：
近年来，随着不断开发和引入新的服务以及利用和消费视频的方法，图像和视频应用的种类和范围已经大大增加。例如，一种越来越流行的服务是以这样的方式提供图像序列：查看者能够主动地并且动态地与系统进行交互以改变绘制的参数。在许多应用中，非常吸引人的特征是改变查看者的有效查看位置和查看方向(查看姿态)的能力，诸如，例如允许查看者在所呈现的场景中移动并且“环顾四周”。这样的特征能够具体使得能够向用户提供虚拟现实体验。这可以允许用户在虚拟环境中(相对)自由地走动，并且动态地改变他的位置和他所看的地方。通常，这样的虚拟现实应用基于场景的三维模型，其中该模型被动态地评估以提供特定的请求视图。该方案从例如用于计算机和控制台的游戏应用(诸如在第一人称射击游戏的游戏类别中)是公知的。特别对于虚拟现实应用，还期望所呈现的图像是三维图像。实际上，为了优化查看者的沉浸感，通常优选的是：用户将所呈现的场景体验为三维场景。实际上，虚拟现实体验应当优选允许用户选择他/她自己的位置、相机视点以及相对于虚拟世界的时刻。支持基于(尤其是三维)场景的表示的各种服务的主要问题在于需要大量数据。这导致高的资源要求，诸如针对大型存储资源的需求。然而，在许多情景中，最大的限制不是存储或处理要求，而是通信要求。如果要求表示场景的数据必须通过带宽受限的通信信道 (内部或外部)进行通信，则非常期望尝试减少需要通信的数据量。例如，在许多情景中并且对于许多应用，可以使用客户端服务器方案，其中，执行例如虚拟现实应用的远程客户端被耦合到中央服务，该中央服务通过带宽受限的链路提供所需的场景数据。然而，多视图表示通常将与高比特率相关联(即使没有深度信息也要求高比特率，并且实际上在这种情况下，这可能常常甚至更高，因为将需要更多视图)。例如，具有运动自由度的虚拟现实回放将要求以观察者在3D空间中移动的速度的场景的不同视图。在实践中很难解决在这样的通信信道上提供足够数据的挑战。已经提出了若干种格式，用于在带宽受限的通信信道上有效地流送3D几何结构和纹理信息，并且尤其是用于与诸如互联网的网络一起使用时。例如，MPEG全向MediA格式 (OMAF)标准将包括360视频的分片流(3个自由度(DoF))，其利用HTTP上的动态自适应流送 (MPEG DASH)。OMAF的未来版本有望支持有限运动视差(3DoF )。如所提到的，在实践中，具有深度编码的多视图中最紧迫的问题通常不是存储需求，而是传输带宽和延迟。为了获得流畅的体验，图像应当即时到达头戴式装置。然而，尽管开发的格式和编码试图降低数据速率，但是通常仍然是关于在客户端处能够实现的质量和用户体验的主要限制。 4 CN 111602403 A 说　明　书 2/14 页因此，用于生成和使用图像数据比特流的经改进的方案将是有利的。具体地，一种允许改善的操作、方便的操作、改善的场景表示、增加的灵活性、方便的实现方式、方便的操作、减少的数据量、减少的数据存储、分布式和/或处理资源需求、改善的适应性和/或改善的性能将是有利的。
技术实现要素：
因此，本发明试图优选单独地或者以任意组合来减轻、缓解或消除上文所提到的缺点中的一个或多个缺点。根据本发明的一方面，提供了一种用于生成图像数据比特流的装置，所述装置包括：存储部，其用于存储表示来自不同查看姿态的场景的图像部分集合以及相关联的深度数据；可预测性处理器，其用于生成针对场景的查看姿态的图像部分集合中的图像部分的可预测性量度，针对第一查看姿态的第一图像部分的可预测性量度指示对于来自图像部分集合中的不包括第一图像部分的图像部分的第一子集的针对第一查看姿态的视口的图像的至少部分的预测的预测质量的估计；选择器，其用于响应于可预测性量度而选择图像部分集合的图像部分的第二子集；以及比特流生成器，其用于生成包括来自图像部分的第一子集的图像数据和深度数据的图像比特流。本发明可以提供比特流的经改进的生成，所述比特流提供场景的表示，诸如，例如提供场景的自适应三维表示，例如用于虚拟现实应用。所述方法可以在许多情景中提供降低的复杂性。在许多情景中，其可以提供针对比特流的大大降低的数据速率和/或改善的质量。在许多情景中都能够实现改善的质量/数据速率权衡。针对图像部分和查看姿态的可预测性量度可以指示针对该查看姿态的场景的图像的图像部分的预测质量，其中，在使用针对其确定了可预测性量度的图像部分内执行预测。针对图像部分的相关联的深度数据可以是指示从针对图像部分的视点到图像部分中的对象的距离的深度数据。根据本发明的任选特征，可预测性处理器被布置为生成针对第一图像部分的可预测性量度，以指示第一图像部分的预测的预测质量。这可以在许多情景和实施例中提供特别有效和高性能的操作。可以提供比特流对场景的特定属性和/或比特流的使用的经改进的适应。针对第一图像部分的可预测性量度可以指示根据所存储的图像部分集合的一个或多个其他图像部分对第一图像部分的预测的质量。根据本发明的任选特征，图像部分的第一子集仅包括被包含在比特流中的图像部分。这可以在许多情景和实施例中提供特别有效和高性能的操作，并且可以具体地允许一种方法，其中当需要额外数据时才提供图像部分，以便比特流的接收器合成足够质量的视图图像。根据本发明的任选特征，选择器还被布置为响应于针对目标查看姿态的图像部分集合的可见性量度来选择图像部分的第二子集。这可以在许多情景和实施例中提供特别有效和高性能的操作。其可以提供比特流 5 CN 111602403 A 说　明　书 3/14 页生成对场景的特定属性和/或比特流的使用的经改进的适应。根据本发明的任选特征，所述图像部分是预编码的图像部分。这可以提供特别有效的方法，并且可以实质上减少装置的计算要求以便生成比特流。例如，图像部分可以被编码一次，并且随后每次生成比特流时可以重新使用所存储的经编码的图像部分。所述装置可以被布置为从存储部中取回经编码的图像部分，并且将其包括在比特流中，而无需对图像部分的任何图像编码或转码。根据本发明的任选特征，图像部分集合包括针对不同查看姿态的场景的多面体投影的面。这可以在许多情景和实施例中提供特别有效和高性能的操作。其还可以允许与许多其他图像处理算法兼容。根据本发明的任选特征，所述图像部分对应于图像的预定分区。这可以在许多实施例中提供经改进的性能，并且可以在许多实施例中提供对于基于比特流的视图合成特别有用的数据的更有效的选择。根据本发明的任选特征，所述装置还包括分区器，其用于基于图像的像素值和针对图像的深度值中的至少一项来响应于图像的分区而生成图像部分集合的至少一些图像部分。这可以在许多情景和实施例中提供特别有效和低复杂度的操作。其还可以允许与许多其他图像处理算法兼容。根据本发明的任选特征，图像部分集合的至少一些图像部分是纹理图集图像的图像部分，所述纹理图集图像包括来自场景的网格和纹理表示的纹理部分。这可以在许多情景和实施例中提供特别有效和高性能的操作。其还可以允许与许多其他图像处理算法兼容。根据本发明的任选特征，所述选择器被布置为响应于从远程源接收到的目标查看姿态而选择针对图像部分的第二子集的图像部分。这可以在许多实施例中提供特别吸引人的操作，并且可以例如允许一种系统，其中，所述装置可以动态地生成比特流，所述比特流向例如其中虚拟查看者在场景中移动的虚拟现实应用来提供最基本的信息。根据本发明的任选特征，所述选择器被布置为响应于确定多个连续图像部分形成这样的区域，该区域的预测质量量度低于该区域内部部分的第一阈值并且预测质量量度高于该区域的边界部分的第二阈值，来选择多个连续图像部分。这可以在许多情景和实施例中提供特别有效和高性能的操作。根据本发明的任选特征，至少一些图像部分是重叠的。这可以在许多情景和实施例中提供特别有效和高性能的操作。根据本发明的任选特征，可预测性处理器被布置为响应于针对第一图像部分的相关联的深度数据来生成针对第一图像部分的可预测性量度。这可以在许多实施例中提供特别有利的可预测性量度，并且例如可以允许低复杂度的实现方式，其仍然允许非常准确和有效的适应。根据本发明的一方面，提供一种生成图像数据比特流的方法，所述方法包括：存储 6 CN 111602403 A 说　明　书 4/14 页表示来自不同查看姿态的场景的图像部分集合和相关联的深度数据；针对场景的查看姿态的图像部分集合中的图像部分生成可预测性量度，针对第一查看姿态的第一图像部分的可预测性量度指示对于来自图像部分集合中的不包括第一图像部分的图像部分的第一子集的针对第一查看姿态的视口的图像的至少部分的预测的预测质量的估计；响应于可预测性量度而选择图像部分集合的图像部分的第二子集；并且生成包括来自图像部分的第一子集的图像数据和深度数据的图像比特流。参考下文描述的(一个或多个)实施例，本发明的这些和其他方面、特征和优点将变得显而易见并得以阐明。附图说明将参考附图仅以示例的方式描述本发明的实施例，在附图中：图1图示了根据本发明的一些实施例的图像处理系统的元件的示例；图2图示了根据本发明的一些实施例的比特流生成装置的示例；图3图示了场景和相关联的预测质量属性的示例；图4图示了根据本发明的一些实施例的用于比特流的锚点图像部分的选择的示例；图5图示了场景的图像的拼片的示例；图6图示了根据本发明的一些实施例的用于比特流的锚点图像部分的选择的示例；图7图示了场景的视图的示例；并且图8图示了根据本发明的一些实施例的用于比特流的锚点图像部分的选择的示例。

相关推荐