bg line bg line

【大家之言】超高清及后超高清时代媒体网络技术发展趋势

本文针对超高清和后超高清时代的媒体网络技术发展趋势,提出了MC2广义智能媒体网络服务模型。介绍了模型中媒体内容、通信网络和媒体计算等关键因素的协同发展关系以及为解决高真实、高通量、低延时等技术问题所需要的一系列关键技术,最后给出了一些代表性的智能媒体网络应用场景。

引言

[中国,深圳,2020年7月7日] 媒体服务是一种通过记录、处理和传播等方式来帮助人们感知和连接世界的技术手段。随着信息技术的高速发展,媒体网络不断迭代演进,以满足人类日益增长的精神文化需求。为进一步了解媒体网络的技术发展趋势,有必要从视觉感知体系出发,思考媒体网络体系主要要素间的动态关系,探索构建一种媒体、网络、计算协同发展的研究模型。

视频媒体发展历史及未来趋势

1.1 人类视觉感知体系

人类主要通过视、听、嗅、味、触等感官对刺激物的反应来形成对外部世界的认知。视觉感知是其中最为具象的呈现方式,占据了人类超过90%的信息来源。由人眼的构造和视觉特性可知,视网膜是人们感知光线的主要介质。视网膜上的视锥细胞和视杆细胞决定了光谱、空间、时间和亮度等人眼感知范围,这些感知范围与明暗适应、视觉暂留、连带集中和心理学等人眼视觉特性共同组成了人类视觉感知体系。

1.2 视频媒体发展历史与未来趋势

视频媒体是以人类视觉感知体系为基础,以不断满足视觉感知为目标发展起来的。电视的诞生第一次用电信号方式实现了动态图像的远程传送,将顺序静止图像序列变成了动态电视视频。电视视频技术的发展经历了从黑白到彩色,模拟到数字,标清到高清,隔行到逐行的历史过程。分辨率、帧率、色域、视场等技术参数由低到高的提升带动了用户视觉感知质量不断逼近真实水平。

超高清视频技术的到来将视觉感知质量带到了新的高度。国际和国内主要超高清技术规格(ITU-R BT.2020《超高清晰度电视系统节目制作和国际交换用参数值》和GY/T 307-2017《超高清晰度电视系统节目制作和交换参数值》)将视频技术扩展到了一个多维度指标体系。体系中不仅规定了空间特性(有效像素数7,680×4,320和3,840×2,160、幅型比16:9),更明确了时间特性(帧率24/1.001至120Hz、逐行扫描)、色域覆盖范围(三基色色域覆盖率57.3%)和量化比特深度(10比特和12比特)等一系列指标。在家庭、移动及手持等应用场景和高标准8K超高清晰度视频规格(7,680×4,320、100/120fps、HDR、WCG、10比特)之下,用户已观察不到静态图像的像素点和动态图像的卡顿抖动,还可以看到全面的明暗及色彩覆盖。可以认为在高标准8K超高清晰度视频规格下,用户视觉感知质量已经基本达到了真实水平。

二维平面的视觉感知达到真实之后,用户需要追求更高层次的交互性、实时性和自由性需求。这些需求将促使视频媒体技术向强化用户参与的视觉通信和互动媒体方向发展。在后超高清时代里,媒体内容技术评价指标将从二维平面发展到三维立体、从单视点发展到多视点,从零自由度、三自由度发展到六自由度,从三维建模发展到实时渲染,从高延时发展到超低延时,从虚实结合发展到数字孪生。这些新一代智能媒体网络技术将带来应用场景和商业模式的重构,从而创造出一种极具用户粘性、超越真实水平的媒体服务。媒体服务感知和连接真实世界的过程见图1所示。

MC2智能媒体网络时代的定义及关键技术

2.1 MC2智能媒体网络定义与要素间的关联关系

媒体内容在质量和数量上的爆发式增长促进了通信网络和媒体计算的快速增长,进而催生了“E=MC2”这一广义的智能媒体网络模型。。

“E=MC2”模型中的“E”指媒体服务效率(Efficiency),包括在不同应用场景下用户视觉感知质量、服务分发速率和获取内容时延等服务体验;“M”指媒体内容(Media),代表由内容质量和数量增加带来的数据规模的变化;第一个“C”指通信网络(Communication),代表不同节点通过协议有机相连后形成的媒体内容分发体系架构;第二个“C”指媒体计算(Computing),代表采用各种高性能智能化的算法和引擎对各类媒体数据进行分析、理解和处理的能力。

要实现视觉感知质量提升必定带来数据负荷的增加,不断增加的数据负荷会给网络带宽带来巨大压力。为了提升网络分发速率和降低服务时延,需要新型通信网络体系架构和分发机制来感知、理解和预测媒体内容、网络模态和用户行为,对内容进行聚合和分流以缓解宽带压力。要实现任何时间、任何地点、任何终端的各种媒体应用场景就需要高性能、低功耗、高集成度的媒体计算平台。由此构成了“内容驱动通信网络媒体计算、通信网络感知媒体内容分流媒体计算、媒体计算丰富应用场景优化通信网络”的相互促进、协同发展的“E=MC2”智能媒体网络模型见图2所示。

2.2 MC2智能媒体网络的关键技术

要提升“E=MC2”中媒体服务效率的关键在于解决系统运行所涉及的高真实、高通量和低延时三大难题,要解决这三大挑战需要进一步探讨和研究智能媒体网络领域的一系列关键技术。

2.2.1 高真实性的媒体制作

高真实性的媒体制作首先需要确立融合主客观的二元评价体系。客观评价主要聚焦亮度、对比度、显示均匀性、动态清晰度、静态清晰度等各类硬件测试数据,主观评价主要包括面向用户感知的肤色显示、MEMC运动补偿、分区控光、高动态范围、三基色色域等一系列感知指标,两者有机结合可以有效地引导内容制作及呈现终端的性能改善。同时,高真实性媒体制作从采集、存储、编辑、调色、编码及输出等全链路流程都需要一致性控制,以及对多格式视频编码标准制作的持续兼容(国内外现有视频编码标准AVC、HEVC、AVS/+/2、VP9和AV1等和新一代视频编码标准AVS3、VVC、EVC和LCEVC等,我国新一代AVS3视频编码标准通过基础块划分、帧间帧内编码和滤波器等架构设计实现了进一步的编码效率提升,是未来8K超高清晰度视频编码主要技术方案之一)。再次,除了传统音视频媒体内容制作,基于新型AI实时渲染引擎的内容制作更将重建媒体内容制作流程,形成利用机器学习对视频内容和用户行为进行侦测、分析、理解、分类、预测和输出的虚实结合实时渲染的新型内容生成方式。

2.2.2 云边端协同化的网络架构

高真实性的媒体制作必然带来海量数据。8K120fps超高清视频内容未压缩码率超过40Gbps,压缩后码率也高达200Mbps,3D点云编码则包括三维平面的大量差异化、稀疏化和不规则的无序特征数据。这些指数级增加的内容数据都将消耗大量的网络带宽和媒体计算资源,从而对媒体服务效率产生严重影响。为了提升网络服务效率,需要新型的云边端协同化网络架构来保障网络分发性能。云边端架构通过将原来位于媒体数据源一侧的复杂媒体处理分解为简单子单元,聚合分类后动态地分配到边缘端,然后利用边缘端的计算能力对视频内容和用户行为进行处理,新增的边缘端处理能力可以显著地提高网络峰值服务速率、减少转发路由时延、提升计算响应时间、节省终端计算能耗和计算存储,将云端的计算压力全面下沉,将用户端的计算压力全面上载,使智能媒体网络高通量、低延时服务成为可能,从而保证用户感知体验的最优化,实现高真实性海量媒体分发和毫秒级编码延迟传送。此外,新型媒体网络还可通过网络感知实现分级编码、并行编码等方式实现联合保障服务效率提升。

2.2.3 全场景高性能本地智能计算

智能媒体网络应用场景的构建离不开用户端本地媒体计算处理平台的保障,这些媒体处理计算平台需要具备计算表达、视频解码、计算处理和感知计算能力。计算表达控制着每个媒体内容像素,AI PQ曲线提升着画面的对比度和明暗程度。视频解码用以实现对国际国内主流的高效视频编解码标准。计算处理可以对解码后YUV数据进行亮度、对比度、饱和度、锐利度、噪声抑制处理,为PQ提供参数优化及动态补偿,海量NPU算力用以支撑多样化AI人脸识别、场景检测等大量丰富应用场景。感知计算将成为连接物理世界和智能世界的关键枢纽,以拓展用户与家庭、城市、汽车各种智慧化场景广泛连接。这些计算能力分别通过多核CPU、GPU、AI NPU、高性能多格式解码引擎和AI PQ视频图像处理核得以实现并形成高性能、高集成度、低功耗的全场景高性能芯片方案,为智能媒体网络系统提升服务效率和创造灵活应用场景提供强大的运算支撑。

智能媒体网络应用场景

3.1 8K 120P超高清视频

随着2021年东京奥运会和2022年北京冬奥会的临近,8K技术即将迎来新一轮推广应用高潮。目前,日本8K广播信号已经上星,国内中央广播电视总台为代表的电视台及制作机构已开展了8K超高清视频制作分发测试。以数字电视国家工程研究中心为代表的相关单位也开展了积极实践,完成了国内首个8K 120fps超高清晰度高帧率演示片制作,短片支持7680×4320、120fps、10比特、BT.2020色域和HDR规格,分别用“极速棒球”、“芭蕾建筑”和“淬火铸剑”为主题制作了高速运动场景、人物皮肤及建筑纹理对比和高动态范围细节呈现等不同场景,如图3至图8所示。上海海思在2019年9月荷兰阿姆斯特丹欧洲广播影视设备展IBC上成功发布了全球首颗支持8K 120fps的SoC芯片Hi3796C V300并通过实时解码的方式演示了该段8K 120fps码流,完整地体现出了超高清晰度及高帧率的顺滑感。AVS数字音视频编解码技术标准工作组也同期完成了AVS3视频编码标准的研制工作。上述内容、芯片和标准的进展也标志着我国在高质量8K技术上已经处于世界领跑的地位。

3.2 8K+AI+AR+5G/融合网络

通过高性能的媒体计算平台实现了8K解码、AI计算和AR呈现结合,形成了丰富多样的超高清晰度智能增强现实的应用模式。在家庭娱乐方面,用户可以通过多人连线同步观赏体育比赛或同一部体育比赛多个视角同步呈现,还可以与远在千里之外的亲人一起连线互动体感游戏,畅享高真实、准实时的各种零距离沟通体验,还可以通过AI摄像头采集超高清视频并同步进行智能化动作捕捉、骨骼识别、运动分析及姿势矫正,用新型媒体网络服务提供全新居家健身体验,见图9、图10所示。在户外旅游方面,也可以通过5G网络连接云端AI服务器将全景或多视角视频即时分享给亲朋好友,让好友足不出户即可体验世界各地风光美景。

3.3 基于点云的视觉互动媒体通信

基于点云编码的全新一代视觉互动媒体是未来媒体交互体验的重要应用。应用通过多个传感器获取对象的颜色、深度、纹理等信息,采用3D点云编码渲染传输表达出物体、场景的几何结构和属性特征,构建出虚实结合的逼真场景,见图11所示。通过多自由度多视点感知、高空间和时间分辨率、低视觉通信延时的特点,进一步实现与对象的远程实时真实交互。这些新型视觉互动媒体可以广泛地应用于虚实融合的立体会议系统、圆桌论坛、比赛直播、远程教育和医疗诊断等丰富的智能媒体网络应用场景,见图12所示。借助基于人工智能的实时渲染引擎、深度学习算法及海量云边端服务,可以联合提供变换无穷的视觉应用和信息交互场景。

结束语

在“E=MC2”的智能媒体网络的架构下,随着媒体内容、通信网络和媒体计算关键技术的不断突破和相互促进,媒体网络的服务效率将显著提升,各种新兴的应用场景将持续繁荣。目前,智能媒体网络时代仍处于新一轮产业兴起与爆发的前期,不仅是广播电视行业,未来更多新型行业都将受惠于智能媒体网络系统技术发展,通过媒体服务的感知与连接带动各个行业进入全新发展阶段。未来的智能媒体网络将不仅引领各个领域的技术创新还将承担承担更多的社会责任,为用户提供更加美好的生活体验和为社会进步发展贡献更多的作用。