MPEG的发展动态及其未来预测
2008-12-03
作者:文富忠 徐定杰 孙建红
摘 要:回顾了MPEG的发展历史,介绍了MPEG-1、MPEG-4和MPEG-7标准的特点,并对MPEG的未来作了展望。
关键词:MPEG 视频 音频 JPEG
MPEG压缩技术已是目前视频压缩的重要技术之一。它解决了以往硬盘容量有限及计算机总线瓶颈效应,因而扩大了多媒体应用" title="多媒体应用">多媒体应用空间的自由度及灵活度。它开拓了很多不同的数字影像应用,VCD节目制作就是运用了MPEG压缩技术。VCD盘上存储的影视图像和声音是采用MPEG算法压缩的数字信息,并按MPEG的格式交错存放在VCD盘上。在数字多媒体压缩(特别是视频压缩)领域内的国际标准" title="国际标准">国际标准有很多,如ISO/ITU-T(国际标准化组织/国际电信同盟)技术委员会下的JPEG(Joint Photographic Experts Group)标准,CCITT(国际电报电话咨询委员会)制定的H.261标准等,而著名的MPEG(Moving Pictures Experts Group,运动图像专家组)是在ISO(国际标准组织)和IEC(国际电工委员会)内运作的一个工作组,它组建于1988年,开始时只有15位专家。
MPEG的任务是开发运动图像及其声音的数字编码标准,专家组最初的任务有三个:实现1.5Mb/s、10Mb/s、40Mb/s的压缩编码标准,即MPEG-1、MPEG-2、MPEG-3。但因为MPEG-2的功能已使MPEG-3为多余,所以MPEG-3于1992年撤消。MPEG-4项目是1991年5月建议并于1993年7月确认。到现在为止,MPEG公布的标准有:①MPEG-1标准:1993年8月公布。用于传输1.5Mb/s数据传输率的数字存储媒体运动图像及其伴音的编码;②MPEG-2标准:1994年11月公布。其全称为:“运动图像及其伴音的编码”,主要针对高清晰度" title="高清晰度">高清晰度电视(HDTV)所需要的视频及伴音信号,传输速率为10Mbps,与MPEG-1兼容,适用于1.5Mbps~60Mbps甚至更高的编码范围;③MPEG-4标准:2000年10月公布。该标准的目标为:支持多种多媒体应用(主要侧重于多媒体信息内容的访问),可根据应用的不同要求现场配置解码器。目前,MPEG将研究重点转向了交互性更加高级的形式,在未来的几年里,技术的发展将使这种高级形式成为可能。
1 MPEG的发展及其特点
1.1 MPEG-1
在MPEG出现之前,关于图像压缩已经有两个标准,即用于静态图像数据压缩的JPEG和用于电视电话、会议电视图像压缩的H.261,但是他们都与计算机数据标准无关。这就要求制定一个图像、伴音、存储和传输四个方面的计算机系统和广播电视都统一的标准,从而有利于各种媒体广泛交流,因此MPEG就应运而生了。
MPEG-1标准完成的基本任务就是质量适当的图像(包括伴音)数据必须成为计算机数据的一种,和已有的数据(如文字、绘图等数据)在计算机内兼容,并且这些数据必须在现有的计算机网络和广播电视等通信网络中兼容传输。MPEG-1标准有3个组成部分:MPEG视频、MPEG音频、MPEG系统。所以MPEG涉及的问题是视频压缩、音频压缩及多种压缩数据流的复合和同步问题。MPEG-1标准是适用于传输1.5Mbps数据传输率的数字存储媒体运动图像及其伴音的编码标准,可以处理各种类型的活动图像,其基本算法对于压缩水平方向360个象素、竖直方向288个象素的空间分辨力,每秒24至30幅画面的运动图像有很好的效果。与JPEG不同,它没有定义产生合法数据流所需的详细算法,而是在编码器设计中提供了大量的灵活性,另外定义已编码位流和解码器的一系列参数都包含在位流本身当中,这些特点允许算法可以用于不同大小和宽高比的图像,也可以用在工作速率范围很大的信道和设备上。
MPEG-1标准压缩首先对色差信号进行亚采样,减少数据量,采用运动补偿技术,减少帧间冗余度,利用二维DCT变换去除空间相关性,对DCT分量进行量化,舍去不重要的信息,将量化后DCT分量按照频率重新排序,将DCT分量进行变字长编码,最后对每个数据块的直流分量(DC)进行预测差分编码。MPEG视频的编码和解码框图如图1所示。
MPEG-1的压缩目标是先对分辨率为30帧/秒(NTSC制式)或704×576、25帧/秒(PAL制式)的视频图像在水平方向和垂直方向上使象素减少一半,即变成352×240(NTSC制式)或352×288(PAL制式)的SIF图像格式,再对其与立体声伴音进行压缩。
1.2 MPEG-2
MPEG-2标准全称为“运动图像及其伴音的编码”,主要针对高清晰度电视(HDTV)所需要的视频及伴音信号,传输速率为10Mbps。
MPEG-2标准分为八个部分,统称为ISO/IEC1318国际标准。第一部分:系统,描述多个视频,音频和数据基本码流合成传输码流和节目码流的方式;第二部分:视频,描述视频编码方法;第三部分:音频,描述与MPEG-1音频标准反向兼容的音频编码方法;第四部分:符合测试,描述测试一个编码码流是否符合MPEG-2标准的第一、二、三部分的软件实现方法;第五部分:数字存储媒体-命令与控制,描述交互式多媒体网络中服务器与用户间的会话信令集;第六部分:非向后兼容的音频,规定不与MPEG-1音频反向兼容的多通道音频编码;第七部分:10比特视频,现已停止;第八部分:实时接口,规定了传送码流的实时接口。
MPEG-2视频编码标准是一个按等级划分的系列,按编码图像的分辨率分成4个“级”:低级(LL: low level),输入信号的像素为ITU-R601格式的四分之一;主级(ML: main level),输入信号的像素为ITU-R601;高级-1440(H14L:high-1440 level)为4:3模式电视高清晰度格式;高级(HL: high level)为16:9模式电视的高清晰度格式。按所使用的编码工具的集合分成5个“类”:简单类(SP:simple profile),只有基准帧Ⅰ和预测帧P;主类(MP: main profile),比SP增加了双向推测帧B;信杂比分层类(SNRP:SNR scalable profile);空间可分层类(SSP: spatial scalable profile);高类(HP: high profile)。“级”与“类”的若干组合构成MPEG-2视频编码标准在某种特定应用下的子集。对某一输入格式的图像,采用特定集合的压缩编码工具,产生规定速率范围内的编码码流。MPEG-2的编码码流分为6个层次。从上至下依次为:视频序列层(Sequence);图像组层(GOP:GroupofPicture);图像层(Picture);像条层(Slice);宏块层(MacroBlock)和像块层(Block)。
MPEG-2的编码流程:在帧内编码的情况下,编码图像仅经过DCT,量化器和比特流编码器即生成编码比特流,而不经过预测环处理。DCT直接应用于原始的图像数据。在帧间编码的情况下,原始图像首先与帧存储器中的预测图像进行比较,计算出运动矢量,由此运动矢量和参考帧生成原始图像的预测图像。而后,将原始图像与预测像素差值所生成的差分图像数据进行DCT变换,再经过量化器和比特流编码器生成输出的编码比特流。
1.3 MPEG-4
MPEG-4标准的目标是:支持多种多媒体应用(主要侧重于对多媒体信息内容的访问),可根据应用的不同要求现场配置解码器。MPEG-4旨在为视(音)频数据的通信、存取与管理提供一个灵活的框架与一套开放的编码工具。
在MPEG-4图像与视频标准中,视频表示工具的目标,是为多媒体环境下的纹理、图像和视频数据的有效存储、传输及管理提供标准化的核心技术。尤其强调这些工具对图像和视频内容的原子单元(称为视频对象VO)的编解码能力。对任意形状的视频对象进行有效的表示,以支持所谓基于内容的功能集。而此功能集支持内容(即场景中的物理对象VO)的单独编码和解码,这一特性为交互性提供了有力的底层机制支持,也为在压缩域对图像或视频的VO内容进行灵活的表示和管理提供了有利条件。MPEG-4图像与视频标准统一支持传统矩形和任意形状图像与视频的编解码。对于基于内容的应用,输入的图像序列可能具有任意形状和位置。形状可以用8位透明分量表示(一个VO由多个其它对象构成时)或用一个二值掩模描述。另外,通过对场景中每个物体采用适当的和精细的基于对象的运动预测工具,可以大大提高某些视频序列的压缩比" title="压缩比">压缩比。对于MPEG-4扩展的基于内容的编码可视为传统的VLBV内核或HBV工具由矩形输入向任意形状输入的逻辑延伸。从这个意义上,基于内容的编码是VLBV和HBV内核的超集。
MPEG-4标准在原有的基础上增加了七个新的功能。增加的各个功能的特点:
(1)基于内容的操作与比特流编辑支持无需编码就可进行基于内容的操作与比特流编辑。(2)自然与合成数据混合编码。提供将自然视频图像同合成数据(文本、图形)有效结合的方式,同时支持交互性操作。(3)增强的时间域随机存取。MPEG-4将提供有效的随机存取方式:在有限的时间间隔内,可按帧或任意形状的对象,对一音、视频序列进行随机存取。(4)提高编码效率。在与现有的或正在形成的标准的可比拟速率上,MPEG-4标准将提供更好的主观视觉质量的图像。(5)对多个并发数据流的编码。MPEG-4将提供对一景物的有效多视角编码,加上多伴音声道编码及有效的视听同步。在立体视频应用方面,MPEG-4将利用同一景物的多视点观察所造成的信息冗余,在足够的观察视点条件下有效地描述三维自然景物。(6)错误易发环境中的抗错性“灵活多样”是指允许采用各种有线网和各种存储媒体,MPEG-4将提高抗错误能力,尤其是在易发生严重错误的环境下的低比特应用中(移动通信链路)。MPEG-4是第一个在其音、视频表示规范中考虑信道特性的标准,目的不是取代已由通信网提供的错误控制技术,而是提供一种对抗残留错误的坚韧性。(7)基于内容的尺度可变性。内容尺度可变性意味着给图像中的各个对象分配优先级。基于内容的尺度可变性是MPEG-4的核心,因为一旦图像中所含对象的目录及相应的优先级确定后,其它的集内容的功能就比较容易实现了。对甚低比特率应用来说,尺度可变形成一个关键的因素,因为它提供了自适应可用资源的能力。
以上七个新的功能可以归纳为三类:基于内容的交互性、高压缩率和灵活多样的存取模式。前三个功能为基于内容的交互性,四、五为高压缩率模式,最后两个为灵活多样的存取模式。
1.4 MPEG-7
MPEG-7标准称为“多媒体内容描述接口”,它将扩展现有内容识别专用解决方案的有限能力,特别是还包括了更多的数据类型。换言之,MPEG-7将规定一个用于描述各种不同类型多媒体信息的描述符" title="描述符">描述符的标准集合。
MPEG-7对定义其它描述符及其结构(描述方案)和他们之间关系的方法进行标准化。这种描述(也就是描述符和描述方案的组合)将与内容本身关联起来,以便对用户感兴趣的素材进行快速高效的搜索。MPEG-7标准化了一种用来定义描述方案的语言,即描述定义语言(DDL)。加之相关的MPEG-7数据的AV素材,就可以被加上索引,并可进行检索。
MPEG-7象MPEG家族中其他成员一样,是针对满足特定需要的音、视频信息的标准化表述。MPEG-7的描述符并不依赖于它所描述的内容是编码的或存储的方式,可以把MPEG-7的描述说明附加到模拟制的电影里或使用纸张打印出来的图片上。然而,尽管MPEG-7的描述不依赖于所处理素材的(编码)表达方式,但由于在一定程度上它是在MPEG-4的基础上发展起来的,而MPEG-4采用了按照具有一定时间关系和空间关系的对象来进行音、视频编码的处理方式,因此用MPEG-4编码有可能把描述说明附加到场景中的成员(对象)。所以,MPEG-7在描述中要提供不同的程度,才可能实现不同等级的识别。
因为描述性特征必须在应用环境中才有意义,所以会因用户范围的不同和应用领域的不同而有所区别。这就意味着,同样的素材,因为要和应用范围相匹配,可能会使用不同类型的特征来描述。当然,所有这些描述都会以高效方式进行编码,业绩能提高搜索的效率。同时,中间也可能存在过渡的抽象等级。抽象等级与提取特征的方式有关,许多低等级的特征可以用全自动的方式提取出来,而高等级的特征就需要更多的人工交互。
2 MPEG的未来展望
MPEG视频压缩系统是一个技术含量很高的复杂集成系统,在世界上也只有少数极有实力的公司才能推出商业产品。由于MPEG视频压缩系统的技术复杂、设备昂贵,故至今为止普及程度很低。但随着技术的进步、工艺的成熟和价格下降,其应用面正在拓宽。过去需要花费上百万元才能做成的事,现在几万元即可实现。如果你已有这样的MPEG视频压缩系统,就可以很容易地把录像、照片、图片、电影等节目加以压缩存放在计算机中或制成VCD光盘,可广泛应用于电话教学、演示宣传、生活录像、档案管理等各类视频制作中。
MPEG制定的是一系列的标准,实际上很多情况下并没有给出具体的实现,最后的实施还要通过各个厂商和研发人员实现。MPEG的研究主要集中在两方面:(1)对MPEG实现的研究;(2)进一步研究图像压缩方法已获得更大数据压缩比并且实现人机对话的功能。
从现在MPEG标准来看,作者认为主要将集中在基于对象的处理方法上,也就是对于不同的数据、内容、要求将根据情况选择不同方法处理。首先这是满足人机对话的最基本要求,也是满足以人为本宗旨的要求,每一个人都可以根据自己的需求而要求采用不同的处理方法;其次,这是进一步获得更大图像数据压缩比的要求。以前基于数据本身和其变换与统计个性的压缩方法很难满足高速公路上的数据流速度,而基于对象的处理方法,主要是现实基于模型的压缩方法,可以针对不同对象(内容)采用不同的压缩方法,从而获得巨大的压缩比,而且满足人的视觉要求。在MPEG-4和MPEG-7标准中已经注意到这个问题,引入了基于对象或称为内容的研究。因此,笔者认为基于对象的图像处理方法将是未来MPEG的发展方向。
MPEG视频压缩技术和VCD制作为我们开拓了一条发展的新路。MPEG视频压缩技术的推广应用,可能会产生一个新行业,即多媒体制作。这方面的市场刚刚启动,在教育、培训等方面几乎是空白,是一个有很大发展潜力的行业,有待于开拓。未来是信息化的社会,各种多媒体数据的传输和存储是信息处理的基本问题,本文仅仅从MPEG标准方面进行了详细的阐述,还有很多这方面的技术有待于研究和开发,希望有志于此研究的人士共同探讨。
参考文献
1 Tan K T.Blockiness detection for MPEG-2 coded video[J].IEEE Signal Processing Letters ,2000,7(8)
2 Kadono.Motion compensation method for moving prctures with binary shape[J].Signal Processing :Image Communication,2000,16(3)
3 Sodagar.Multi-scale zerotree entropy coding[C].Proceedings of the IEEE 2000 International Symposium on Circuits and Systems,2000
4 梨洪松.数字视频技术及其应用[M].清华大学出版社,1998
5 Overview of the Mpeg-4Standard[S].version 16,ISO/IEC JTC1/SC29/WG11 N3747,2000
6 Overview of the Mpeg-7Standard[S].version 4.0,ISO/IEC JTC1/SC29/WG11 N3752,2000