MPEG-2是MPEG工作群组于1994年释出的视讯和音讯压缩国际标准。MPEG-2通常用来为广播讯号提供视讯和音讯编码,包括卫星电视、有线电视等。MPEG-2经过少量修改后,也成为DVD产品的核心技术。
MPEG-2的系统描述部分(第1部分)定义了传输流,它用来一套在非可靠介质上传输数位视讯讯号和音讯讯号的机制,主要用在广播电视领域。
MPEG-2的第二部分即视讯部分和MPEG-1类似,但是它提供对隔行扫描视讯显示模式的支援(隔行扫描广泛应用在广播电视领域)。MPEG-2视讯并没有对低位元速率(小于1Mbps)进行最佳化,在3Mbit/s及以上位元速率情况下,MPEG-2明显优于MPEG-1。MPEG-2回溯相容,也即是说,所有符合标准的MPEG-2解码器也能够正常播放MPEG-1视讯流。
MPEG-2技术也应用在了HDTV传输系统和蓝光光碟中。
MPEG-2的第三部分定义了音讯压缩标准。该部分改进了MPEG-1的音讯压缩,支援两通道以上的音讯。MPEG-2音讯压缩部分也保持了回溯相容的特点。
MPEG-2的第七部分定义了不能回溯相容的音讯压缩。该部分提供了更强的音讯功能。通常我们所说的MPEG-2AAC指的就是这一部分。
一个MPEG-2系统流一般包括两个基本元素:
MPEG-2影像压缩的原理是利用了影像中的两种特性:空间相关性和时间相关性。这两种相关性使得影像中存在大量的冗余资讯。如果我们能将这些冗余资讯去除,只保留少量非相关资讯进行传输,就可以大大节省传输频带。而接收机利用这些非相关资讯,按照一定的解码演算法,可以在保证一定的影像质量的前提下恢复原始影像。
MPEG-2视讯通常包含多个GOP(Group Of Pictures),每一个GOP包含多个影格(frame)。影格的影格类(frame type)通常包括I-影格(I-frame)、P-影格(P-frame)和B-影格(B-frame)。其中I-影格采用影格内编码,P-影格采用前向估计,B-影格采用双向估计。
I 影格影像采用影格内编码方式,即只利用了单影格影像内的空间相关性,而没有利用时间相关性。I 影格使用影格内压缩,不使用运动补偿,由于I 影格不依赖其它影格,所以是随机存取的入点,同时是解码的基准影格。I 影格主要用于接收机的初始化和信道的获取,以及节目的切换和插入,I 影格影像的压缩倍数相对较低。I 影格影像是周期性出现在影像序列中的,出现频率可由编码器选择。
P 影格和B 影格影像采用影格间编码方式,即同时利用了空间和时间上的相关性。P 影格影像只采用前向时间预测,可以提高压缩效率和影像质量。P 影格影像中可以包含影格内编码的部分,即P 影格中的每一个宏块可以是前向预测,也可以是影格内编码。
B 影格影像采用双向时间预测,可以大大提高压缩倍数。值得注意的是,由于B 影格影像采用了未来影格作为参考,因此MPEG-2编码码流中影像影格的传输顺序和显示顺序是不同的。
MPEG-2的编码码流分为六个层次。为更好地表示编码资料,MPEG-2用句法规定了一个层次性结构。它分为六层,从上至下依次为:视讯序列层(Sequence),影像组层(GOP: Group of Picture),影像层(Picture),像条层(Slice),宏块层(Macro Block)和像块层(Block)。可以看到,除宏块层和像块层外,上面四层中都有相应的起始码(Start Code,SC),可用于因误码或其它原因收发两端失步时,解码器重新捕捉同步。因此一次失步将至少遗失一个像条的资料。
一般来说输入视讯格式是25(CCIR标准)或者29.97(FCC)影格/秒。
MPEG-2支援隔行扫描和逐行扫描。在逐行扫描模式下,编码的基本单元是影格。在隔行扫描模式下,基本编码可以是影格,也可以是场(field)。
原始输入影像首先被转换到YCbCr颜色空间。其中Y是亮度,Cb和Cr是两个色度通道。对于每一通道,首先采用块分割,然后形成“宏块”(macroblocks),宏块构成了编码的基本单元。每一个宏块再分割成8x8的小块。色度通道分割成小块的数目取决于初始参数设定。例如,在常用的4:2:0格式下,每个色度宏块只采样出一个小块,所以三个通道宏块能够分割成的小块数目是4+1+1=6个。
对于I-影格,整幅影像直接进入编码过程。对于P-影格和B-影格,首先做运动补偿。通常来说,由于相邻影格之间的相关性很强,宏块可以在前影格和后影格中对应相近的位置找到相似的区域匹配的比较好,这个偏移量作为运动向量被记录下来,运动估计重构的区域的误差被送到编码器中编码。
对于每一个8×8小块,离散余弦变换把影像从空间域转换到频域。得到的变换系数被量化并重新组织排列顺序,从而增加长零的可能性。之后做游程编码(run-length code)。最后作哈夫曼编码(Huffman Encoding)。
I影格编码是为了减少空间域冗余,P影格和B影格是为了减少时间域冗余。
GOP是由固定模式的一系列I影格、P影格、B影格组成。常用的结构由15个影格组成,具有以下形式IBBPBBPBBPBBPBB。GOP中各个影格的比例的选取和频宽、影像的质量要求有一定关联。例如因为B影格的压缩时间可能是I影格的三倍,所以对于计算能力不强的某些即时系统,可能需要减少B影格的比例。
MPEG-2输出的位元流可以是匀速或者变速的。最大位元率,例如在DVD应用上,可达10.4 Mbit/s。如果要使用固定位元率,量化尺度就需要不断的调节以产生匀速的位元流。但是,提高量化尺度可能带来可视的失真效果。比如马赛克现象。
MPEG-2的音讯编码包括:
DVD中采用了MPEG-2标准并引入如下技术参数限制:
MPEG-2在NTSC中必须符合以下一种解析度:
蕴藏许多助人的知识与智慧。
关注蓝眼知识学院