MPEG4 是一個龐大的有關(guān)交互多媒休編碼 與通信的標(biāo)準(zhǔn), 目前已出臺的委員會草案CD, 多達(dá)上千頁。我們重點概述了AV 對象的編碼技術(shù)。
1 多媒體傳送集成框架DMIF
DMIF 主要解決交互網(wǎng)絡(luò)中、廣播環(huán)境下以及磁盤中多媒體 應(yīng)用的操作問題, 通過傳輸多路合成比特信息, 建立客戶端和服 務(wù)器端的握手和傳輸。與過去不同的是, 由于MPEG4 碼流中, 包 括許多的AV 對象, 一般而言, 這些AV 對象都有各自的緩沖器, 而不僅僅是視頻緩充器和音頻緩充器。
2 語法描述
MPEG4 定義了一個句法描述語言來描述AV 對象比特流表 示和場景描述信息。這個句法描述語言是對C++的擴展, 不僅易 于表達(dá)其AV 對象特性, 而且也易于軟件仿真實現(xiàn)與模型驗證。與 MPEG4 相比, MPEG1 和MPEG2 則采用一種類C 語言的描述, MPEG4 描述語言反映了面向?qū)ο蠹夹g(shù)來描述對象。
3 音頻對象的編碼
視頻音頻的壓縮編碼自然仍是MPEG4 的核心所在。不過, 與 以前的MPEG1、MPEG2 不同的是:MPEG4 不僅支持自然的聲音 ( 如語音和音樂) , 而且支持基于描述語言的合成聲音( 如MIDI 之類) 。而且, 支持音頻的對象特征。即一個場景中, 同時有人聲和背景音樂, 它們也許是獨立編碼的音頻對象。
1.1 自然聲音編碼
MPEG4 研究比較了現(xiàn)有的各種音頻編碼算法, 支持2~64K的自然聲音編碼。如8KHz 采樣頻率的2~4Kbps 的語音編碼, 以及8KHz 或16KHz 采樣頻率4~16Kbps 的音頻編碼, 一般采用參數(shù)編碼; 6~24Kbps 的語音編碼, 一般采用碼激勵線性預(yù)測CELP (Code Excited Linear Predicitive) 編碼技術(shù); 16Kbps 以上碼率的編 碼, 則可采用時頻(T/F)變換編碼技術(shù)。這些技術(shù)實質(zhì)上借鑒了已 有的音頻編碼標(biāo)準(zhǔn)如G723、G728 以及MPEG1 和MPEG2 等。圖1 是MPEG4 的可伸縮自然音頻編碼器示意圖, 包括三種編碼技術(shù)。
圖1 通用MPEG4 音頻編碼方框圖
1.2 合成聲音
在合成聲音編碼當(dāng)中, MPEG4 引入了兩個極有吸引力的編碼技術(shù): 文本到語音(Text- to- Speech)編碼和樂譜驅(qū)動合成編碼技術(shù)。這為網(wǎng)絡(luò)上低比特率下交互的帶有語音的游戲鋪平了道路。事實上, 合成聲音編碼技術(shù)即是一種基于知識庫的參數(shù)編碼。
4 視覺對象的編碼
同樣, MPEG4 也支持對自然和合成的視覺對象編碼。合成的視覺對象如2D、3D 動畫, 人的面部表情動畫等, 這些合成圖像單獨編碼, 不僅可有效壓縮, 而且還便于操作。對自然視覺對象的編碼, 也是MPEG4 的重點。比對于靜止圖像, MPEG4 采用零樹小波算法(Zerotree WAV eletalgorithm)以提供高壓縮比, 同時還提供多達(dá)11 級的空間分辨率和質(zhì)量的可伸縮性。對于運動視頻對象的編碼, MPEG4 采用了如圖2 所示的編碼框圖, 以支持圖象的編碼。