現在位置：范文先生網>理工論文>計算機論文>Video Object編碼技術

Video Object編碼技術

時間：2023-02-20 22:36:46 計算機論文我要投稿

相關推薦

Video Object編碼技術

《西部廣播電視》2001.10發(fā)表
2001中南地區(qū)廣播電視技術討論會技術論文二等獎

多媒體信息是未來人類獲取信息最主要的載體，因此它已成為目前世界上技術開發(fā)和研究的熱點。視頻信息作為多媒體信息中最被關注、數據量最大的一員，現在也正面臨著一場其意義不亞于從模擬到數字的技術進步革新：從傳統的矩形DCT變換編碼到根據視頻內容、劃分對象、分別變換編碼的新的編碼方法。

一、傳統的編碼方式

傳統的視頻編碼是以視頻信號的數字量為編碼對象的，與視頻信息的內容無關，無論是M-JPEG、MPEG-1還是MPEG-2，都是以DCT矩形變換塊為變換編碼單元，對DCT塊內圖像的亮度和色度進行特征取樣，提取像素；采用幀間編碼、運動估測技術，在參考幀幀內DCT編碼的基礎上，對DCT塊內圖像的像素特征進行差值預測編碼�；诰匦蜠CT編碼的視頻編碼在設計思想上只考慮到對信號數據進行處理的需要（比如小的比特率以利于傳輸、高的比特率以保證質量），但未考慮視頻信息--圖像內容本身的含義和重要性，以及視頻信息應用者的主觀需求（比如部分內容的提取功能）。另外，這種基?quot;塊"的壓縮算法在低碼率時容易產生"方塊效應"和"抽幀"，大大縮小了視頻信息的應用領域。

小波變換是一種新的變換編碼方法，它與DCT變換相比，考慮到了視頻信號對不同應用環(huán)境的自適應性（不同的清晰度與比特率），可以將基礎圖像層與增強圖像層分離編碼傳輸，用戶可根據實際情況選擇是否打開增強圖像層。但無論用戶選擇是或否，被傳送的視頻信息卻都是一樣的。

二、基于內容對象的編碼

1、 VO與VOP概念的引入

傳統的視頻編碼方式是將整個視頻信號作為一個內容單體來處理，其本身不可再分割，而這與人類對視覺信息的判別法則，也就是大腦對視神經導入的視覺信號的處理方法是完全不同的。這就決定了我們不可能將一個視頻信息完整的從視頻信號中提取出來，比如：將加有臺標和字幕的視頻恢復成無臺標、字幕的視頻。解決問題的惟一途徑就是在編碼時就將不同的視頻信息載體--視頻對象VO（Video Objects）區(qū)分開，獨立編碼傳送，將圖像序列中的每一幀，看成是由不同的VO加上活動的背景所組成。VO可以是人或物，也可以是計算機生成的2D或3D圖形。VO具有音頻屬性，其屬性賦值可能?quot;有"或者是"無"。但音頻的具體內容數據是獨立于視頻編碼、傳輸的。VO概念的引入，更加符合人腦對視覺信息的處理方式，并使視頻信號的處理方式從數字化進展到智能化。提高了視頻信號的交互性和靈活性，使得更廣泛的視頻應用和更多的內容交互功能成為可能。

現代圖像編碼理論指出，人眼捕獲圖像信息的本質是"輪廓－紋理"，即人眼感興趣的是VO的一些表面特性，如形狀、運動、紋理等。VO的表面往往是不規(guī)則的、千變萬化的，但可將其視為一定視角下，n個形狀規(guī)則的、具有一定紋理的剖面的組合的連續(xù)運動，這些剖面的組合稱為視頻對象面VOP(Video Object Profile)。VOP描述了VO在一定視角條件下的表面特性。VOP的編碼主要由兩部分組成：一個是形狀編碼，另一個是紋理和運動信息編碼。VOP紋理編碼和運動的預測、補償在原理上同MPEG-2基本一致，而形狀編碼技術則是首次應用在圖像編碼領域。

2、新的編碼技術

合成VO的獨立編碼在以前，2D或3D動畫被看作是視頻的一部分，并一概以視頻的方法來處理。實際上，根據合成VO的合成機理和特性，大部分合成VO都可以用通用的有關圖形文本的多種表達方式來描述。非復雜性合成VO將被視為一種獨立于視頻的數據類型來編碼，并定義了其描述框架、通用的數據流結構和靈活的接口。而復雜性合成VO和自然VO的編碼方法，將采用以下的編碼方法。

基于矩形窗口的VOP分割考慮到與現有標準的兼容，目前已得到應用的VO編碼技術，比如MPEG4，仍采用了基于矩形窗口的內容分割法。編碼時，首先利用像素特征統計，將每一個VOP都限定在一個矩形窗口內，稱之為VOP窗口(VOP Window),取窗的原則為：長、寬均為16像素的整數倍（便于對現有標準的兼容和將來的擴展），同時保證VOP窗口中非VOP的宏塊數目最少。目前標準中的視頻幀可認為是一個無VOP的特例，在編碼過程中將形狀編碼模塊屏蔽掉就可以了。在一個VOP窗口內，VOP剖面的形狀也是采用8×8像素的矩形形狀。針對不同的VOP，可以根據不同的應用場合和運動、變化的特點，采用固定的或可變的VOP幀頻（即VOP刷新頻率）。

矩形窗口分割法并不能體現VOP的具體形狀信息。為了確認采用矩形窗口分割法的VOP的形狀信息，就引入了形狀編碼技術。形狀編碼其實并不是什么新技術，它在計算機圖形學、計算機視覺領域早有應用。而目前的視頻編碼標準中的位圖技術其實就是形狀編碼的簡單特例。位圖采用矩陣的形式來表示二值（0或1）的形狀信息，具有較高的編碼效率和較低的運算復雜度。VOP的形狀信息有兩類：邊緣信息和灰度信息。邊緣信息用0、1來表示VOP的形狀，0表示非VOP區(qū)域，1表示VOP區(qū)域。對于包含一定透明度的VOP區(qū)域，可以用灰度信息（取值0～255之間）來表示透明程度，其中0表示完全透明，255表示完全不透明。對于模糊邊緣部分，可將其視為灰度信息從周圍已知VOP區(qū)域的灰度值向0值的過渡區(qū)域，采用內插法確定其形狀信息。

基于小波變換的VOP分割基于矩形窗口的VOP分割依舊存在"塊效應"問題，而基于小波變換的VOP分割則可以很好的解決這個問題，而且由于這種分割方法的本身就包含了VOP的形狀信息，所以無需另對形狀信息進行判別與編碼�；谛〔ㄗ儞Q的VOP分割方法是目前最為活躍的視頻編碼課題研究領域，各種算法不斷的被發(fā)表，但基本上可以劃分為兩類方法：

1、利用圖像灰度特征分割：不同的圖像具有不同的灰度分布，利用小波變換，將圖像變換到小波域，產生各層、各子帶圖像。小波變換后，大部分的能量是集中在低頻子帶圖像上，即大面積的平均灰度區(qū)域信息主要在低頻子帶圖像中體現。根據信息論的原理，確定多個灰度閾值，可以將具有不同灰度的VOP從低頻子帶圖像中分離。同時再利用高頻子帶圖像以及模糊數學模型，確定每一個VOP的邊緣信息。利用圖像灰度特征分割的小波變換，是沿掃描方向的單方向變換。

2、利用圖像紋理特征分割：紋理是一種局部特征反復出現的結果，它體現了圖像的局部頻域信息。對于一幅數字圖像，進行多方向的小波變換是可行的，比如對一幀畫面進行垂直方向或對角線方向的小波變換。經過多種小波變換后可得到不同方向的各子帶圖像，它們各自蘊涵著不同紋理的局部頻譜信息和紋理走向等信息。對具有相同頻譜特征的圖像局部進行聚類分析，并根據紋理頻譜和紋理走向確定該聚類的紋理邊緣。根據信息論原理和運動估測，將運動矢量具有相關性的聚類二次歸類于不同的對象（即VOP），并影射成不同灰度顯示。多級小波變換的結果最多可線性的影射成0～255灰度級顯示。進行小波變換的方向越多，各方向的夾角越小，圖像分割也就越準確，但計算量也隨之迅速膨脹。根據局域紋理中心頻率的變化自適應地選擇小波變換的級數（幾個方向的變換）和方向，有助于在圖像分割的準確性和計算量之間達到平衡。正如本文前面所述，人眼捕獲圖像信息的本質?quot;輪廓－紋理"，故基于多方向小波變換的提取圖像特征、分割紋理圖像的方法符合人眼視覺生理的特點，是紋理圖像分析的重要發(fā)展方向。

無論是哪一種方法，當得到不同VOP的不同灰度表示之后，通過類似于鍵技術的多通道處理，即可得到多個原始的彩色VOP。目前實驗表明，基于小波變換的圖像分割在邊界上仍有些模糊，但總體效果還是相當滿意的，達到了分割紋理圖像的目的。

VOP運動信息編碼和運動補償人眼在觀看圖像時，會自動跟蹤人所感興趣的VOP。即人看的不是時間軸上的信息，而是VOP的運動軌跡---光流軸上的信息。光流軸是VOP上的一點在活動圖像上的運動軌跡，它在不同的幀中位于不同的空間位置，其意義在于：VOP自身的各種變化都將映射于光流軸上的一點。光流軸信息的獨立編碼將帶來諸多好處：（1）在編碼時，對于剛性VOP，由于它在運動中不會發(fā)生形狀和紋理上的變化，故該VOP只需要完成一次采樣、編碼，而后就只需發(fā)出幾個運動矢量指明它的光流軸即可；對于非剛性VOP，只需在發(fā)生變化時才需要重新采樣、編碼，這就使得不同的VOP采用不同的VOP幀頻成為可能，將編碼的數據率最低限度的降低。（2）VOP在運動中的各種變化都將"留跡"于光流軸，當在進行運動補償時，比如不同制式之間的轉換或者慢動作的制作，就可以根據光流軸映射信息，采用內插法得出時間軸上某一確定點的VOP狀態(tài)，達到無損轉換的目的。（3）在時間軸上，簡單的將一個圖像序列的兩路信號疊加，隨即噪波和圖像的活動部分都得不到增強；若在光流軸上進行信號疊加，活動圖像的降噪問題就得到了簡單解決。

VOP的運動估測是指：分析兩個或更多幀上的VOP，確定光流軸，以判斷下一幀中VOP可能出現的位置。VOP的運動補償是指：根據VOP光流軸的取向和光流軸上VOP自身變化得映射信息，矯正VOP在時間軸上的運動矢量。運動預測和運動補償技術可以去除圖像信息中的時間冗余成分，VOP的運動信息編碼可視為從像素向任意形狀的VOP的延伸。

紋理編碼在已得到實際應用的MPEG-4中，VOP的紋理編碼基本上仍采用基于8×8像素塊的DCT方法，有3種模式：幀內編碼模式(I-VOP)、幀間預測編碼模式(P-VOP)和幀間雙向預測編碼模式(B-VOP)。編碼時，對于完全位于VOP內的像素塊，則采用經典的DCT方法；對于完全位于VOP之外的像素塊則不進行編碼；對于部分在VOP內，部分在VOP外的像素塊則首先采用圖像填充技術來獲取VOP之外的像素值，之后再進行DCT編碼。

依據視覺特性的紋理編碼目前仍處于理論研究階段，其目標是：建立常見紋理局部特征符號集，定義描述紋理分布、走向的多媒體語言。以人臉為例：人臉定義參數（FDP）描述了特定人臉紋理形狀模型與通用人臉模型之間的差別，通過接收到的各種FDP，能把通用的人臉模型變換成由其形狀和紋理確定的特定人臉。人臉動畫參數（FAP）描述了特定的人臉表情與中性表情的變化關系，通過接收到的各種FAP能生成人臉的各種表情以及與聲音同步的嘴唇活動等。這樣的合成編碼不僅可極大地提高編碼效率（可獲得1kbps的超低碼率），而且為制作新的人臉等對象提供了方便。

分級編碼多媒體的應用場合具有不同的信道帶寬、處理能力、顯示能力及用戶需求，要求在解碼端支持時域、空間及質量的上伸縮性，即分級編碼。分級編碼可以通過視頻對象層VOL(Video Object Layer)的數據結構來實現。每一種分級編碼都至少有2層VOL，低層稱為基本層，高層稱為增強層。空間伸縮性可通過增強層強化基本層的空間分辨率來實現，因此在對增強層中的VOP進行解碼之前，必須先對基本層中相應的VOP進行解碼。同樣對于時域伸縮性，可通過增強層來增加視頻序列中某個VO(特別是運動的VO)的幀率，使其與其余區(qū)域相比更為平滑。

三、新的技術標準--MPEG 4

首次采用VO編碼技術的視頻編碼標準是由MPEG 4。MPEG 4于1999年年初正式成為國際標準(標準號為ISO/IEC 14496)，在1999年12月的后繼版本中增加了可變形、半透明視頻對象及其工具的先進功能，它進一步提高了編碼效率，并與第一版反向兼容。

1、MPEG 4標準的構成

1） DMIF（The Dellivery Multimedia Integration Framework）：多媒體傳送整體框架協議。MPEG-4標準將眾多的多媒體應用集成于一個完整的框架內，旨在為多媒體通信及應用環(huán)境提供靈活的算法及工具，用于實現音視頻數據的有效編碼及更為靈活的存取。它解決了多領域中多媒體應用個性化交互操作的問題。

2）解碼器：定義了MPEG-4系統特殊的解碼模式（SDM），要求特殊的緩沖區(qū)和實時模式。

3）音頻編碼：支持自然聲音和合成聲音，支持音頻的對象特征。

4）視頻編碼：支持自然和合成的視覺對象，合成的視覺對象包括2D、3D動畫和人面部表情動畫等。

5）場景描述BIFS（Binary Format for Scene description）：關于一組VO的時空結構關系的參數信息，主要描述了各VO在一具體背景下的相互關系與同步等問題，以及VO及其背景的知識產權保護等問題。BIFS與VO對象特征信息的編碼、傳輸是相對獨立的。場景描述信息編碼及其的獨立傳輸是實現用戶端編輯操作的關鍵：在解碼之后和場景合成之前，用戶可以通過對BIFS參數的重新設置來對VO 進行多種編輯操作，如增減、縮放、平移，甚至一些特技效果。

下面的表格反映了MPEG體系的部分技術指標。MPEG-4是高比率有損壓縮（比如將一個9 GB的DVD視頻壓縮拷貝到只有700MB空間的CD-ROM上），其圖像質量始終無法與MPEG-2相比。當MPEG-4與MPEG-2的碼率輸出相同時，其質量仍稍遜于MPEG-2。同時，MPEG 4對硬件的要求也較高。事實上，我們注意到MPEG-4在保證令人滿意的圖像質量的情況下，更注重較低的數據率和靈活的交互功能。

2、MPEG 4編碼器

MPEG 4編碼簡化原理圖如圖一。

對于輸入視頻序列，通過分析確認n個視覺目的對象為編碼對象，將其認定為n個VO（n=1,2,3…），對每一個VO編碼后形成這個VO的VOP數據流。VOP的編碼包括對運動(采用運動預測方法)及形狀、紋理(采用變換編碼方法)的編碼。由于VOP具有任意形狀，因此要求編碼方案可以處理形狀(Shape)和透明(Transparency)信息，這就是與只能處理矩形幀序列的現有視頻編碼標準的根本區(qū)別。在MPEG-4中，矩形幀被認為是VOP的一個特例，這時編碼系統不用處理形狀信息，退化為類似于MPEG-1、MPEG-2的傳統編碼系統，同時也實現了與現有標準的兼容。除去VO的其余圖像部分--背景，仍采用傳統的矩形DCT變換編碼；VO場景描述信息（VO自身信息，如VO對象的知識產權、和VO間的位置、邏輯關系等）也要進行編碼，最后和VOP流、背景一起送入MPEG 4幀復合器，生成MPEG 4流輸出。

需指出的是：在VO分割后，每一個VO都需要一個VOP編碼通道，在圖一中只畫出了一個。多個VOP幀發(fā)生器的輸出在MPEG 4幀復合器中可實現靈活地多路復用編碼或同步并行傳輸編碼，以適應各種傳輸環(huán)境和要求。MPEG 4解碼是以上編碼過程的逆過程�？梢钥闯觯毩⒂诒尘暗腣O編碼可以實現接收端的用戶對VO對象進行選擇性地操作。

3、MPEG 4視頻編碼功能與特點

MPEG 4標準的制定有兩個目標：低比特率的多媒體通信和多工業(yè)的多媒體通信的綜合。即MPEG-4遵循靈活的編碼工具框架體系，設計了一個開放的編碼系統，對于不同的應用采用不同的編碼算法，以達到低比特率通信的目標。MPEG-4解碼器是可編程的，相應的解碼信息可與內容本身一起傳輸下載。與現有的MPEG-1和MPEG-2視頻壓縮相比，MPEG-4視頻有一些重要的改進：

1）基于內容的交互功能: MPEG-4提供了全新的交互方式，根據制作者的具體自由度設計，在有限的時間內可實現對多媒體VO的時域隨機存�。◤牟煌脑传@取內容或向不同的源發(fā)送內容）、快速搜索、改變場景的視角、改變場景中物體的位置、大小和形狀，或對該對象進行置換甚至清除。

2）支持自然及合成信息的混合編碼（NHC：Synthetic and Natural Hybrid Coding）：MPEG-4支持合成信息的編碼，可對合成的VO及其活動信息進行參數化描述。對于頻繁出現的視覺對象則分別定義了它們的紋理形狀和動畫參數。

3）高效編碼：包括視頻VO數據的高效編碼和多個并發(fā)數據的有效同步編碼。

4）基于內容的伸縮性：是指分級編碼后，紋理、圖像和視頻基于內容的伸縮性，視頻序列中時域、空間及質量的伸縮性，表現為時域實時或非實時、數據率大小及重建的圖像質量上。

5）可變的最終輸出：不同的碼率意味著支持不同的功能集。功能集的底層是VLBV核心(VLBV：Very Low Bit Rate Video)，它為最低達5-64kbits/s視頻操作與應用提供算法與工具，支持較低的空間分辨率(低于352×288像素)和較低的幀頻(低于15Hz)。VLBV核心功能包括：矩形圖像序列的有效編碼、多媒體數據庫的搜索和隨機存取。MPEG-4的HBV(HBV: High Bit Rate Video,范圍在64kbits/s-4Mbits/s之間)同樣支持上述功能，但它同時還支持較高的空間與時間分辨率。其輸入可以是ITU-R 601的標準信號，因此其典型應用為數字電視廣播與交互式檢索。

與MPEG-1和MPEG-2相比，MPEG-4的特點是其更適于交互式AV服務以及遠程監(jiān)控。MPEG-4是第一個允許用戶端操作的的視頻編碼標準。MPEG 4的特點非常適合于互聯網上的交互式影視服務：可適應各種應用終端的物理網絡環(huán)境，可實現對視音頻內容的交互操作，具有下載解碼能力（在一定的硬件基礎上，可下載解碼工具，對不同編碼方式的內容進行解碼處理）。MPEG-4的設計目標還有更廣的適應性和可擴展性：因特網多媒體應用、交互式視頻游戲、實時可視通信、交互式存儲媒體應用、廣播電視、演播室技術及電視后期制作、多媒體內容存儲和檢索、采用面部動畫技術的虛擬會議、多媒體郵件、移動通信條件下的多媒體應用、可視化合作實驗室場景應用、遠程視頻監(jiān)控、通過ATM網絡等進行的遠程數據庫業(yè)務等等。

從矩形幀到VOP，MPEG-4順應了現代圖像壓縮編碼的發(fā)展潮流，即從基于DCT的傳統編碼向基于對象和內容的現代編碼的轉變。從這個意義上講，MPEG-4視頻編碼技術翻開了圖像編碼史上嶄新的一頁。

四、 MPEG 4視頻產品

在2001 NAB會展上，多家公司推出了他們的MPEG 4產品。Amnis公司推出了基于IP平臺的MPEG4視頻流技術，展示了可以重放MPEG1, MPEG2和MPEG4的桌面軟件。Envivo 公司陳列了他們的應用于IP網絡或MPEG2節(jié)目數據廣播的MPEG4端到端解決方案。該方案是純軟件的，支持視頻、音頻和合成的2D動畫的MPEG4方式編碼，以及對MPEG 4文件的版權保護。Optibase公司推出的MGW系列是一個插件式的多通道流服務器系列，可插入不同的編碼模塊以適應不同的需求，其中MGW 4000是支持MPEG4（兼容MPEG1和MPEG2）的流服務器。Optibase還推出了支持多媒體和交互MPEG4流的IP實時編碼、分配平臺。最后，Optibase展示了從MPEG 1到MPEG 4的實時轉碼技術。Philips 提供了一個從制作到重放的、端到端的網上MPEG-4解決方案：包括互動內容編輯器（支持網上MPEG-4視頻流的搜索、剪輯和編輯）、實時軟件MPEG-4編碼器（甚至支持簡單視頻和AAC音頻的無線編碼）、通用多點分配IP平臺和解碼軟件（WebCine' player支持Win95,Win2000和NT操作系統；WinCE用于手提電腦；Trimedia是一個網上廣播機頂盒）。SUN 公司也推出了他們的通用MPEG-4流服務器。

微軟在它現在的WIN98和WIN2000操作系統中也已加入了一個MPEG-4的播放器，叫做Divx。它可以回放仍是以.AVI為后綴的MPEG 4文件。Divx可以附加到MPEG-4的數據流中，并可以進行設置以適應不同的使用要求。Divx視頻編碼技術是由 Microsoft MPEG4 V3 修改而來，使用MPEG 4壓縮算法，打破了ASF的種種協定。但MPEG4畢竟是一種高比率有損壓縮，其圖象質量始終無法和 DVD 的 MPEG2 相比，即便是在MPEG4碼率和DVD碼率差不多時，總體效果還是有距離（在雜亂的細節(jié)上稍有模糊）。所以目前的MPEG4 只能面向于娛樂和欣賞方面的市場。

市場上的第一張DIVX-MPEG4格式的影碟《活火熔城》，長98分鐘，采用512×288 16:9格式，幀頻24幀/秒，64KB立體聲音頻。影片由720×480 16:9 30幀/秒的MPEG2制式轉刻，刻在單張CD盤片上。

六、結尾

在最后結束本文的時候，作者還想說一些與本文有關的闡述文字。由于工程實現與商機、市場的原因，我們所獲得的工程技術成果經常是落后于科學家已經得心應手、并能信手拈來的實際的最前沿科技成果。MPEG-4標準即是多因素集合作用的結果，如果不考慮對已有產品的兼容，它還可以做得更好。

VOP編碼方式是視頻信號處理技術從數字化進入智能化得初探。另外，已VOP技術為依托，也使得模式識別技術從對符號的識別進入到對圖形識別的更新的領域。資料表明，此類研究已經更進一步的逼近人腦對視覺信息的處理方式。人類永遠不停的在揭示自然界無窮奧妙的同時，也更深入的探索人類自身。

【Video Object編碼技術】相關文章：

Teenagers and Video Games08-09

Step Away From the Video Games(遠離電子游戲)08-09

漢字的動態(tài)編碼與顯示方案08-06

av午夜福利在线观看_国产精品一区二区白浆_8乄8X国产精品一区二区_国产精品国产AV大片

Video Object編碼技術

Video Object編碼技術