《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計應(yīng)用 > 基于深度的3D視頻質(zhì)量評價
基于深度的3D視頻質(zhì)量評價
來源:微型機(jī)與應(yīng)用2013年第3期
孫 延,,岑 峰
(同濟(jì)大學(xué) 電子與信息工程學(xué)院,,上海201804)
摘要: 針對3D視頻質(zhì)量評價,,基于人眼視覺系統(tǒng)HVS提出了一種新的加權(quán)SSIM評測方法,。利用MVD深度視圖空間和時間上的特性,,提取主觀權(quán)值映射,,基于SSIM利用權(quán)值映射便得到了基于深度的SSIM加權(quán)算法DSSIM,。實(shí)驗(yàn)結(jié)果表明,,DSSIM比PSNR更趨近于HVS,,比SSIM更充分地考慮了3D結(jié)構(gòu)信息,,得到更準(zhǔn)確的3D視頻質(zhì)量評價,。
Abstract:
Key words :

摘  要: 針對3D視頻質(zhì)量評價,基于人眼視覺系統(tǒng)HVS提出了一種新的加權(quán)SSIM評測方法,。利用MVD深度視圖空間和時間上的特性,,提取主觀權(quán)值映射,基于SSIM利用權(quán)值映射便得到了基于深度的SSIM加權(quán)算法DSSIM,。實(shí)驗(yàn)結(jié)果表明,,DSSIM比PSNR更趨近于HVS,比SSIM更充分地考慮了3D結(jié)構(gòu)信息,,得到更準(zhǔn)確的3D視頻質(zhì)量評價,。
關(guān)鍵詞: 3D視頻質(zhì)量評價;深度視圖,;權(quán)值映射,;SSIM;3D視頻合成

 近幾年,,多媒體技術(shù)的進(jìn)步使得3D技術(shù)作為下一代傳媒系統(tǒng)而受到了廣泛的關(guān)注,。全球重要的傳媒廣播公司均對3D視頻越來越重視。根據(jù)視頻輸入數(shù)據(jù)的不同類型,,3D視頻可分為Multi-View Video(MVV)[1],、Multi-View Video Plus Depth(MVD)[2-3]以及Stereoscopic View。其中,,MVV包含兩個或多個視圖,,每個視圖包含一個視頻序列,它不包含幾何信息和深度信息,。Stereoscopic View是MVV的一種,,包括兩個視圖。MV由Single-View Video Plus Depth(VPD)合成得到[4],。視頻的紋理信息(Texture Information)和深度信息(Depth Information)在接收端被渲染成虛擬的立體視圖,。深度視圖是一張灰度圖,包含每個像素點(diǎn)的深度信息,,灰度的深淺代表物體距相機(jī)的遠(yuǎn)近,。在利用深度視圖得到新的虛擬視圖的過程中,視頻中物體的圖像被轉(zhuǎn)換到它們應(yīng)當(dāng)?shù)奈恢?。所形成的虛擬立體視圖就像被一個水平位置平行于真實(shí)攝像機(jī)的虛擬攝像機(jī)拍攝的一樣,。MVD格式一直是3D視頻的主要格式。
 隨著3D研究的日益深入,,如何評估3D視頻合成以及編碼傳輸?shù)雀鱾€方面的評估問題也得到廣泛的關(guān)注?,F(xiàn)在,一些針對3D圖像和視頻質(zhì)量的評估方法已經(jīng)在一些參考文獻(xiàn)中被提出,。YASAKETHU S等人[5]使用平面的視頻質(zhì)量評價模型來評價3D視頻,。BENOIT A等人[6]提出了一種融合平面質(zhì)量指標(biāo)和深度失真信息的3D視頻評價模型,。YANG J等人[7]基于圖像的絕對差值,采用一組參數(shù)來衡量圖像的質(zhì)量和視頻的立體感,。這些算法都是基于傳統(tǒng)的平面視頻質(zhì)量評價算法(如分析圖像邊緣特征和差異性),,都集中分析3D靜態(tài)整體圖像,用來評價3D圖像或者視頻,。但是,,它們要達(dá)到很好的效果有一個重要的前提假設(shè),某個特定局部的質(zhì)量非常差,,以至于影響到整體的主觀感知效果[8-9],。比如,用于視頻質(zhì)量評價的峰值信噪比PSNR(Peak Signal-to-Noise Ratio)和均方誤差MSE(Mean-Square Error)都不能正確評價3D視頻質(zhì)量,。這兩種評測方法在一定條件下與HVS有較大的差異性[10],。為了趨近于HVS,設(shè)計更好的3D視頻質(zhì)量評價方法成為研究的一個重要目標(biāo),。
 對于3D視頻,,在產(chǎn)生真實(shí)3D視覺感受和不同物體的遠(yuǎn)近層次感過程中,深度信息是一個重要因素,。參考文獻(xiàn)[11]研究了在VPD合成MVD的過程中,,深度視圖的壓縮對合成后的MVD造成的影響。由未壓縮深度視圖和紋理視圖合成參考MVD,,由壓縮深度視圖和紋理視圖合成測試MVD,,對比參考MVD和測試MVD的PSNR,證明了深度視圖對MVD質(zhì)量的影響至關(guān)重要,。但是文獻(xiàn)并沒有對深度視圖中的信息進(jìn)行提取和優(yōu)化,并且評價MVD的方法也過于粗糙,,沒有利用深度視圖中的信息,,如人眼通常會更加注意近景區(qū)域以及運(yùn)動區(qū)域,而深度視圖與這兩個區(qū)域的信息息息相關(guān),。本文的研究對象正是參考文獻(xiàn)[11]中的參考MVD和測試MVD,。依據(jù)深度視圖,從中提取近景信息和運(yùn)動信息,,組成該視頻的權(quán)值映射,。在此基礎(chǔ)上提出了新的基于深度信息的加權(quán)的SSIM算法,該方法更加符合HVS特點(diǎn),。
1 基于深度的SSIM加權(quán)算法
 MVD由多個視角的VPD合成,,針對MVD視頻質(zhì)量的評價,參考文獻(xiàn)[11]中采用PSNR的算法,,但其主觀趨近性較差,。本文首先用算法簡單,、高效且具備空間結(jié)構(gòu)信息等優(yōu)點(diǎn)的SSIM取代PSNR對MVD進(jìn)行質(zhì)量評價,然后針對SSIM并未體現(xiàn)人眼感興趣區(qū)域的特性,,結(jié)合深度信息提取權(quán)值映射,,對SSIM算法進(jìn)行加權(quán)改進(jìn)。
1.1 深度視圖的壓縮對MVD質(zhì)量影響的評估
 VPD合成MVD結(jié)構(gòu)示意如圖1所示,。兩個單視圖視頻分別為PVDA和PVDB,,它們均由相應(yīng)的深度視頻序列和紋理視頻序列組成。PVDA和PVDB是由固定于同一水平位置,、間距固定的兩個攝像頭拍攝而得到的,。本文使用View Synthesis Reference Software(VSRS)3.0[12]合成MVD,將未經(jīng)過壓縮的深度視圖和紋理視圖合成參考視圖MVDr,,將壓縮的深度視圖和紋理視圖合成測試視圖MVDt,,MVDr和MVDt使用同一來源的深度和紋理視圖,在相同系統(tǒng)中合成而得,,唯一的差別在于深度視圖壓縮與否,。合成視圖的質(zhì)量是通過MVDr和MVDt之間的PSNR來評價的。

1.2 結(jié)構(gòu)相似算法(SSIM)
 考慮HVS的特性,,Wang Zhou等人提出的基于結(jié)構(gòu)度失真的SSIM(Structural Similarity Index)評估方法被廣泛應(yīng)用在之后的各種模型中[13],。SSIM方法認(rèn)為自然圖像信號是高度結(jié)構(gòu)化的。從一個圖像形成的觀點(diǎn)來看,,結(jié)構(gòu)性信息是平均亮度和對比度這些反映場景中物體結(jié)構(gòu)的信息,。這就得到了SSIM算法的核心,即分別考量兩個圖像中相應(yīng)塊的亮度,、對比度和結(jié)構(gòu)信息,,作為評價一個圖像質(zhì)量的方法。定義信號x,、y之間的SSIM為:

 


2 實(shí)驗(yàn)結(jié)果
 本文設(shè)計了一個實(shí)驗(yàn),,用來驗(yàn)證DSSIM在針對含深度信息的3D合成視頻的質(zhì)量評價上,相比于傳統(tǒng)的PSNR,、SSIM都有更好的效果,。參考軟件使用了多視角合成VSRS 3.5, 壓縮使用的是JM15.0,。
本文使用MPEG 3DV測試序列“ballet”(像素尺寸為1 024×768,,幀數(shù)為100,幀率為15 Hz),。圖4是參考的ballet序列,,圖5和圖6均為壓縮測試序列,所不同的是圖5在權(quán)值圖權(quán)值高的部分(近景主體的邊緣毛刺較多)產(chǎn)生了壓縮,,圖6在權(quán)值圖權(quán)值低的部分(遠(yuǎn)景背景較模糊)產(chǎn)生了壓縮,。

 觀察圖4,、圖5和圖6可以明顯看出,MVDt2的視覺效果更好,,即主觀質(zhì)量評價較高,,如圖5左上的圓圈處缺少了舞者頭發(fā)部分,左下的圓圈處缺少了小臂部分,,右邊圓圈處出現(xiàn)了毛刺等,。但是依據(jù)PSNR和SSIM值,MVDt2的質(zhì)量比MVDt1要差,,這正好與主觀感知相反,。只有DSSIM值才能跟隨主觀視覺效果得到MVDt2質(zhì)量較高(DSSIM值較大)的正確評判。
 本文通過提取3D視頻的深度和運(yùn)動信息,,得到了3D視頻的權(quán)值映射圖,。3D視頻中深度信息和運(yùn)動信息是影響視頻質(zhì)量的重要因素,從中也可以提取人眼感興趣區(qū)域的信息,。結(jié)合HVS特點(diǎn),,繼而得到了基于深度的3D視頻客觀質(zhì)量評價方法DSSIM。實(shí)驗(yàn)結(jié)果表明,,在傳統(tǒng)PSNR和SSIM模型都與主觀評價相悖的情況下,,DSSIM依然能夠得到與主觀視覺相一致的結(jié)論。3D視頻對深度感知要求較高,,基于深度的SSIM加權(quán)算法是一種較好的3D視頻質(zhì)量評價算法,。
參考文獻(xiàn)
[1] TANIMOTO M. Overview of free viewpoint television[J]. Signal Processing: Image Communication, 2006,,2(6):454-461.
[2] SMOLIC A,, MULLER K, DIX K,, et al. Intermediate view interpolation based on multiview video plus depth for advanced 3D video systems[C]. Proceedings of International Conference on Image Processing,, 2008: 2448-2451.
[3] MERKLE P, SMOLIC A,, MULLER K, et al. Multi-view video plus depth representation and coding[C]. Proceedings of IEEE International Conference on Image Processing,, 2007(1):I-201-I-204.
[4] MERKLE P,, WANG Y, MULLER K,, et al. Video plus depth compression for mobile 3D services[C]. Proceedings of the 2009 IEEE EDTV Conference,, 2009: 1-4.
[5] YASAKETHU S L P, HEWAGE C,, FERNANDO W,, et al. Quality analysis for 3D video using 2D video quality models[C]. IEEE Transactions on Consumer Electronics,, 2008, 54(4): 1969-1976.
[6] BENOIT A,, LECALLET P,, CAMPISI P, et al. Using disparity for quality assessment of stereoscopic images[C]. ICIP 2008: the 15th IEEE International Conference on Image Processing,, 2008: 389-392.
[7] YANG J,, Hou Chunping, Xu Ran,, et al. New metric for stereo image quality assessment based on HVS[J]. International Journal of Imaging Systems and Technology,, 2010, 20(4):301-307.
[8] PINSON M H,, WOLF S. A new standardized method for objectively measuring video quality[J]. IEEE Transactions on Broadcasting,, 2004,50(3):312-322.
[9] MOORTHY A K,, BOVIK A C. Visual importance pooling for image quality assessment[J]. IEEE Journal of Selected Topics in Signal Processing,, 2009, 3(2): 193-201.
[10] WANG Z,, BOVIK A C. Mean squared error: love it or leave it,? A new look at signal fidelity measures[J]. Signal Processing Magazine, IEEE,, 2009,, 26(1):98-117.
[11] EL-YAMANY N A, UGUR K,, HANNUKSELA M M,, et al. Evaluation of depth compression and view synthesis distortions in multiview-video-plus-depth coding systems[C]. 3DTV-Conference: The True Vision-Capture, Transmission and Display of 3D Video(3DTV-CON),, 2010: 1-4.
[12] TANIMOTO M,, FUJIE T, SUZUKI K,, et al. Reference softwares for depth estimation and view synthesis[DB/OL]. ISO/IEC JTC1/SC29/WG11,, M15377, 2008.
[13] WANG Z,, LU L,, BOVIK A C. Video quality assessment based on structural distortion measurement[J]. Signal processing: Image communication, 2004,, 19(2):121-132.

此內(nèi)容為AET網(wǎng)站原創(chuàng),,未經(jīng)授權(quán)禁止轉(zhuǎn)載。