中国科技在线 - 数字视频修复技术综述

更新时间:2023-10-21 15:49:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

http://www.paper.edu.cn

数字视频修复技术综述1

梁敏,王兆仲

北京航空航天大学图像处理中心,北京 (100191)

E-mail:liangmin@sa.buaa.edu.cn, zwang@buaa.edu.cn

摘 要:视频修复技术是指去除视频中特定的物体,对视频中缺损的部分进行填充等,以使修复后的视频能够得到良好的视觉效果。本文首先对视频修复问题的概念及其与图像修复的关系进行了描述;接着根据摄像机静止或运动的情况将视频修复问题分为两大类进行讨论:一类为摄像机静止条件下的视频修复问题,主要包括基于优先级和样本的视频修复,基于跟踪的视频修复等方法;一类为摄像机运动条件下的视频修复问题,包括摄像机运动平行与画面时的视频修复,基于采样和配准的视频修复等;最后阐述了视频修复问题的应用领域。 关键词:视频修复;可跟踪性;运动状态;全景图像;运动的采样;运动的配准 中图分类号:TP391.41

1.引言

数字图像修复技术是指去除数字图像中的特定物体,文字或划痕,对图像中由于压缩或无线传输等原因造成的缺损区域进行填充等,以使整幅图像呈现良好的视觉效果。图像修复利用待修复图像中完好区域的信息,通常是待修复区域的边缘或邻域,通过扩散或复制等方式,对待修复区域进行填充。

随着视频技术的发展和广泛应用,视频修复技术越来越受到研究者的关注。由于视频是在图像内容和信息上相关的图像的集合,是一系列图像在时间维度上的演化,因此数字图像的修复方法可以很自然的推广到视频的修复[1]。但若直接对视频中的每帧图像单独使用修复单幅图像的方法进行处理,就不能充分利用这些图像在时间上的相关性,不能保证视频的连续性。因此,视频修复与单幅图像修复的不同在于,除了考虑空间上的信息,即本幅图像的信息之外,更需利用时间上的,即其它帧中的信息进行各帧的修复,使得这个视频的信息保持时间上的一致性。

2.数字图像修复技术

从数学角度来看,图像修复就是要根据待修补区域周围的信息将图像填充到待修补区域中[2]。

如图1所示,设I为一副图像,?为信息丢失的待修复区域,?为图像中完好的可利用的图像部分。图像修复的问题即用已知信息?填充区域?,使整幅图像取得良好的视觉效果。

数字图像的修复技术已基本建立,主要包括三类。一类是Bertalmio等在[1]提出的基于偏微分(PDE)模型的修复技术,其主要思想是利用各向异性的扩散,沿着等照度线的方向,将待修复区域的边缘信息传播到待修复区域以完成图像的修复[3] [4]。这种方法可以同时填充包含完全不同的结构和背景的区域,对图像的拓扑结构没有限制,但只利用了图像的局部数据,适用于小尺度的,纹理结构单一的图像的修复。

一类是Criminisi等人在[5]中提出的基于样本的图像修复方法,以块(patch)为单位,根据优先级,通过寻找最佳的匹配块的方式,顺序对待修复区域进行填充。该方法同时进行 1

本课题得到国家自然科学基金项目(项目编号:60803071)和教育部博士点基金项目(项目编号:200800061067)的资助。

-1-

http://www.paper.edu.cn

纹理和结构的修复,优先级的设计有利于保持待填充区域的线性结构,且减少了与扩散有关的模糊现象,有效地利用了图像信息,适用与修复面积较大的缺损区域。但该算法不能用于曲线结构的修复,且较依赖于图像的纹理信息[6]。

另一类是基于图像分解的修复技术,该方法将图像分解为两个部分,一部分为结构部分,一部分为纹理部分,结构部分利用基于偏微分模型的修复技术进行修复,纹理部分利用纹理合成方法进行填充,两部分同时修复,最后再合并起来得到已修复的图像。这种方法将图像分解,图像修复和纹理合成三种技术结合起来,比单独使用图像修复或纹理合成相比,能得到更好的结果[7]。

图1 图像修复模型

图2 图像修复:去除图像上的文字(该图片来自文献[3])

图3 视频修复模型

3.视频修复问题的描述

-2-

http://www.paper.edu.cn

视频修复就是利用视频体内的已知信息区填充未知部分的过程。对于给定的视频V,待修复的目标区域T为时间空间上的洞(hole),完好的区域为S?V\\T,视频修复的目标就是利用已知的完好区域S中的信息填充待修复区域T,得到修复后完整的视频V。为了使得新视频具有良好的视觉效果,V必须最大限度地满足视频各帧在时间和空间上的连续性[8][9]。

视频修复问题可以根据获取视频时摄像机运动或静止的情况分为两类:一类是摄像机静止情况下的视频修复问题,这时视频的背景是静止物体或动态变化的场景,如波浪等;另一类是摄像机运动情况下的视频修复,这时视频中不仅前景目标是运动的,例如行走中的人,行驶中的汽车等,视频中的背景由于摄像机的运动也呈现运动的特征。摄像机的运动可能包括平移,缩放,旋转等。下面就分别对这两类中主要的视频修复方法进行介绍。

**4.摄像机静止情况下的视频修复

4.1 基于优先级和样本的视频修复

文献[10]将文献[5]中提出的关于图像修复的优先级的概念和基于样本的修复方式应用到视频修复中。

该方法首先使用了基于光流的掩膜检测视频中的每个像素点是运动的还是静止的,从而将视频分割为静止的背景和运动的前景两个部分,分别进行修复,这种方式是视频修复的一种常见方式。 4.1.1 背景修复

修复背景时,首先在整个视频中找到具有最高优先级的像素点的位置,设p为待修复的像素点p???, 优先级的定义为P(p)?C(p)D(p)。其中C(p)为置信度项,它的定义和更新方式与单幅图像不变,表征在像素点p的周围邻域内有效像素点的比例,即空间信息的有效性。D(p)为数据项,表征在邻近几帧相同位置处有效像素点的比例,即时间信息的有效性。

当找到具有最高优先级的像素点位置及其所在的帧后,应用基于样本的修复方法,从当前帧的邻近帧中搜索最佳匹配,修复当前像素点所在的块。这种利用其他帧中的信息进行修复的方式称为基于时间信息的填充。

当D(p)=0,?p???时,意味着在视频的所有帧中,没有相应的信息可以复制到p点,即点p所对应的位置在所有视频帧中都是需要修复的,因此我们只能采用基于空间信息的填充,这与单幅图像的基于样本的修复方式相同,需要注意的是,得到的最佳匹配被复制到视频中所有帧的相同的位置,以保持背景在整个视频中的一致性。 4.1.2 前景修复

运动的前景是逐帧进行单独修复的,即在当前帧中寻找具有最高优先权的像素点,然后在视频帧中完好的属于运动的前景的区域中搜索最佳匹配块,并进行复制。文献并未提出缩小搜索区域的方式。

在搜索最佳匹配时,相似度以SSD距离为量度。在距离计算中用到了一个五维的向量,其分量为颜色分量R G B和光流分量 Vx,Vy。其中Vx?IIt,Vy?t,I为灰度图像,IxIy-3-

http://www.paper.edu.cn

ItIxIy分别为灰度图像在时间,水平和垂直方向上的导数。在相似性计算中引入光流信息,

有利于保证时间的连续性。

4.2 基于跟踪的视频修复

4.2.1 算法特点

文献[11]提出了一种基于跟踪的视频修复方法,其算法的主要特点:一是利用mean-shift算法跟踪运动物体,在定义优先级和选择搜索区域时充分利用运动物体的可跟踪性信息,使得运动物体先被修复,且减少了每个目标块对应的搜索区域;二是当搜索得到待修复块的最佳匹配的块后,除简单地将最佳匹配块中对应于待修复块缺损部分的像素点的值进行复制外,还利用graph cut算法对两个区域的边界进行融合,减少边界上像素值的差异。 4.2.2 优先级的定义

在定义优先级时,与3.1中的方法类似,文献[11]也考虑了两个因素,一是在目标块中包含的已知像素的个数IT,二是目标块中可追踪的未知像素的个数CT,可追踪性是指该像素点的邻域包含已知的可跟踪的运动物体,即保证包含运动物体的那些区域先被修复。最终,优先级(merit)的定义为OT?IT?kCT,其中k?[2,3]以突出可追踪性的重要性。 4.2.3 搜索区域的选择

在待修复的目标块选定之后,根据目标块可追踪的情况,选择合适的搜索区域。若目标块是不可跟踪的,它在整个视频中的颜色和纹理不发生改变,属于静止的背景,则该目标块的搜索区域就可以指定为该目标块所在的帧。若目标块是可追踪的,它在整个视频中是动态变化的,属于运动的前景,则可以利用mean-shift算法跟踪这个目标块所在的邻域,得到视频每一帧中该邻域的位置,组成目标块的搜索区域。

除了上述方法确定目标块的搜索区域之外,该算法还利用时间信息的连续性,在当前搜索区域的基础上增加了一个附加的搜索区域R。如果在前面的修复步骤中,用原区域S1来修复目标块T1,就将T1对应于S1这一信息记录到列表L中。当修复新的目标块T2时,就可以查找列表L,检查有没有已被修复的目标块和当前目标块T2存在空间上的重叠或在时间上的邻近。例如,若T2恰巧在T1的前一帧,那么很有可能T2的最佳匹配S2就在S1的前一帧,这时就添加S1的前一帧的相关区域作为附加的搜索区域。

4.3 基于时间空间的视频修复

文献[12]提出将视频修复问题转化为带有一个目标函数的全局最优化问题,保证修复后的视频和原视频中完好部分具有最大的全局的视觉一致性。

该算法不区分静止的场景和运动的物体,而是对两者同时进行修复,修复的准确性建立在较大的计算量的基础上。该算法特点:1)考虑每个包含待修复像素点的时间-空间块,计算量很大;2)能够用于修复较大的包含复杂结构的动态场景;3)可用于修复那些在完好区域中不存在对应匹配的待填充区域。

对于每一个待修复的像素点p,算法不仅考虑以点p为中心的时间空间块Wp,还考虑

i所有包含点p的同样大小的时间空间块Wp。例如,当选择时间空间块的大小为5?5?5时,

除了点p位于中心位置的那个块之外,还有124个时间空间块包含像素点p,这125个时间

-4-

http://www.paper.edu.cn

ii空间块都需要在D中搜索最佳匹配Vp。最终点p的像素值c决定于这一组最佳匹配Vp在对i应于点p位置处的像素点的值c,如公式(7),其中wip为权值。

?wcc??w4.4 基于人的运动状态的修复

iiipiip(1)

文献[13]针对运动目标是人,且为周期运动的情况,提出对人的运动状态进行描述和分类,并以此为依据进行运动的人体的修复。

在运动状态描述的阶段,人工地选择运动的人体的关节处为特征点,例如头,肘,膝盖等7个特征点。选取,以该参考点为原点建立极坐标系,计算其他特征点相对原点的角度

?1,?2??6。则运动状态向量为:Vi?(tg?i1,tg?i2?tg?i6),其中i表示第i帧。

在对运动状态进行描述之后,每一帧完好的图像都对应一个运动状态向量,可以利用基于K均值的聚类方法对各帧中运动物体的运动向量(状态)进行分类。其中距离的定义为:

D(i,j)??wf?if??jfi?16(2)

其中wf为权值,由于各特征点的位置在决定人的运动状态时的贡献不同,如腿部特征点贡献较大,因此可根据权值调节各特征点的贡献。

根据运动的周期性和运动状态分类的结果,我们就可以对待修复的视频帧的运动状态进行预测,选择合适的搜索区域进行视频修复。

图4 运动状态向量(该图片来自文献[13])

5.摄像机运动情况下的视频修复

5.1 基于摄像机运动平行于画面时的视频修复

文献[14]摄像机的运动平行于场景,这一限制保证了各帧图像间同一物体的大小基本不变,同一段视频中的各帧之间的内容就可以互为参考,互相修复。

在前期处理阶段,通过使用块匹配的方法,将每一帧图像和它的下一帧做比较,计算每个块的运动速度,用整幅图像的平均速度代表摄像机的运动,再用每块的速度减去摄像机的运动,据此分割出运动的前景和实际上静止的背景。然后,根据计算和分割的结果,利用摄像机的运动将视频各帧图像的相关信息按顺序排列起来,建立前景、背景和光流三幅全景图像。

在修复前景阶段,首先计算当前帧各点的优先级,找到具有最高优先级的位置p。然

-5-

本文来源:https://www.bwwdw.com/article/dlgf.html

Top