基于拉普拉斯金字塔的一种图像压缩表示

更新时间:2024-07-04 16:59:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

使用拉普拉斯金字塔作为一种压缩图像编码方式

摘要--我们以形状相同作为衡量的基准,以多种层次来构想出了一种图像编码技术。这种表达方法与已经提出的方法的不同之处在于,编码的基准不仅在于空间中,也在空间频率中。

首先把图像减去一个通过一个低通滤波器的该图像,以此来移除图像中像素与像素间的关系。这种操作的结果是不同或者说错误被压缩为一种网络数据,图像有了更低的方差和信息熵。通过量化不同图像,可以达到进一步的数据压缩。对于通过低通滤波的图像我们重复这些步骤。通过适当的进行这些步骤的重复我们可以得到一个金字塔状的数据结构。

这种编码过程相当于在不同的程度上对图像进行拉普拉斯变换。由是,这种编码增强图像的凸出特征。一种这种表示编码的深远优点在于它不仅适合于图像压缩,也适合于多种图像分析任务。这是一种对于编码和解码锁提出的快速算法。

介绍

一个图像的通常特性是相邻的像素一般都具有高关联。因此单纯使用像素值来表示一个图像的效率是十分低下的:这种编码方式的许多信息是多余的。因此设计一种高效的的压缩编码方式的首要任务是寻找一种有效的解除图像像素之间关系的表示方式。通过预测和变形技术已经达到了这一目的([9][10])。

在预测编制中,像素被按顺序编码为一种栅格格式。然而,在编码每个像素前,先使用之前编码过的相同栅格队列来对像素值进行预测。被预测到的像素值作为多余数据被从现在的像素值中移除,只有不同点和预测错误被编码。由于只使用之前编码的数据来预测每个像素的值,这个过程被视为是有因果的。这种预测因果性的限制促进了解码过程:为了进行解码,只需要对于已经解码的相邻元素进行重新计算即可得到所给像素的预测值,这样就可以弥补预测中的错误。

无因果的基于一个以每个像素为中心的对称相邻的预测,在预测精确性上有着更大的收益,因此在数据压缩上收益也更好。然而,这种方法并不允许简单的连续编码。非因果的方法只特别的适用于图像转化和大批量的同步方程的解。比起按顺序得进行图像编码,这种方式一起或者成区块得对像素进行编码。

预测和转化的技术都有其有点。前者实施较为简单兵器易于使用于局部的图像特点。后者提供更大的数据压缩,但以更大的估算量为代价。

这里我们较少一种新的移除图像关联性的计算方法,这种方法既有预测又有转化方法的特征。这种方法是无因果的,而且此种方法相对比较简单和局部。

对于每个像素的预测值,使用一种以像素本身为中心的单峰的类高斯(或者关联的三峰)加权算法来计算成一种局部加权平均值来得出。对于所有像素的预测值先由对图像以这种方法做计算来得出。结果是一个原图像通过一个低通滤波器后得到的图像,之后,从原图像中减去这一结果。

使用

作为原始图像,

作为添加一个恰当的低通滤波器的结果。预测错误

就可以由下式给出。

比起编码

,我们编码

。这以一个网络数据压缩作为结果,因为a)

的像素所表示。b)

被大幅

度解除相关,并且可能被比特数远少于可以会在一个低取样率下被表示。

是通过了一个低通滤波器的,

进一步的数据压缩可以通过重复这一过程来得到。将通过低通滤波器的个低通滤波器得到

,之后就又得到了第二个错误图像

继续通过一。通过数次

重复这些步骤我们得到了一个二维数组。在我们的实施过程中,每个

图像都比之前的减少了一般的取样密度。如果我们现在假设这些图像一个叠在另一个上,结果就成了一个逐渐变细的数据金字塔结构。金字塔的每个节点代表着两个类高斯或者关联数据与原图想的卷积。这两种计算的不同之处类似于经常在图像放大中经常使用的“拉普拉斯”变换[13]。由是,我们把这种提出的图像压缩表称为拉普拉斯金字塔编码。

上面所描述的编码方式仅在所需要的滤波计算可以以一种有效率的算法运行时才具实际意义。最近已经有一个合适的快速算法被开发出来[2],下一部分我们会对这一算法做出描述。

高斯金字塔

拉普拉斯金字塔编码的第一步是将原始图像们说们用

是一个作为

通过一低通滤波器以得到图像

。我

的“削减过”的版本,因为分辨率和取样率都下降了。使用同样的方式我的削减版本,以此类推。滤波过程通过一个等价于与一系列局部均匀加权计

算中的一个做卷积的方式来进行。这一系列中的一个重要的成员类似于高斯概率分布,所以这一系列图像被称为高斯金字塔。

一种生成高斯金字塔的快速算法将在下一分段中给出。在接下来的分段中我们会展示出这同一算法是如何被用于通过在取样点中插入中间值来“扩张”一个图像数组的。这一装置在这里被用于帮助显示出高斯金字塔的等级内容,在下一部分中则定义拉普拉斯金字塔。 高斯金字塔生成

假设一幅图像最初是由一个有C列R行像素的数组

表示的。每个像素以一个介于0

和K-1的整数值I表示出对应图像相应点的光强度值。这个图像就成为了高斯金字塔的底部或者第零级。金字塔等级1包含了图像(一个减弱过的或者说通过了低通滤波器的

)。

等级1的每个值来自于对等级0的每个5*5区域值做加权平均数。而等级2中的每个值则由对等级1做同样的加权平均。一个这种过程的图解一维表示在图1中被给出。加权计算的规模事先是不确定的[2]。我们选择5*5模式是因为这种模式在低计算量下提供了适当的滤波。

这种等级*等级的平均过程由函数REDUCE表示。

(1)

这代表着,对于等级0

这里N参考金字塔中等级的数目,而方向上节点密度下降了一半。如果整数

,和

是第l等级的规模大小:注意图一中每个和N符合公式:

则原图像的规模是适合于金字塔构建的。(举个例子,如果

是3,N为5,则图像是一个有97*97像素的图像)

的规模为

和都和

图1.一个生成一个高斯金字塔的过程的一维表示,行中的每个点代表着金 字塔的一个等级中的一个点。在第0级的每个点的值就是对应的图像像素 点的灰度值。在更高等级的点的值是其低1级的点值的加权平均。注意点 的空间每一级都会防备,这种同样的加权平均过程或者说“核心构成过程” 也用于生成所有等级。 生成核

注意相同的5*5模式的加权w被用于从他的前身上生成每个金字塔的排列。这一加权模式,叫做生成核,它是受特定的限制而选出的[2]。为了简便我们把w分离开来:

一维的,长度为5的值

被规定为

对应有

一个附加的限制叫做相等贡献。这保证了所有在一个给定的等级上的点给下一个更高级的点提供了相同的权重(=1/4)。让

,并且

。这三个约束在一

。则此时符合相等贡献原则应有

下情况下被满足

等权重式

反复进行金字塔生成过程等价于将原图像与一系列“等权重式”卷积。

或者是

空间位置(X)

图2.高斯金字塔中等级1.2.3和无穷大中节点的等权重函数。注意图像的X轴

为了帮助比较进行了变化。这里生成核的参数a为0.4,这使得等价权重函数类似于 高斯概率密度函数。 等价权重函数的大小

在由一个金字塔等级变化到下一个时将翻倍,采样点距离也是

一样。

高斯金字塔1,2,3的等权重函数在图2中被表示出来。在a=0.4的情况下。权重函数的形状会很快汇集成金字塔高层情况下的外形,所以只有他的规模会起变化。然而,这一兴中并不决定于生成核的a的取值。四种不同a的选择的特征外形在图3中给出。注意等价权重函数仅在a=0.4是类高斯外形的。当a=0.5时,图像会变成三角状。而当a=0.3时他比高斯形状更加宽和平。当a=0.6时图像的中心会更快到达高点并且带有左右两个负数瓣。 快速滤波

将图像与等价权重函数

是把图像模糊化或者说是通过了一个低通滤波器。金字塔算

法每提升1个金字塔等级都会将滤波器频带限制减少八度。这是一种非常快速的算法,比起使用快速傅立叶变换来计算一个滤波后的图像,此种算法计算计算一系列经过滤波的图像仅需要更少的计算性步骤[2]。

例如:图4举例说明了一个以a=0.4构成的高斯金字塔的内容。最左侧是的是原始图像,像素数为257*257.这成为了高斯金字塔的等级0.由于减少了的采样数,每个更高的等级排列在每个维度上都大概比它的上一级小一半。

图3.等价权重函数的形状取决于参数a的选择,a=0.5是,函数是三角状; a=0.4它是类高斯外形的,a=0.3时它比高斯外形要宽。a=0.6时函数是三态的。

高斯金字塔的插入

我们现在定义一个函数EXPAND作为REDUCE函数的反面。它的效果是通过在给定的价

值中内插新的节点值把一个(M+1)*(N+1)数组拓展成一个(2M+1)*(2N+1)数组。由是,EXPAND用于高斯金字塔的排列

假设

并且

和节点i,j

就会得到排列

,与

规模相同。

拓展n次得到的结果。那么

通过EXPAND我们意思是,对于等级

(2)

只有有着(i-m)/2和(j-n)/2形式的才包括在这一加和中。

如果我们对图像

使用l次EXPAND函数我们可以得到

,和初始图像

尺寸相同,

尽管完全展开不会再图像编码中使用,我们会使用他来帮助显示出金字塔构造中不同的排列的内容。通过展开图4中的金字塔等级图5的最高一排显示出图像高斯金字塔的低通滤波影响现在清楚的表现了出来。

图4.对于“女士”图像的高斯金字塔的前六等级 初始图像 等级0,由257*257像素组 成,每个更高的等级排列的维度大致比前者有一半的像素,由是,等级5只有9*9像素

拉普拉斯金字塔

回忆一下我们构造被削减的图像

的目的是它可能成为一个初始图像

减去被拓展的图像

像素值的预

测。为了得到一个压缩过的表达,我们编码一个的剩下的错误图像。

这个图像成为了拉普拉斯金字塔的底部等级。下一等级是以同样的方法编码们现在给拉普拉斯金字塔一个正式的定义,并测试他的性能。

拉普拉斯金字塔生成

拉普拉斯金字塔是一个错误图像字塔的两等级间的差别。由是,对于

得到的。我

的序列。他们中的每个都是对应的高斯金,

由于没有图像

等价权重函数

拉普拉斯金字塔中每个节点的值是两个等价权重函数

和初始图像的卷积的差

作为

的预测图像,我们声明

异。这类似于将一个适当规模的拉普拉斯权重函数和图像进行卷积。尽管计算消耗非常大,

节点值可以通过进行这种操作来得到。

就像我们将高斯金字塔视为一系列原始图像通过低通滤波器所得到的产物,我们也可以将拉普拉斯金字塔视为一系列原图像通过带通滤波器所得到的产物。金字塔层级变化时,拉普拉斯操作的规模加倍,同时通频带的中心频率减少八度。

为了举例说明拉普拉斯金字塔的内容,在样本点中插入是很有帮助的。这也许通过在高斯金字塔的金字塔结构中内插来得到。让

作为使用(2)展开

n次得到的结果。那么

就是原始图像的尺寸。

图4中“女士”图像的展开的拉普拉斯金字塔等级在图5最底行中给出。注意图像特征比如边缘和小节在拉普拉斯金字塔中出现了增强。增强的特点被尺寸分隔开来:在

突出了很好的细节,而更高等级的图像中粗糙的特点逐渐增多。 解码

可以看出原始图像可以通过展开来还原得到,之后将拉普拉斯金字塔的所有等级相加。

(4)

一个更加有效率的过程是将等级0,我们看到

展开一次然后把它加到

上,然后继续这样做直到

就还原得到了。这一过程简单的反转了拉普拉斯金字塔生成的过程。从(3)中

并且对于

信息熵

如果我们假定一幅图像表示的像素值是统计独立的,那么编码这幅图像时每个像素需要的最小比特数就是由像素价值分布的熵给出。这一合适值也许可以在实际应用中通过如可变长度编码等方式来接近。

图像“女士”的像素值直方图在图6(a)中给出。如果我们让观察到的每个灰度等级i出现的频率f(i)作为它在这个和其他类似图像中出现概率的估计,那么信息熵可以由下式给出:

图5.高斯金字塔和拉普拉斯金字塔的前四级,上面一排是通过高斯内插展开图4的金字塔排列得到的。每个拉普拉斯金字塔的等级是两个相应的和更高一级高斯金字塔之间的差异。

图6.编码过程中不同等级的像素灰度分布。原始图像的直方图在(a)中给出。(b)到(e)给出了拉普拉斯金字塔在生成参数a=0.6时等级0-3的直方图。之后的等级的量化直方图在(f)-(i)中给出。注意拉普拉斯金字塔的像素值在0附近集中。

由于图像最初由256个灰度等级来表示在这种情况下最大的信息熵为8,在所有的灰度等级都均等时会出现。对于“女士”的实际估计值要略小于这一值,为7.57.

就像在拉普拉斯金字塔变换中使用的那样,从每个图像像素中减去一个预测值的技术移除了大部分的像素与像素间关系。去相关也同时导致了像素值在零周围集中,同时减少了方差和信息熵。这一减少的程度由生成参数“a”决定(看图7)。在我们的例子中我们发现a=0.6时这种减少效果最大。较之于更小的a值如0.4(会生成更多的等权重函数)在以这一a值构建高斯金字塔时它的等级呈现出“保鲜”的效果。因此,选择a=0.6同时具有感知的和计算的有点。对应的拉普拉斯金字塔和他们的直方图在图6(b)-(c)中给出。方差(

和信息熵(H)也在每级中给出。这个例子中,我们可以发现这些量化的值在等级到等级间提升。

量化

信息熵在通过对拉普拉斯金字塔的每级像素值做量化时会大幅减少。这就引出了量化错误,但通过合适的量化等级数字和分布的选择这一错误可以被减少至几乎无法被人观察到的程度。我们使用统一的量化来举例说明这一过程。像素值的范围被分进尺寸为n箱子中,像素

的量化值

正好是包含

的箱子的中心值

(5)

图7对于“女士”图像生成参数为“a”时像素值的信息熵和方差。当a=0.6时下降最大,对于金字塔的其他等级同样有此结论

图8 在拉普拉斯金字塔编码下图像数据压缩的例子 (a)和(c)给出了原始的“女士”和 “Walter”图像,而(b)和(d)给出了他们对于“女士”和“walter”数据率分别为1.58和0.73bits/pixel的编码版本。分别对应方形错误为百分之0.88和百分之0.43

使用C值而非L值,通过展开和加和过程(4),量化的图像得以重现。

量化图像“女士”的结果在图6(f)-(i)中给出。每一级的箱的大小由一个上升的n得到,直到退化已经在约为图像五倍宽度的距离时能被人察觉到。注意箱的大小在高金字塔等级时更小(更小的空间频率)。一个给定的金字塔等级的选择的箱的大小反映了人类对于

那个等级代表的空间频带的对比错误的敏感度。人们对于低或者中等空间频率的对比扰动很敏感,但对于比较高频的扰动如[3][4][7]则相对不敏感。

上面提出的增强过的观察者的敏感度和增强过的数据差异意味着更加量化的等级必须在金字塔的高等级采用。幸运的是,由于他们的低采样率那些像素对于图像的全部比特率影响不大,可以粗略量化(cf.[6][11][12]).

结果

编码的最后结果,量化,和重建在图8中展示出来。原始图像“女士”在图8(a)中演示出来,以1.58比特/像素编码的版本则为图8(b)。我们假定可变的编码长度在不均匀的节点值分布中受益,所以对于一个给定的金字塔等级,他的比特率等于他的估计信息熵乘以它的采样密度,而图像的比特率是它对应金字塔所有等级采样率之和。对于“Walter”图像我们采取了同样的处理。原始图像在图8(c)中给出。而以0.73比特/像素编码的图像则在图8(d)中给出。对于这两种情形,编码的图像在规定的观察距离上几乎无法被人类察觉出不同。

改良传输

同样应当注意的是拉普拉斯金字塔编码对于改良图像传输同样有着很好的适应性。在这种传输方式中,首先给接收器一个原始图像的粗糙版本以提供一个图像内容的印象,之后接着传输有着优良分辨率的图像细节[5]。观察者可以在发现图像内容已经可以被识别或者并不是他感兴趣的内容时立刻终止传输。为了达到改良的传输,先输送图像金字塔的最顶层,然后将收到的金字塔编码展开成一个初始的非常粗糙的图像。之后传输下一层图像,展开,再加和到第一层上,以此类推。在传输接收端,初始图像显得很粗糙,但之后开始稳步变清晰。这一过程在图9中举例说明。从左至右。注意对于完整图像每个像素需要1.58比特(最右图片),而倒数第二张每个像素只需要0.81比特,差不多是这一值的一半(右侧第二张),再往左则只需要0.31比特每像素(右侧第三张图像)。

图9. 拉普拉斯金字塔编码应用于改良图像传输。金字塔的高等级首先被传输给接受器以提供一个非常快速但是粗糙的图像。但是之后随着后几层的金字塔数据的传输图像逐渐得到改善。在这个展示的例子中,最左端的图像使用了金字塔的4-8级,或者说0.03比特/像素。之后四张图像显示出加上等级为3 2 1 0的金字塔层级后重建出的图像。累加的图像率在下面给出。

总结和结论

拉普拉斯金字塔是一种对于多种图像处理过程都有着吸引人的特性的多用型数据结构。它把图像表示成一系列的相似带通处理的图像,每一个在相继的稀疏密度下采样。这使得编码结果形成了一种自相似的结构,在空间和空间频率上都显得很小。通过适当的选择编码和量化计划的参数,可以充分的减少表示的信息熵,而且尽可能地使人察觉不到图像的失真。

图10表示出了拉普拉斯金字塔编码的步骤。最左侧是第一步,即自上而下的构建高斯金字塔图像

[见(1)].之后则通过相邻的高斯金字塔的不同来构建拉普拉

斯金字塔[见(3)].这些图像之后被量化来得到以金字塔值表示的压缩

过的编码[见(5)].最终,图像通过使用C数值而不是L数值以展开和加和步骤[见(4)]得以重建。这里我们用

来表示重建的图像。

也应注意到拉普拉斯金字塔编码计划需要相对简单的计算量。计算都是本地的并且可以平行运算,从前一级来生成下一级金字塔的计算都是重复的。我们可以想象在一段时间后完全可以使用流水线和队列处理器来计算金字塔的编码和解码。

还有一个可以预见的附加优点是在计算拉普拉斯金字塔时自动加入重复带通版本图像的。在这些带通表示中,不同尺寸的特点被加强并且易于应用于不同的图像处理过程(例如[1])和模仿识别任务。

引用

[1] K. D. Baker and G. D. Sullivan, ''Multiple bandpass filters in image processing,\Proc. IEE, vol. 127, pp. 173 -184, 1980.

[2] P. J. Burt, ''Fast filter transforms for image processing,'' Computer Graphics, Image Processing, vol . 6, pp. 20-51, 1981.

[3] C. R. Carlson and R. W. Cohen, \Res., Tech. Rep., Contr. N000l4-74-C-0184, 1978.

[4] —, ''A simple psychophysical model for predicting the visibility of displayed information,'' Proc. Soc. Inform. Display, pp. 229-246 1980.

[5] K. Knowlton, \transmission of grayscale and binary pictures by simple, efficient, and lossless encoding schemes,\Proc.IEEE, vol. 68, pp. 885 - 896,

1980.

[6] E. R. Kretzmer, \representation of television signals,\in IRE Nat. Conv. Rec., 1956. pp. 140-147.

[7] J. J. Kulikowski and A. Gorea, \adaptation to patterned stimuli: A necessary and sufficient condition for Weber's law for contrast, \Vision Res., vol. 18, pp. 1223-1227, 1978.

[8] A. N. Netravali and B Prasada, \quantization of picture signals using spatial masking,'' Proc. IEEE, vol. 65, pp. 536-548, 1977.

[9] A. N. Netravali and J. O. Limb, ''Picture coding: A review,'' Proc.IEEE, vol. 68, pp. 336-406, 1980.

[10] W. K. Pratt, Ed., Image Transmission Techniques, New York:Academic, 1979. [11] W. F. Schreiber, C. F. Knapp, and N. D. Key, \TV bandwidth reduction system,\J. Soc. Motion Pict.Telev. Eng., vol. 68, pp. 525-537, 1959.

[12] W. F. Schreiber and D. E. Troxel, U. S. Patent 4 268 861, 1981.

[13] A. Rosenfeld and A. Kak, Digital Picture Processing. New York:Academic, 1976.

作者

Peter J. Burt (M’80) received the B.A degeree in physics from Harvard University, Cambridge, MA,in 1968, and the M.S. and Ph.D. degrees in computer science from the University of Massachusetts, Amherst, in 1974 and 1976, respec-tively From 1968 to 1972 he conducted research in sonar, particularly in acoustic imaging devices at the USN Underwater Sound Laboratory, New London, CT and in London, England. As a Postdoctoral

Fellow, he has studied both natural vision and computer image understanding at New York University, New York, NY (1976-1978), Bell Laboratories (1978-1979), and the University of Maryland, College Park (1979-1989). He has been a member of the faculty at Rensselaer Polytechnic Institute, Troy, NY, since 1980.

Edward H. Adelson received B.A. degree in physics and philosophy from Yale University, New Haven, CT, in 1974, and the Ph.D degree in experimental psychology from the University of Michigan, Ann Arbor, in 1979.From 1979 to 1981 he was Postdoctoral Fellow at New York University, New York, NY. Since 1981, he has been at RCA David Sarnoff Research Center, Princeton, NJ, as a member of the Technical Staff in the Image

Quality and Human Perception Research Group. His research interests center on visual processes in both human and machine visual systems, and include psychophysics, image processing, and artificial intelligence.

Dr. Adelson is a member of the Optical Society of America, the Association for Research in Vision and Opthalmology, and Phi Beta Kappa.

本文来源:https://www.bwwdw.com/article/otl.html

Top