HUGO 隐写算法 外文翻译

更新时间:2023-04-12 21:41:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

使用高维图像模型完成高难检测隐写技术

使用高维图像模型完成高难检测隐写技术Using High-Dimensional Image Models to

Perform Highly Undetectable Steganography

学院(系):

专业:

学生姓名:

学号:

指导教师:

完成日期:

–1–

使用高维图像模型完成高难检测隐写技术

使用高维图像模型完成高难检测隐写技术

Tomá? Pevny1, Tomá? Filler2, andPatrickBas3

[1]捷克理工大学

[2]纽约州立大学

[3]法国国家科学研究院

摘要:本文提出了一套完整的方法论,来设计用于数字媒体的实用性高度隐蔽隐写系统。其中主要的设计原则是使用高效编码算法使适当定义失真最小。分析者将失真定义为特征向量的加权差,该特征向量已在隐写分析中使用。通过“保留”分析者使用的模型,更大的负荷量都难以察觉。即使所使用嵌入器特征集的维数大于107,这个框架也可以有效地实现。高维模型对于避免已知的安全弱点很有必要,因为此种模型将会给隐写分析带来问题,这也是高维模型能够在隐写术中使用的原因。本文介绍了HUGO算法,其为一种新的空域数字图像嵌入算法,并对比其与LSB匹配算法性能上的差异。基于BOW2图像库,可以看到在相同的安全级别下HUGO算法的隐藏能力是LSB匹配算法的7倍。

1 引言

囚犯模型中,Alice和Bob之间进行隐秘通信的主要目的是传送一个隐藏了秘密信息的普通物体,而不让监狱长Eve检测到。如果一个隐写系统的载体分布与隐密分布完全匹配,则称其为完全安全的系统。“cover generation”针对这个问题提出了解决方案,但这种解决方案要求对载体的概率分布有确切地了解。而在实践中,载体的概率分布很难从实际的数字媒体中获取。最常用且最实际的解决方法是通过制造小扰动来隐藏信息,并希望这些扰动能被图像噪声覆盖掉。

数字图像中最流行的嵌入方法之一是最低有效位(LSB)替换法,该算法将个别载体元素的最低有效位被替换成信息比特。但人们很快意识到,这种嵌入操作导致的不对称性成为一个潜在的弱点,因此促进了高精度针对性隐写分析仪的发展,所以这种方法的安全有效载荷几乎为零。

将LSB替换法简单改进,就是LSB匹配算法(通常称为±1嵌入法)。该算法将像素值随机地±1,使得像素的最低有效位与秘密信息相对应。尽管与LSB替换方法类似,但LSB匹配算法很难被检测,因为该算法的嵌入操作变得平衡。实践证明,当只利用单个像素中的信息

–2–

使用高维图像模型完成高难检测隐写技术

时,LSB匹配算法是最接近最优的方法。LSB匹配算法最大的缺陷是假设了像素与像素之间的图像噪声相互独立,但在自然图像中这种假设往往不成立,检测器也常常利用这一缺陷来进行检测。

通过对空域隐写术的简短综述,可以很清楚地看到这些嵌入算法是不安全的,主要是因为这些方法使用的图像模型不够普通,而且一些边缘和连接处图像的统计特性也没有保存。本文提出了一种新颖的方法来设计隐写算法,通过使用非常普遍且高维的模型,隐写算法变得更为安全,这种高维模型涵盖了自然图像中存在的各种依赖关系。

该方法以嵌入影响最小的原则为依据,这一原则会在第二节当中介绍。基于这一原则就可将图像隐写算法的设计分解成图像模型的设计和编码器两部分,因此使用更好的编码器或是使用更好的模型都能使隐写算法得到提高。所以,图像模型成为系统设计最重要的部分之一,第三节重点介绍了这一问题。经分析,如果拓展后的隐写分析特性能够避免对特定隐写分析仪的过度拟合,就能用来设计隐写模型。尽管这样隐写模型的维数很大,但对于隐写术来说,高维模型并不构成问题。在第四节中,通过构造基于SPAM(Subtractive Pixel Adjacency Matrix)特性的一种新型空域隐写算法,验证了本文提出的方法。通过实验,研究者针对所提出这一方案的安全性和各个设计元素对安全性的影响得出了结论,详见第五章。

本文中提到的思想可以在之前的技术手段中看到。(a)几乎所有隐写算法的目标都是使失真最小,从而保留一些图像模型。图像模型不仅可以从图像本身得到(如F5算法及其改进算法,基于模型的隐写术,等等),也能从量化引入的误差中得到。后一类的算法(MMX[19]及其改进算法[25],PQ[12]等)使用高质量图像中的“边缘信息“,这些是不提供给接收方的(和Eve)。(b)许多算法(F5 [30], nsF5 [13], MMX [19]和[25])已经开始利用各种各样的编码方案来使得失真最小。早期的方案(如F5和LSB匹配算法)使用编码来使嵌入的变化量最小,而MMX算法允许有比最优值更大的嵌入变化量,来减少总体的失真。因此,MMX 可以看做通过编码的手段使得本地内容自适应嵌入的算法,这与本文提出的方案很接近。

相对于上述的成果来说,本文的主要贡献如下:(a)提倡在隐写术中使用不可用于图像隐写分析的高维图像模型。(b)将图像模型和编码算法分开,通过模拟最优编码,并在没有编码影响的情况下对比图像模型。此外,当在嵌入过程中同时考虑所有像素时,消息还能隐藏在图像中难以进行信息隐藏检测的部位。

该方案可以当成自适应算法,但是在通常使用的方法中此方案却不是自适应的,当选定第一个合适的像素[14,9,8](如在有噪和纹理的区域的像素)后,只要修改所选择的像素即可,而不用将消息插入图像(例如,使用湿纸码)。该方案总是使用全部的像素用于嵌入过程,但像素的变化率与像素变化的可检测性成反比。

–3–

使用高维图像模型完成高难检测隐写技术

–4– 文中使用了以下表示法,小写的黑体符号用来表示向量,大写的黑体符号用来表示矩阵和可能的张量。符号{}21255,...,0)(n n ij x ?=∈=χX 和χ∈=)(ij y Y 专门用来表示个像素的载体

图像和隐密图像的强度。为了简单起见,有时用一位数来做像素的索引值,n i i x 1)(==X 与隐

写图像n

i i y 1)(==Y 同理。

2 嵌入失真最小化

几乎所有实用的数字媒体隐写算法都追求使自组嵌入失真最小[11,6],如果适当地定义,失真与可检测性是相关联的。在其最简单的形式中,嵌入失真仅仅指像素值改变的数量(被称为矩阵嵌入),但是应考虑更多常规的形式。一般情况下,嵌入失真由一个非负的失真度量值[]∞→?,0:χχD 来表示。在嵌入过程中,该算法需要找到一个隐密图像Y 既能传递给定的消息,又能使得的值最小,但此问题在实际情况下一般很难解决。

基于这一原因,为了更好的研究文中做了以下几点约束:(a) 二进制嵌入变化,也就是|xi?yi|≤1, i ∈{1,...,n} (b)该形式下的失真度量值具有可加性

||),(1i i n

i i y x D -=∑=ρY X (1)

常数0≤ρi ≤∞是表示像素变化导致失真量的固定参数,ρi =∞时该像素即为所谓的湿润像素,湿润像素不允许在嵌入过程中进行修改。值得注意的是,失真函数D 的可加性也隐含了嵌入变化之间没有相互作用这一条件,这是一个合理的假设,特别是当嵌入率很低且嵌入的变化之间相隔甚远时。但是有一种重要的失真测量不可以写成这种形式,这种情况将在第四节介绍。

对于可加的失真函数(1),下面的定理[1]给出了在n 个像素的载体中嵌入m 比特的信息时得到的最小的期望失真。

定理 1 ()n i i 1==ρρ , ∞≤≤i ρ0为可加失真度量(1)的集合,其中{}n i ,...,1∈。

)0(n m m ≤≤为使用二进制嵌入操作时所需传递的比特数。最小期望失真为下面的形式

()i n i i p n m D ρρ∑==1min ,, , 其中i i

e

e p i λρλρ--+=1(2) 为第i 个像素改变的概率。参数λ通过下式求解得到 :

使用高维图像模型完成高难检测隐写技术

–5– ()m p p p p n

i i i i i =--+-∑=122

)1(l o g )1(l o g (3) 定理1的重要性体现在图像模型(根据需要计算常量i ρ)和实际中实施的编码算法

的分离中。通过这种分离,使用更好的编码或是使用更好的图像模型都能得到一个更好的隐写算法。其中一个重要的结论是,为了研究图像模型对隐写通信安全性的影响,编码算法是完全不需要的。最佳编码可以通过使用式(2)中定义的概率p i 来改变每一个像素进行模拟。使用第4节中的分离原则可以找到一个好的图像模型得到嵌入代价i ρ,关于实际编码方法引入损耗的研究也包含在内。

3 从隐写分析到信息隐藏

几乎所有最先进的统计类隐写分析方法(不包括LSB 替换的隐写分析算法)都是基于隐写分析特征和模式识别算法的结合。在隐写分析中,隐写分析特征用来减少所有载体的空间维数,这样模式识别算法就能在减小的特征空间中识别载体与隐秘对象之间的差异。使用低维模型来设计隐写术通常会导致一个特定特征集的过度训练。确定嵌入代价i ρ时,这些特征可以作为图像模型的前身。尽管文中只展示了空间域隐写术中从隐

写分析特征到隐写模型的一个转变,但这里提出的观点和工具同样适用于有着其他隐写分析特征的其他域。

文中首先回顾了最近提出的用SPAM 特征[22]来检测空间域和变换域隐写术的方法。然后讨论了隐写模型与隐写分析特征过度拟合的问题以及通过扩展模型,性能超过现有模式识别算法的补救算法。最后提出了一种简单的方法来识别模型中对隐写分析更为重要的部分。

3.1 SPAM 特征

众所周知,自然图像中邻域像素的价值在于它们彼此不独立,而邻域像素的不独立性由自然图像本身的平滑性以及图像获取装置的图像处理过程(拼接、锐化等)所致。图像处理过程产生噪音,原始传感器的输出中噪音是独立的,但在最终的图像中噪声并不独立。后者的依赖性对隐写分析来说非常重要,因为人们在对图像进行隐写时会试图将失真隐藏在图像噪音中。

SPAM[22]特征模型依赖于相邻像素间的高阶马尔可夫链,高阶马尔可夫链提供了一个图像噪声的低维模型用于隐写分析。差的计算可以看作是高通滤波器的一个应用,

使用高维图像模型完成高难检测隐写技术

–6– 这能有效地抑制图像内容并突出噪音。SPAM 特征用于检测大范围隐写算法的成功验证了该模型用于隐写分析和隐写术的合理性。

SPAM 特征模型将相邻像素之间的可能关系变成了8个方向{←,→,↓,↑,↖,↘,↙,↗}。以下对特征计算的解释都是在水平左到右方向上的,其他方向的计算仅仅是索引不同而已。所有特定方向变量都由一个显示该方向的上标来表示。

χ∈I 表示一个大小为21n n ?的图像。首先计算差值矩阵?D ,在水平方向上

1,+→-=j i ij ij I I D ,其中{}1,...,1n i ∈,{}1,...,12-∈n j 。根据特征所需的阶数,文中不仅用到了一阶马尔可夫过程,

)|(211,21d d P ij j i r d d ===→→+→D D M (4)

还用到了二阶马尔可夫过程

),|(321,12,321d d d P ij j i j i r d d d ====→→+→+→D D D M (5)

其中{}T T d i ,...,-∈。最后计算水平垂直矩阵和对角线矩阵各自的平均值,构成最终的特征集。平均值写成下列形式:

[]↑?↓

?←?→??+++=M M M M F 4

1,...,1k , []

↗↙↖↘

2,...,141?????++++=M M M M F k k (6) 式中,计算一阶特征值时,2)12(+=T k ;计算二阶特征值时,3

)12(+=T k 。[22]中,作者在计算一阶特征值时,T=4(产生了162种特征);计算二阶特征值时,T=3(产生了686种特征)。

3.2 分解SPAM 特征

二阶SPAM 特征使用条件概率作为像素差值的模型,但其基本组成部分其实是共生矩阵

),(21,121d d P j i ij r d d ===→+→→D D C , (7)

),,(32,21,1321d d d P j i j i ij r d d d ====→+→+→→D D D C . (8) 很容易证明,T=3时二阶SPAM 特征可直接从集合

{}{}

33-↗↖,,|,32121≤≤↑→∈i k d d d k

d d d k ,,C C

使用高维图像模型完成高难检测隐写技术

中获取。事实上这组(4×(343+49) = 1568个)共生特征只在检测LSB匹配算法时略逊一筹,这是由于每个维度的训练样本比例较小(称为维数灾难)。从这一点来看,用于导出嵌入代价iρ的失真度量应设计成用于保留共生矩阵(7)和(8),因为共生矩阵的保留意味着二阶SPAM特征的保留。

尽管保留SPAM特征的想法很有吸引力,但对于失真的测量还不够简便。这种新方案与一种特别的隐写分析方法联系紧密,因此只要稍微修改特征就能检测到。DCT域中失真测量与一种需要完整特征集的特定隐写分析算法的“过度拟合”问题已经在[20,27]中描述了。文中通过增加覆盖差异T的范围,将一个特殊模型进行扩展,超出实际当中隐写分析的限制来解决它的过度拟合问题,这一点在共生矩阵中很容易实现。

对隐写术和隐写分析来说,重要的是明确模型维度对各自的影响。隐写分析中的高维模型给后续的机器学习带来严重问题,祸因就是维度和相关过拟合。尽管训练样本的数目和模型维度之间的实际比率依赖于所使用的机器学习算法和所要解决的问题,但是经验法则要求样本数是模型维度(特征数目)的十倍以上。这些缺点限制了隐写分析中高维模型的使用。相比之下,隐写术中使用高维模型就不会引起问题,因为不涉及统计学习。载体图像提供了需要被保留的确切模型,因此维数不会造成影响,这也证明了隐写术中使用高维模型的合理性。

一个重要的细节是更新共生矩阵来反映像素的变化比更新条件概率容易得多(前者涉及的只是矩阵几个项的加法和减法,而后者涉及了矩阵大部分的除法)。共生矩阵的高效更新能够模拟像素之间的大幅差异(使用大的T值),因而也能模拟图像中的最大差异(更好地保留SPAM特征)。

3.3 识别模型中可检测的部分

在理想的情况下,人们希望在嵌入过程中将图像模型完全保留下来,但这在实际中几乎不可能实现。因此最重要的工作就是识别模型中对于隐写分析来说非常重要的部分,并设置适当的代价iρ。

代价iρ与模型修改之间的关联一般是很难得到的,因此很难得知模型中究竟哪些部分重要,所以文中建议单独评估模型中的每个元素(任何用于特征排名的方法都能

–7–

使用高维图像模型完成高难检测隐写技术

–8–

图1 左:LSB 匹配使用全部载荷得到的载体与隐秘图像特征→

21d d C 之间的的FLD 标准值。右:BOWS2

图像库中载体图像集合特征→21d d C 的平均值。

使用),并设置代价i ρ来反映这个排名。单独评估的优势在于即使特征的数目很大,也能很快地完成。另一方面,对模型元素进行单独评估肯定不是最优的方法,尤其从机器学习这点来看。但是,这个方法可以作为求得代价i ρ的一个指导,当然也存在其他甚至更好的方法。

这部分工作设计如下:首先,创建一个图像集,通过一个给定的嵌入操作模拟最大有效载荷(这里是空域隐写术,相当于随机加减一,概率为50%)。然后使用Fisher 线性判别优化标准来评估单个特征对于检测给定的嵌入变化有何影响。单个元素FLD 标准的值可以直接用来设置嵌入变化代价i ρ,但由于过度拟合问题这种做法可能会带来麻烦。因此可以利用FLD 标准来洞察问题,试探性地设置i ρ,这种做法是值得推荐的。在后面的章节中,笔者使用了FLD 标准来识别共生矩阵中能用于嵌入的部分。

对于之前章节中介绍过的共生矩阵,单个特征FLD 的值可以写成

[][]()[][][][]2,,2,,2,,212121212121→→→→

→→-+--Y Y X X Y X C E C E C C C E C d d d d d d d d d d d d E E E (9)

使用高维图像模型完成高难检测隐写技术

–9– 其中,[]?E 代表经验平均值,→,21X C d d ,→,21Y C d d 分别表示从载体和隐写图像中计算得到的

共生矩阵元素→21d d C 。FLD 的值越高,表示这个特征单独用来检测LSB 匹配算法时效果

越好。图1展示了使用LSB 匹配算法嵌入总的有效载荷时,载体和隐秘图像之间→

21d d C 的FLD 标准估计值。可以看到其中最有影响的特征是→-2,2C 和→-2,2C ,对应着平滑区中包含噪声像素的区域。

这个分析明确了图像模型应该保留哪个部分。再次强调,此分析是从单一特征进行评价的,如果直接运用可能会导致过度训练。但是这种分析可以作为指导,在设置嵌入代价i ρ时获得启发。

图2 HUGO 高级图解

4 从理论到实践

在这一节中,将所有介绍过的成果和思想都放在一起,来实现一种新的隐写算法HUGO 。算法的各个步骤详见图2。

4.1 评估设置

该方案使用了BOWS2图像库里10800副大小为512x512的图像来进行评估。因为大小固定,所有的图像都有相同数目的可用元素,所以不用再考虑平方根律。在实验之前,将图像分为相同大小的两组,一组专门用来训练,另一组用来评估精度。精度的衡量标准就是等概率下载体和隐秘图像的最小平均判定误差,定义为

)(2

1min n P F F E P P P += 为了观察过度拟合对特定特征集的影响,因此创造了盲分析算法,其中用到了四种不同的特征集。(一阶和二阶SPAM 特征,WAM 和最近提出的CDF )

使用高维图像模型完成高难检测隐写技术

–10– 4.2 隐写术中的共生模型

3.2节中介绍了使用共生矩阵(SPAM 特征)作为隐写术的可靠模型,并解释了为什么失真函数D 不能由共生矩阵来直接推导。为了强调共生矩阵中那些对隐写分析来说重要的部分,失真函数D 被定义成差的加权和

{}{}????-+????-=∑∑∑∈-=↓↑←→∈↗,↙, ↖, ↘,,,,,,321,,,,,,,321321321321321321),,(),,()(k k d d d k d d d T

T d d d k k d d d k d d d d d d d d d ,D Y X Y X C C C C Y X ωω (10) ),,(321d d d ω是一个加权函数,将共生矩阵变化的可检测性进行量化。

[]σω+++=232

2213211),,(d d d d d d , (11)

其中σ,γ >0是可调整的元素,以保证可检测性最小。这种保守的选择模拟了平均样本数,能让Eve 有效地从单个的图片中评估特征?

321d d d C 。通过3.3节中的分析,这样

选择的原理很简单:Eve 拥有的样本数越多,她能获得的个别特征评估越准确,隐写分析中能利用的也越多。通过处理高度聚合的特征,算法将信息隐藏在图像中Eve 难以建模的部分。实际上,),,(321d d d ω与信息比特的分布、图像的纹理相关。

要注意失真测量(10)在式(1)中是不可加的。这与定理1的假设不符,因为通常情况下,用于减小嵌入影响接近最佳的实用算法还不存在。为了使失真测量具有可加性,所以将嵌入变化失真写成:

),(,,j i j i D Y X =ρ, (12) 其中载体图像X 改变第()j i ,个像素后组成隐密图像j i ,Y 。之后会讲到,这个近似值对该方案的可检测性有一个很重要的影响。

使用高维图像模型完成高难检测隐写技术

–11–

图3 4.3节中描述的HUGO 嵌入算法的伪代码

4.3 HUGO 的实施细则

图3 为算法的伪代码。代码的1-5行计算了每个像素±1所造成的失真,并将像素变化的嵌入失真(ρi , j )设置成最小值(饱和像素只有一个选择)。

一旦像素变化的位置决定了,有两种方法可以确保像素的LSB 能传递所需的信息。 无模型修正:如果定理1的假设成立,意味着1-5行确定的值已经最优,不需要修正。

有模型修正:因为失真测量D (10)不满足定理1的假设,所以通过模型修正进一步减少整体失真),(i

D Y X ,其中i Y 表示载体图像X 改变第i 个像素后的图像。 5 结论

本文提出了一套完整的方法论,来设计用于数字媒体的实用性高度隐蔽隐写系统。主要的设计原则就是使嵌入造成的失真最小。因为失真函数是本方案中重要的输入,所以本文使用了大篇幅来描述它的设计。文中建议使用拓展特征向量的加权差,这种特征向量是最先进的且已用于隐写分析。拓展的特征集甚至包含了107个特征,它对于避免特定隐写分析仪的过度拟合来说是很重要的。在解释了特征集在隐写术和隐写分析所扮演角色的根本区别之后,可见使用如此大规模的特征集是很合理的。

使用高维图像模型完成高难检测隐写技术

整个方法通过设计一种新的空域隐写算法来加以演示,其中图像模型由SPAM特征得到。模型的部分,即权重,负责LSB匹配的检测,确定使用了Fisher线性判别的的优化标准,这促进了自组失真测量的构建。编码本身要使用syndrome-trellis 码来执行,对于任意的嵌入代价 的集合,syndrome-trellis 码在实际中都能很快地实施该方案。

HUGO的安全性已经得到验证,并且与现有的技术(LSB匹配)相比,就四种不同的特征集来说,HUGO的有效载荷范围更广。相比LSB匹配来说,在相同的安全级下HUGO允许嵌入器隐藏7x更长的信息。用一个具体的数字来说,检测误差为40%时HUGO的有效载荷为0.3bpp,而LSB匹配仅为0.04bpp。

参考文献:略

–12–

本文来源:https://www.bwwdw.com/article/5x6l.html

Top