空域图像LSB匹配隐写分析技术(最终版20120313)

更新时间:2024-05-07 21:25:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

学校代号 10532 学 号 S1010W139 分 类 号 TP391 密 级 普 通

工程硕士学位论文

空域图像LSB匹配隐写分析技术

学位申请人姓名 田清龙 培 养 单 位 信息科学与工程学院 导师姓名及职称 吴蓉晖 副教授 学 科 专 业 计算机应用技术 研 究 方 向 网络与信息安全 论文提交日期 2012年 3月8日

学校代号:10532 学 号:S1010W139 密 级:普通

湖南大学工程硕士学位论文

空域图像LSB匹配隐写分析技术

学位申请人姓名: 田清龙 导师姓名及职称: 吴蓉晖 副教授 培 养 单 位: 信息科学与工程学院 专 业 名 称: 计算机应用技术 论文提交日期: 论文答辩日期: 答辩委员会主席:

The Research on Steganalysis of LSB Matching in Spatial

Domain of Images

by TIAN Qinglong

B.E. (Hunan University) 2009

A thesis submitted in partial satisfaction of the

Requirements for the degree of

Master of Science

in

Computer Science and Technology

in the Graduate school

of

Hunan University

Supervisor

Associate Professor Wu Ronghui

Marth, 2012

工程硕士学位论文 湖 南 大 学

学位论文原创性声明

本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。

作者签名:

日期: 年 月 日

学位论文版权使用授权书

本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。

本学位论文属于

1、保密?,在______年解密后适用本授权书。 2、不保密?。

(请在以上相应方框内打“?”)

作者签名: 导师签名:

日期: 年 月 日 日期: 年 月 日

I

空域图像LSB匹配隐写分析技术

摘 要

随着互联网技术的不断普及和多媒体信息的数字化,打破了传统的时空观念,人们可以迅速的将信息以各种形式传播到世界的任何角落,但也暴露了越来越重要的安全问题。隐写术利用数字媒体的感知冗余和数据冗余,将秘密信息以一定的编码方式隐藏于数字媒体中,弥补了密码学技术的局限性,被广泛应用于涉及国家安全、商业机密、个人隐私等各种信息的安全传输。然而隐写术也往往被犯罪集团、邪教组织等传递非法信息和指令,严重威胁国家安全和社会稳定。隐写分析技术是对隐写术的攻击,阻止隐写术被非法利用,对维护国家安全和社会稳定有着重要的意义。

数字图像是因特网中最为常见的数字媒体,冗余度大,非常适合隐蔽信息,以数字图像为载体的隐写技术成果最丰富、最成熟,应用也最广泛。因此对数字图像隐写分析技术进行深入研究非常必要。本文主要研究空域图像隐写分析技术,主要研究成果如下:

(1) 通过对LSB匹配隐写算法进行建模,提出了一种基于图像直方图几何度量的数字图像隐写分析特征。首先将LSB匹配模拟为在图像中加入随机噪声,在图像直方图上,LSB匹配相当于对图像直方图进行低通滤波,导致图像直方图被平滑。曲率是刻画平滑最有效的方式,因此通过直方图曲率和来刻画直方图变平滑的现象。为了克服图像内容多样性对隐写分析造成的影响,采用二次嵌入进行特征校准。在大规模图像库上,使用支持向量机(SVM)进行训练和测试,实验结果表明,该特征具有很高的检测率,性能优于其他同类算法。

(2) 提出了一类基于曲率模式矩阵和马尔科夫链相结合的高维图像隐写分析特征。首先分析隐写算法对图像像素相关性的影响,然后采用非线性曲率计算公式对图像数据进行非线性变换,在非线性变换域对其进行马尔科夫链的建模,得出超高维的隐写分析特征。为了避免特征维数过高带来的维数灾难等问题,采用基于ROC的特征选择技术,得到适合于隐写分析的低维特征子空间。使用Ensemble分类器在大规模图像库上进行训练和测试,实验结果显示,该算法实验性能优于目前主流的隐写分析算法。

关键词:LSB匹配;隐写术;隐写分析;数字图像;机器学习

II

工程硕士学位论文

Abstract

With the gradual popularization of the Internet technology and the digitization of the multimedia information, people can spread information to any corner of the world quickly through various forms, which breaks the tradition of spatio-temporal concepts. But it also exposes an increasingly important security issues. Steganography hides the secret information into the digital media in some encoded mode by using the perceputual redundancy and data redundancy of digital media, which makes up for the limitation of the cryptography technology, and it is widely used in transmitting some information such as national security, trade secrets, privacy and so on. However, steganography is often used to transmit illegal information and instruction by criminal groups, cults and so on, which threatens national security and social stability seriously. Steganalysis attempts to break steganography, and blocks steganography to be used illegally. Steganalysis is of great significance to safeguard the national security and social stability.

As the most common digital media in Internet, digital image with big redundancy is very fit for hiding information. The research result of steganography with digital image as the carrier is the most abundant and skilled, which is the most widely used. So the further research for digital image steganalysis is very necessary. This paper mainly studies steganalysis on spatial-domain image, the main research results are as follows:

(1) By modeling LSB matching based image steganography techniques, we proposed a dectection method based on geometric measures of image histogram. First, LSB matching can be modeled as adding independent additive noise to the image, this will lead to image histogram smoothed by a low pass filter. Curvature is the best way to measure smoothness, and is utilized to evaluate the smoothness of the histogram. Then, the calibration mechanism based secondary steganogtaphy is introduced to reduce the steganalytic difficulty caused by the image variety. SVM are utilized to train and test the classifiers on large image databases, Experimental results show that the proposed method is efficient to detect the LSB matching steganography and has superior results compared with the same kind of other algorithms.

(2) A high-dimensional feature space for steganalysis of LSB matching is proposed based on curvature mode matrix and markov-chain. First, we analysis the impact of LSB matching to dependences between pixels in nature images, then we get the curvature mode matrix by nonlinear curvature transformation to the data of image

III

空域图像LSB匹配隐写分析技术

and model the curvature mode matrix using a markov chain to get the the high-dimensional feature space. A feature selection algorithm based on receiver operating characteristic (ROC) analysis is introduced to obtain the feature subspace which suit to steganalysis. Ensemble Classifiers are utilized to train and test the classifiers on large image databases and experimental results show that the proposed method outperforms state-of-the-art techniques.

Key Words:LSB matching; stegnanlysis; steganography; digital image; machine

learning

IV

工程硕士学位论文

目 录

湖南大学学位论文原创性声明 ................................................................................... I 摘 要 ........................................................................................................................ II Abstract .................................................................................................................... III 目 录 ........................................................................................................................ V 插图索引 ................................................................................................................. VII 附表索引 ................................................................................................................ VIII 第1章 绪 论 .............................................................................................................1

1.1 研究背景与意义 ...........................................................................................1 1.2 研究现状 .......................................................................................................2 1.3 筮待解决的问题 ...........................................................................................4 1.4 本文主要工作 ...............................................................................................5 1.5 本文结构 .......................................................................................................5 第2章 图像隐写及隐写分析技术 .............................................................................7

2.1 数字图像隐写技术 .......................................................................................7 2.2 数字图像隐写分析技术 .............................................................................. 10

2.2.1 隐写分析数学模型 ........................................................................... 10 2.2.2 隐写分析性能指标 ........................................................................... 11 2.2.3 经典的隐写分析技术 ....................................................................... 12 2.3 小结 ............................................................................................................ 15 第3章 基于图像直方图几何度量的LSB匹配检测 ............................................... 17

3.1 引言 ............................................................................................................ 17 3.2 特征提取 ..................................................................................................... 18

3.2.1 LSB匹配模型及分析 ........................................................................ 18 3.2.2 图像直方图几何度量 ....................................................................... 18 3.2.3 图像校准机制 .................................................................................. 20 3.2.4 归一化 .............................................................................................. 21 3.2.5 特征提取流程图 ............................................................................... 22 3.3 支持向量机 ................................................................................................. 22 3.4 实验结果与分析 ......................................................................................... 23

3.4.1 图像库 .............................................................................................. 23 3.4.2 实验结果 .......................................................................................... 24 3.4.3 对比效果 .......................................................................................... 25

V

空域图像LSB匹配隐写分析技术

3.5 小结 ............................................................................................................ 26 第4章 基于曲率模式矩阵的隐写分析技术 ............................................................ 27

4.1 引言 ............................................................................................................ 27 4.2 特征提取 ..................................................................................................... 28

4.2.1 高维特征空间构造 ........................................................................... 28 4.2.2 特征选择 .......................................................................................... 30 4.3 Ensemble分类器 ......................................................................................... 33 4.4 实验结果与分析 ......................................................................................... 35

4.4.1 图像库 .............................................................................................. 35 4.4.2 实验结果 .......................................................................................... 35 4.4.3 结论分析 .......................................................................................... 36 4.5 小结 ............................................................................................................ 37 总结与展望 ............................................................................................................... 39 参考文献 ................................................................................................................... 41 致 谢 ......................................................................................................................... 48 附录A 攻读学位期间所发表的学术论文 ................................................................ 50 附录B 攻读学位期间所参与的研究项目 ................................................................ 51

VI

工程硕士学位论文

插图索引

图1.1 数字图像隐写分析的技术层次 ...............................................................3 图2.1 经典的Simmons隐蔽通信框图...............................................................7 图2.2 标准灰度图像Lena ..................................................................................8 图2.3 Lena标准图像的八个位平面 ...................................................................9 图2.4 LSB替换的直方图成对现象示意图.........................................................9 图2.5 数字图像隐写分析一般模型 ................................................................. 10 图2.6 ROC曲线示例 ........................................................................................ 12 图2.7 嵌入数据前(圆点)后(叉形)图像的C[H]值变化 .......................... 13 图2.8 隐写前后游程直方图变化 ..................................................................... 14 图3.1 单点曲率计算示例 ................................................................................. 19 图3.2 NRCS图像库上隐写前后SCH值 .......................................................... 20 图3.3 特征校准流程图 .................................................................................... 21 图3.4 采用校准机制的NRCS图像库上隐写前后SCH值 ............................. 21 图3.5 三种支持向量机图例 ............................................................................. 23 图3.6 SCH特征在各个嵌入下ROC曲线 ........................................................ 25 图3.7 四种算法在greenspun图像库上的检测性能 ........................................ 26 图3.8 四种算法在NRCS图像库上的检测性能 .............................................. 26 图4.1 图像数据矩阵邻域变换 ......................................................................... 28 图4.2 0.05步长离散后曲率值分布图 .............................................................. 30 图4.3 不同方向曲率模式矩阵马尔科夫特征及随机特征Perf值 ................... 32 图4.4 Ensemble分类器框架图 ......................................................................... 34

VII

空域图像LSB匹配隐写分析技术

附表索引

表3.1 支持向量机在SCH特征集上最优参数对 ............................................. 24 表3.2 各算法的支持向量机最优参数对 .......................................................... 25 表4.1 不同Perf阈值下特征维数及检测性能 ................................................. 33 表4.2 各特征集的总体平均分类错误率均值和中位数绝对偏差 ................... 36 表4.3 各融合特征集对SPAM特征集的改善程度 .......................................... 37

VIII

工程硕士学位论文

第1章 绪 论

1.1 研究背景与意义

随着互联网技术的不断普及和多媒体信息的数字化,打破了传统的时空观念。人们可以将各种信息以图像、文字、声音等方式通过互联网迅速的传播到世界的任何一个角落,一个真正意义上的“地球村”已经被建立。“地球村”的建立,给社会带来了诸多便利,但也给社会带来信息安全方面的诸多隐患。

传统的信息安全技术主要基于密码学技术。密码学技术使用密匙按一定规律将明文转换为随机密文,使得非授权方无法破译密文信息,达到对信息的机密性保护[1]。尽管密码学技术将明文信息转换为密文,使得一般技术无法理解密文信息,但加密行为很容易被第三方识别,即无法隐藏“通信正在进行”的事实。在诸如情报工作等一些特定应用领域,仅仅对信息的机密性进行保护还不够,还需要保证“通信正在进行”的事实也不能被监控方识别,即进行“低调”的机密通信。而随着密码分析技术的不断发展和计算机计算能力的不断提升,密码学技术的安全性也受到挑战,再复杂再坚固的密码技术都有被破译的可能。

密码学技术的局限性,迫使人们开发新型的安全技术以解决信息安全领域存在的问题。隐写技术由于能够隐藏“通信正在进行”的事实,自20世纪90年代以来,迅速成为信息安全领域的研究热点,目前已在个人隐私、军事情报、国家安全等方面取得重要应用。

隐写技术与密码学技术实现技术互补,为网络环境中的信息安全提供了有利保障,但隐写技术同时也被恐怖分子、邪教组织等非法分子或组织用来躲避国家安全机构的信息监管,达到传递非法信息、恐怖指令等目的,给国家和社会的安全带来极大障碍。2001年,USA TODAY(今日美国)报道,本·拉登及其同伙可能借助数字图像隐写技术在因特网上传递恐怖活动信息,躲避安全机构的监控[2]。“有线新闻网”称著名的拍卖网站ebay.com曾上传有隐藏机密信息的图像[3]。据新华社报道:俄罗斯特工“美女间谍”使用隐写技术非法传递美国机密信息[4]。曾猖獗一时的法轮功组织鼓吹利用隐写技术进行非法信息传递以逃避国家信息安全监管[5]。

隐写技术的不正当使用严重威胁社会稳定和国家安全,各国军方和安全机构迫切需要可靠的技术确保对非法隐蔽信息进行监控和阻截。隐写分析技术是对隐写术的攻击,能够对非法隐蔽信息进行监控和阻截。图像是人类获取信息的重要组成部分,是人类认识世界获取信息的重要来源[6],同时也是互联网中最为常见的数字媒体。数字图像隐写技术是隐写技术研究的热点,具不完全统计,互联网

1

空域图像LSB匹配隐写分析技术

上存在超过300多种易于操作的数字图像隐写工具供网民免费下载[7],这些工具的非法使用将给网络监控带来极大的挑战。因此,数字图像的隐写分析技术是隐写分析领域中迫切需要解决的重要课题。

军事专家预言:21世纪的战争是以信息战为标志的高技术战争。数字图像隐写及隐写分析技术是未来战争中夺取和保持制信息权不可或缺的关键技术。世界各国正在如火如荼的开展这个领域的研究,国内的研究也须跟随时代的脉搏,采取积极有效的措施保证这两项技术的不断发展,为军事情报、国家安全等方面提供有效的技术保障。

1.2 研究现状

隐写分析技术是对隐写技术的攻击,目的是识别隐写算法的隐蔽性,能够对非法隐蔽信息进行监控和阻截,对军事情报、国家安全等方面有着重要意义,尤其是“911”事件后,隐写分析技术受到了各个国家军方和国家安全部门的高度重视,迅速成为信息安全研究领域的焦点。

国际隐写分析的先驱是美国George Mason大学的NeilF Johnson教授,其后New York State University, Polytechnic University, Michigan State University ,New Jersey Institute of Technology, WetStone 也先后开展隐写分析的研究,这些单位都受到美国空军研究所、美国国防部、国家安全局等部门在研究经费上的支持。除美国以外,资料显示:英国、印度、加拿大、芬兰等国也开展了这一方向的研究。全球信息隐藏学术研讨会(Information Hiding Conference 简称:IH)是该领域最高级别的国际会议,自1996年在英国剑桥牛顿研究所召开第一届后,至今已经成功举办14届,该会议汇聚了本领域众多精英。许多著名国际会议和期刊也都将数字图像隐写及其隐写分析作为主要主题,如美国电气和电子工程师协会(IEEE)举办的《IEEE International Conference on Image Processing》会议和《IEEE Transaction on Information Forensics and Security》期刊。我国隐写分析技术的研究相对起步较晚,中国科学院(自动化所,软件所),北京邮电大学,中山大学,国防科技大学,湖南大学,解放军信息工程大学等单位开始了隐写分析技术的研究。国家973计划,国家自然科学基金,863计划,国家安全部等对这些单位提供研究经费。全国信息隐藏暨多媒体信息安全学术大会(CIHW)已经成功举办10届,促进了该学科的在中国的发展和学术交流。在国内,已经发表了一些隐写分析相关成果,但与国际相比,高档次成果还比较少,处于发展阶段。

数字图像隐写分析的三种技术层次及其研究现状如图1.1所示。从公开的文献数量看,数字图像是否隐藏信息的二值判断是目前隐写分析研究的焦点和热点。监控网络中是否存在正在进行的“低调”通信是隐写分析的主要目的,是否隐藏

2

工程硕士学位论文

信息的二值判断就可为监控机构提供这方面的有效数据。从实际应用的角度出发,相比另外两种层次,是否隐藏信息的二值判断更具有实际应用价值。

秘密信息提取 几乎未见公开文献 容量估计 少量研究 是否载密的二值判断

研究焦点,应用广泛 图1.1 数字图像隐写分析的技术层次

近年来,在是否载密的二值判断[8],载密信息长度估计[9],密匙估计[10]等方面涌现出一些算法,但作为隐写分析的终极目的——载密信息的提取非常罕见

[11]

。事实上,由于数字载体数量巨大,并呈现内容多样性,隐写算法也变化万千,

要想从隐写图像中提取正确的隐藏信息犹如大海捞针。目前数字图像隐写分析的研究主要集中在是否隐藏信息的二值判断上,一旦经某种算法隐写的图像能够被正确的识别是否隐藏秘密信息,则该隐写算法认为被攻破[12, 13]。

基于特征码的数字图像隐写分析技术主要用于早期的数字图像隐写算法攻击。由于技术原因,早期隐写算法大多在特定的冗余区域嵌入秘密信息或嵌入特定的标志以表明嵌入结束等信息。网上发布的一些算法就是利用BMP图像调色板的保留字或者在文件末尾直接追加秘密信息,而Hide and Encrypt隐写软件会加入特定的结束标志[14]。带有特征标志或在特定冗余区域嵌入秘密信息的隐写算法只需分析图像的格式或通过检测特征标记信息就能成功的判断图像是否载密。尽管这类数字图像隐写分析算法检测速度快,精度高,但是对于新型的数字图像隐写算法显然无能为力。而且更为高级的图像隐写算法都是在图像数据区域进行嵌入,基于特征码的图像隐写分析技术更是无法检测。

基于图像数据统计特征的数字图像隐写分析技术是目前数字图像隐写分析的主流研究领域。由于随机修改图像数据,不会带来特定的标志,很好的保证了隐写算法的隐蔽性,是更为安全的隐写技术,也很难被分析。Harmsen[15]等通过将LSB匹配隐写行为模拟为在图像中加入随机噪声,在秘密信息和载体图像不相关时,理论证明了算法的有效性。Ker[16]通过采用下采样技术和二维傅立叶变换改进了Harmsen的算法,性能得到了显著提高。Ker[17]还将此算法成功运用到彩色图像的隐写分析中。张军等[18]分析信息嵌入对图像直方图局部极值的影响,指出在信息嵌入后直方图的局部极大值将变小,而局部极小值将变大。张军等[19]通过把图像直方图的极大值和极小值之间的面积作为统计特征,改进了该算法。

3

空域图像LSB匹配隐写分析技术

Cancelli[20]将张军的局部极值特征[18]扩展到图像二维直方图,并且考虑直方图边沿,得到了10维敏感特征,实验结果显示优于局部极值原始算法。

刘庆忠等[21-23]利用自然图像像素之间的相关性进行隐写分析建模。秘密信息的嵌入,会扰乱图像像素之间的这种相关性。因此算法提出图像像素最低及次低位平面的自相关系数作为隐写分析特征。对于彩色图像,三个颜色分量之间相关性也被作为隐写分析的特征。

Pevny等[24]利用差分图像进行马尔科夫链建模取得很好的效果,该文还指出差分图像的马尔科夫链建模性能优于共生矩阵。该算法对JPEG隐写和YASS隐写也有很好的检测性能[25]。夏志华等[26]提出直方图梯度能量特征,并从理论上给出了有效性证明。融合邻域度直方图特征函数质心,游程长度直方图特征函数质心在支持向量机中得到了很好的隐写分析模型。

Fridrich等[27]利用极大似然估计量进行隐写分析,该算法对经过JPEG压缩的图像检测很有效,但对未经JPEG压缩的图像检测性能不理想。共生矩阵是图像灰度变化的二阶统计特征,能够对图像纹理进行一定的描述,也多次使用于图像隐写分析的特征提取中[28-31]。陈铭等[32]对图像区域相关进行建模,得到隐写分析特征。基于图像编码技术的隐写分析特征也具有很好的检测性能,如游程编码特征[33, 34],预测编码特征[35]。

1.3 筮待解决的问题

随着十几年的数字图像隐写分析研究,学术界取得一批研究成果,一定程度上满足实际应用的需要,但仍存在一些技术问题筮待解决:

(1) 检测精度作为隐写分析的最重要指标,还不能完全满足实际应用的需要,尤其是小嵌入率下的信息隐藏检测仍是隐写分析的难点。

(2) 要实现对因特网中海量图像进行监控的目的,就必须在有限时间内对待检测图像进行快速分析,这要求隐写分析算法具有很低的时间复杂度,因此如何降低现有隐写分析算法的时间复杂度和如何构造出低时间复杂度、高精度的隐写分析特征是研究者必须面对的问题。

(3) 蓬勃发展的隐写技术促使大量新的隐写算法被提出,而这些新的隐写算法一般会对已有的隐写分析特征进行一定程度保持,使得现有隐写分析技术的检测精度下降甚至失效。因此,如何快速的使用现有的隐写分析特征对新型的隐写技术进行高精度检测有待研究。

(4) 隐写分析的特征维数越来越高,导致维数灾难。高维数特征需要更多训练样本和训练所耗的时间,而隐写分析一般需要对不同隐写算法和不同类型的图像训练单独的分类器,这是一个非常耗时的过程。因此,有必要对特征降维或更适合隐写分析的分类器进行深入研究。

4

工程硕士学位论文

(5) 目前数字图像隐写分析技术只能对是否载密以一定概率的方式进行二值判断,而不能明确的回答是否载密,即只能怀疑,而不能给予证明。这将局限数字图像隐写分析技术的应用范围。因此,有必要建立起数字图像隐写分析的物理模型。

本文针对空域图像LSB 匹配算法进行了一些研究,力求在上述问题上取得一些成果。

1.4 本文主要工作

本文以数字图像为研究对象,通过分析隐写行为对图像直方图的影响,提出了一种基于图像直方图几何度量的图像隐写分析特征。同时通过对图像像素相关性进行建模,提出了一种基于曲率模式矩阵的高维隐写分析特征。在大规模图像库上测试本文提出的两类特征,都得到了很高的检测精度,主要研究成果如下:

(1) 通过对LSB 匹配隐写算法进行建模,提出了一种基于图像直方图几何度量的数字图像隐写分析特征。首先将LSB 匹配模拟为在图像中加入随机噪声,在图像直方图上,LSB 匹配相当于对图像直方图进行低通滤波,导致图像直方图被平滑。曲率是刻画平滑最有效的方式,因此通过直方图曲率和来刻画直方图变平滑的现象。为了克服图像内容多样性对隐写分析造成的影响,采用二次嵌入进行特征校准。在大规模图像库上,使用支持向量机(SVM)进行训练和测试,实验结果表明,该特征具有很高的检测率,性能优于其他同类算法。

(2) 提出了一类基于曲率模式矩阵和马尔科夫链相结合的高维图像隐写分析特征。首先分析隐写算法对图像像素相关性的影响,然后采用非线性曲率计算公式对图像数据进行非线性变换,在非线性变换域对其进行马尔科夫链的建模,得出超高维的隐写分析特征。为了避免特征维数过高带来的维数灾难等问题,采用基于ROC的特征选择技术,得到适合于隐写分析的低维特征子空间。使用Ensemble分类器在大规模图像库上进行训练和测试,实验结果显示,该算法的检测性能优于目前主流的隐写分析算法。

1.5 本文结构

本文对以数字图像为媒体的隐写分析技术进行研究,提出两种新型的数字图像隐写分析特征,本论文的结构安排如下:

第1章,介绍本文研究课题的背景与意义、研究现状和筮待解决问题,并指出了本文的主要工作与结构。

第2章,介绍数字图像隐写及其隐写分析技术的基本概念和经典的数字图像隐写及隐写分析算法。

5

空域图像LSB匹配隐写分析技术

第3章,介绍基于图像直方图几何度量的隐写分析特征。

第4章,介绍一类基于曲率模式矩阵和马尔科夫链相结合的高维图像隐写分析特征。

最后的总结与展望部分对本文的工作进行总结,并对未来的研究工作进行展望和设想。

6

工程硕士学位论文

第2章 图像隐写及隐写分析技术

2.1 数字图像隐写技术

隐写技术是信息隐藏的两个重要分支之一。与传统的隐写技术(头皮捎信、蜡板传书、隐形墨水、显微点技术)不同,现代的隐写技术主要利用多媒体数据的冗余,将秘密信息按一定的编码方式隐藏于公开的数字媒体中,以逃避第三方的监控和阻截[36, 37]。图2.1 是Simmons[38]作为“囚犯问题”提出的信息隐蔽通信框架图。嵌入者(Alice)需要将秘密信息(Secret message)传递给接受者(Bob),但他们之间所有通信都接受监管机构(Wendy)的监管,监管机构(Wendy)一旦发现通信可疑,就会禁止通信进行,即通信失败。为了逃避监管机构(Wendy)的监管, Alice和Bob之间通信就需要将秘密信息(Secret message)采用隐写技术隐藏在于本次通信无关的载体对象中(Cover object),通过传递隐藏秘密信息的隐秘载体(Stego object)达到“低调“的通信。

密钥KeyAlice嵌入算法Embedding algorithm信道Communication channel秘密信息Secret message隐秘载体Stego objectwarden检测算法Detecting algorithm隐秘载体Stego object密钥KeyBob提取算法Extraction algorithm秘密信息Secret message原始载体Cover object图2.1 经典的Simmons隐蔽通信框图

Simmons隐蔽通信模型给出如何实现隐蔽通信的框架,但未给出具体的实现技术。为了保证隐蔽通信能够安全的进行,具体的隐写技术需要具有高容量、稳健性及很强的隐蔽性。高容量确保载体能够传递更多的秘密信息,稳健性保证秘密信息能够抵抗信道中的噪声,而隐蔽性则确保“通信正在进行的事实”被掩盖,是隐写技术最为重要的指标。隐写分析技术主要针对隐写技术隐蔽性进行攻击。

隐写技术的隐蔽性决定数字图像隐写系统的安全,是数字图像隐写系统理论研究的重要组成部分,同时也是隐写对抗技术(隐写分析技术)的研究重点。传统意义上的隐蔽性主要考察隐写系统对人类视觉系统(Human Visual System,HVS)的不可察觉性,峰值信噪比(PSNR)等一些评价图像的客观标准常用来度量隐写算法对载体图像的感官质量。现代意义上的隐蔽性主要考察图像隐写算法对图像各种统计特征的保持。在隐写前后,尽管载密图像相对载体图像在视觉上不可区分,但若改变了图像的统计特征(直方图特征等),只需提取这种特征就可

7

空域图像LSB匹配隐写分析技术

轻松识别出图像是否载密,也就成功攻破这种隐写算法。对于某种特定的图像隐写算法,嵌入容量是影响隐写系统安全性的关键。在高嵌入率下,隐写算法对图像的修改量很大,很容易寻找出具有明显区别的图像特征,相反,对图像的少量修改,寻找出有区别能力的图像特征很难。一些学者试图将图像隐写技术的安全性进行模型化、规范化。Chandramouli 等[39]提出了类似香农密码系统中绝对安全性的“无条件安全隐写系统”。Cachin等[12]从信息论的角度,采用条件熵定义数字图像隐写系统的安全性。但由于真实的载体图像像素之间一般具有高相关性,具有丰富的统计结构,上述两种安全性定义并不适合隐写系统,因此基于虚警率和检测率的安全性定义被提出[40, 41]。

LSB 匹配[42]是一种经典的数字图像隐写技术,通过随机修改像素的最低有效位(Least significant bit, LSB)达到信息隐藏的目的,是诸多隐写技术的原型,如LSB matching revisited[43]等[44-46]。数字图像的每个像素用8个比特表示0-255的灰度值,将所有像素的不同比特位提取出来就构成了8个不同的位平面。如图2.2和图2.3所示。图2.2是尺寸为512×512的标准图像Lena,图2.3则是与图2.2中Lena图像对应的八个位平面。对于一幅自然图像,位平面越高,越能反映图像的轮廓,对像素值的贡献越大。最低比特位对像素值的贡献最小,基本不能反映图像内容信息。因此从图像视觉质量角度出发,像素值的最低有效位是隐藏秘密信息的最佳位置。另外,在不同位平面中,相邻比特位的相关性也不尽相同。位平面越高,相邻比特位的相关性越强,第0位平面具有最低的相关性,事实上,第0位平面近似于随机噪声。信息嵌入导致的修改很容易破坏相关性,相关性可以作为识别图像是否隐藏秘密信息的特征。为了更好的保持图像特征不变,在近似随机噪声的最低有效位上进行秘密信息嵌入具有最好的抗检测性。由于修改最低有效位可以获得更好的图像视觉质量和对图像特征的保持,LSB匹配在隐藏秘密信息的最佳位置(最低有效位)进行秘密信息隐藏。

图2.2 标准灰度图像Lena

8

工程硕士学位论文

(a)第7位 (b)第6位 (c)第5位 (d)第4位

(e)第3位 (f)第2位 (g)第1位 (h)第0位

图2.3 Lena标准图像的八个位平面

LSB匹配将图像像素的最低有效位(LSB)进行随机修改,随机修改方式对图像特征有更好的保持,以pc表示载体图像的某一像素像素值,ps表示该像素嵌入信息的像素值,b为秘密信息比特,则嵌入机制表示如下:

?pc pcmod2?b?p?1 randomly pmod2?b&0?p?255?ccc (2.1) ps???pc?1 pcmod2?b&pc?0??pc?1 pcmod2?b&pc?255与另外一种经典的隐写技术LSB替换相比,LSB匹配具有更高的安全性。由于LSB匹配采用随机加减1的方式修改最低有效位,避免LSB替换造成的直方图的成对现象。使得对能有效检测LSB替换的RS分析、SPA分析、DIH分析等对LSB匹配检测失效[47, 48]。

像素数量300025002000150010005000cover iamgesteg image404550灰度值5560图2.4 LSB替换的直方图成对现象示意图

9

空域图像LSB匹配隐写分析技术

LSB匹配具有容量大,隐蔽性好等特点,是很多图像隐写算法的原型,但 LSB匹配检测难度大,检测性能还不尽人意,仍然是图像隐写分析研究的难点和热点,尤其是对于低嵌入率的LSB匹配隐写分析[49]。

2.2 数字图像隐写分析技术

2.2.1 隐写分析数学模型

在“囚犯问题”中,隐写分析技术就是监管机构(Wendy)所使用的技术,目前的图像隐写分析研究主要针对待检测图像是否携秘的二值判断。图像隐写分析是二元决策问题,通常公式化为二元假设检验问题:设待检测图像为Id,Id是载体图像的假设为H0,Id是载秘图像的假设为H1,假设检验函数f:I??H0,H1?,则

?Hf(Id)??0?H1Id不含隐秘信息Id含有隐秘信息 (2.2)

图像隐写分析就是找出合适的检验函数f:I??H0,H1?。目前的图像隐写分析技术主要是基于学习的模式识别技术,因此检验函数f:I??H0,H1?一般分为两部分:特征提取和机器分类。设特征提取为函数?,机器分类为函数?,则

f(Id)?????Id?? (2.3)

随着支持向量机、BP神经网络等机器分类技术不断涌现和成熟,人们将隐写分析的研究重点转向隐写分析的特征提取,即特征提取函数?。图2.5为数字图像隐写分析的一般模型。

原始图像库隐写图像库待检测图像特征提取方法特征提取方法原始图像特征库隐写图像特征库图像特征训练分类器分类器分类算法检测结果 图2.5 数字图像隐写分析一般模型

在图像隐写分析的特征提取中,寻找能够刻画图像隐写前后变化的特征是问题的关键。高性能的隐写分析特征不仅要求能够对单幅载体图像和与之对应的载

10

工程硕士学位论文

密图像能够进行正确区别,而且还要保证同类图像(载体图像和载密图像)特征聚集在某一值附近,即高性能特征还需对图像噪声,图像内容等因素稳健。为了消除图像噪声,图像内容等因素导致的特征不稳定问题,特征校准技术是行之有效的解决方案,如Ker[16]使用下采样技术对Harmsem等[15]的特征进行校准,不仅提高了检测性能,还提高了检测算法的通用性。Fridrich[50]采用“解压-裁剪-压缩”的方式校准特征。对高维数的隐写分析特征进行归一化也能够增强隐写分析特征的稳健性。特征稳健性的增强还可以采用预处理技术,如对图像进行滤波,可以一定程度上减少图像内容多样性对特征稳健性的影响。

尽管特征提取是图像隐写分析的重点研究对象,但随着研究的深入,一些学者指出传统的分类器直接应用于隐写分析并不能够达到最好的效果[51, 52]。在图像隐写分析中,支持向量机是最为常用的分类器,支持向量机不仅具有很高的分类性能而且因特网上还有开源代码以供研究者直接使用。随着图像隐写分析特征维数的不断增加,具有高时间复杂度的支持向量机在时间上使得研究者无法忍受,尤其是在支持向量机的参数寻优阶段。支持向量机采用交叉验证的参数寻优方式也会影响图像隐写分析的性能。Kodovsky等[53]提出了Ensemble分类器,该分类器针对图像隐写分析提出,具有很低时间复杂度,并且分类器的最优参数也可以通过程序自动搜索。

2.2.2 隐写分析性能指标

衡量数字图像隐写分析性能主要通过考虑算法的实用性、复杂性、准确性等,其中准确性是衡量性能的最重要指标,其他性能目前很少考虑[54]。作为二元假设检验问题,对于特定的分类器,若视携秘图像为正类(Positive Class),载体图像为负类(Negative Class),对于一幅待检测图像,无非有四种可能输出:待检测图像为正类,输出结果也为正类,则称击中(True Positive,简称TP);待检测图像为正类,输出结果为负类,则称漏检(False Positive,简称FP);待检测图像为负类,输出结果也为负类,则称真阴性(True Nagative,简称TN);待检测图像为负类,输出结果为正类,则称虚警(False Nagative,简称FN)。给定一组测试图像,可得出2×2的混淆矩阵,从混淆矩阵可知,分类错误只有两类。因此总体平均分类错误率PE可度量算法的优劣:

PE?1?PFN?PFP? (2.4) 2另外,在分类器中设置不同的检测阈值,对多组击中率和虚警率的组合绘制接收机操作特性曲线(ROC曲线)[55]也可对算法分类性能进行度量。图2.6为三条ROC曲线A,B,C。在ROC曲线上,与横坐标轴成45o的直线称为机会线,该线上虚警率和击中率处处相等,相当于随机猜测,无任何分类性能可言。事实

11

空域图像LSB匹配隐写分析技术

上,ROC曲线偏离机会线越远,即ROC曲线下的面积(AUC)越大,分类性能越高。图2.6中A,B,C的分类性能依次递增。

图2.6 ROC曲线示例

2.2.3 经典的隐写分析技术

本小节主要介绍几种典型的空域LSB匹配隐写分析技术,这些算法都是用于确定图像是否隐藏秘密信息的二值判断,本学位论文所提出的算法也将和下面这些经典的隐写分析算法进行比较。

(1) 基于图像直方图特征函数(HCF COMs)的隐写分析算法

图像直方图描述了不同灰度级像素出现的频率,能表征图像的一维信息,隐秘信息的嵌入势必对直方图造成影响。一般情况下,需要嵌入的秘密信息与载体图像是互相独立的,在此假设下Harmsem[15]等将图像隐写行为模拟为在载体图像中加入随机噪声,则载密图像的一维直方图hs(n)可以用载体图像的一维直方图

hc(n)和秘密信息分布f?(n)的卷积表示,即:hs(n)?hc(n)*f?(n)。傅立叶变换可

以化复杂的卷积运算为简单的乘积运算,因此在傅立叶空间中上式可转换为:

Hs[k]?Hc[k]F?[k]。对直方图的傅里叶变换即特征函数(histogram characteristic

function, HCF)定义质心(center of mass, COM):C(H[k])??i?0iH[i]N/2?N/2i?0H[i],

作者从理论上证明了C(Hs[k])?C(Hc[k]),即经过图像隐写后,图像一维直方图特征函数的质心下降,可以作为数字图像隐写分析的敏感特征。该特征简记为Conventional HCF COM。

Ker[16]指出,Conventional HCF COM特征应用于灰度图像LSB匹配隐写分析

12

工程硕士学位论文

并不成功。尽管图像隐写后C[H]会下降,但不同载体图像之间的C[H]差异很大,这种差异将覆盖由图像隐写导致的C[H]之间的差异(见图 2.7)。Ker[16]通过实验发现,载体图像的四倍下采样图像的C(Hc'[k])与载体图像的C(Hc[k])几乎相等,而携秘图像的四倍下采样图像的C(Hs'[k])与载体图像的C(Hs[k])相差很大,存在关系:C(Hc[k])/C(Hc'[k])?C(Hs[k])/C(Hs'[k])。此外,Ker[16]还将Harmsem的一维直方图替换为二维直方图。

图2.7 嵌入数据前(圆点)后(叉形)图像的C[H]值变化

最后总结出基于图像直方图特征函数的四种隐写分析特征:Conventional HCF COM、Calibrated HCF COM、Adjacency HCF COM、Calibrated Adjacency HCF COM。为方便起见,我们将上述四种特征简记为:HCF COMs。 (2) 基于图像直方图局部极值(ALE)的隐写分析算法

张军等[18]指出对于嵌入率为p的LSB匹配算法,其隐写行为在一维直方图上相当于一个核为[p/4,1?p/2,p/4]的低通滤波,导致图像一维直方图平滑,尤其对局部极值点。定义直方图h(n)局部极值与其相邻元素的绝对差的累加和:

D??|2*h(n*)?h(n*?1)?h(n*?1)|作为隐写分析的特征,其中n*为直方图局部极

n*值点。此外,张军还利用隐写后直方图的局部极大值将变小,而局部极小值将变大的性质,将极大值和极小值分别连接起来,两条边之间的面积用来隐写分析[56]。

Cancelli[20]等扩展了张军提出的图像直方图极值特征。首先,考虑了图像直方图边界的影响。其次,与Ker[18]一样,用二维直方图代替了一维直方图。最后隐写分析特征为10维,相对原始的直方图局部极值特征,实验性能有了显著改进。该类算法被称为ALE。

(3) 基于游程长度(Runlength)直方图特征函数的隐写分析算法

游程长度(Run Length)又称行程长度, 是栅格数据压缩的重要编码方法,能够描述图像灰度关于方向、相邻间隔、变化幅度等信息。游程长度是将图像灰度按照某种方式进行扫描,连续相等的像素点的个数。统计具有相同游程长度x的游程出现频数,即得游程长度直方图RLH(x)。

Yu等[34]发现图像经过LSB匹配后游程长度直方图会向左移动,即长度较长的游程的数量会减少,而长度较小的游程会增加,见图2.8。作者采用类似于

13

空域图像LSB匹配隐写分析技术

Ker[16]的方法,用游程长度直方图特征函数质心刻画LSB匹配行为对图像的影响。另外,采用LSB匹配二次嵌入对图像特征进行校准,还与Ker所提特征进行融合,融合特征集对隐写分析性能有一定提高。

图2.8 隐写前后游程直方图变化

(4) 基于相关性的Liu’s隐写分析算法

Liu等[21]提出基于相关性的隐写分析特征,并且指出嵌入率和图像复杂度是影响隐写分析性能的关键因素。LSB匹配对图像最低位平面进行修改,因此图像最低位平面(LSBP)与次低位平面(LSBP2)之间的相关性会改变,另外最低位平面自相关性也会发生改变,基于此提出了基于位平面相关性的多维特征。隐写前后图像直方图发生变化,采用图像直方图自相关性进行度量。图像隐写一般模拟为加入噪声,作者首先对待检测图像进行带阈值的小波降噪,将去噪后的图像与待检测图像做差,差值图像的自相关性作为隐写分析的特征。

Liu等[22]还对此进行了扩展。作者对一级Haar小波分解的低频子带(HH)系数进行广义高斯模型(GGD)的建模,将决定PDF宽度的尺度参数作为一维特征。对图像3像素对出现频率进行统计,得到3像素对直方图,将3像素对直方图的信息熵和高阶统计作为隐写分析特征。此外,将具有相等像素值的不同结构出现的概率也作为隐写分析的特征。 (5) SPAM隐写分析算法

Pevny等[24, 25]指出图像像素的高阶依赖可以使用像素对分布、三像素分布等进行建模,但是这些建模方法的特征维数随着图像灰度阶指数增加,并且有些像素组合对于分类还是噪声,图像内容的多样性也导致很难建立起基于像素组合的模型。Pevny在大量图像上统计了像素对的分布情况,发现大部分相邻像素的像素差值都很小,并且差值越大出现的频率就越低。上述情况说明自然图像相邻像素的像素值具有很强的连续性,图像相邻像素相关性很强。实验还发现,差分图

14

工程硕士学位论文

像所携带的信息量与图像数据所携带的信息量几乎相等。因此,Pevny在八个不同方向的差分图像上进行带阈值的马尔科夫链建模,这样不仅特征维数低,差分操作还能消除图像内容多样性对分类性能的影响。若Ii,j为图像I在位置(i,j)的灰度值,则水平方向SPAM特征提取的步骤如下:

第一步:计算差分图像D:Di?,j?Ii,j?Ii,j?1

第二步:在差分图像上建立同方向的带阈值的一阶马尔科夫转移矩阵:

1st,?Mu,v????Pr(Di,j?1?u|Di,j?v) if u,v???T,....,T? (2.5) ???0if Pr(Di,j?v)=0??第三步:在差分图像上建立同方向的带阈值的二阶马尔科夫转移矩阵:

2nd,?Mu,v,w????Pr(D?u|D?v,Di,j?2i,j?1i,j?w) if u,v,w???T,....,T?? (2.6) ????0if Pr(Di,j?1?v,Di,j?w)=0??第四步:将同阶的两个水平和两个垂直转移矩阵分别相加得到加和的转移矩

阵,将同阶的四个对角线转移矩阵分别相加得到加和的转移矩阵,这样做可以降低特征维数:

1M1st,??M1st,??M1st,??M1st,?41Fk1?st?M1st,??M1st,??M1st,??M1st,?1,....,2k4 (2.7) 12ndF1,....,M2nd,??M2nd,??M2nd,??M2nd,?k?41Fk2?nd?M2nd,??M2nd,??M2nd,??M2nd,?1,....,2k41stF1,....,k?????????SPAM特征维数对于马尔科夫链的阶和阈值T很敏感,其中一阶SPAM特征维数为2?2T?1?,二阶SPAM特征维数为2?2T?1?。为了使特征维数适中,对于一阶特征阈值T取4和8,二阶特征阈值T取3。实验结果显示,阈值为3的二阶马尔科夫链特征有最佳检测性能,因此本学位论文所采用的对比实验采用该参数下的686维SPAM特征。

232.3 小结

本章首先对数字图像隐写的基本概念和模型进行简要介绍,并对几种经典的空域图像隐写算法进行简要说明。然后重点介绍了数字图像隐写分析的相关知识,包括基本概念、数学模型及其算法性能评价指标。最后对包括SPAM等经典隐写分析算法进行了描述。

15

空域图像LSB匹配隐写分析技术

图像隐写和图像隐写分析互为对抗但又互相促进对方的发展,隐写技术的改进迫使隐写分析学者找出隐写算法更为隐蔽的缺陷,而新的隐写分析特征能够对隐写算法的改进指明方向,提升隐写算法的安全性。隐写分析是一项极具挑战性的研究,难度大,目前该领域还存在诸多问题筮待解决,需要进行更多更为深入的研究。

16

工程硕士学位论文

第3章 基于图像直方图几何度量的LSB匹配检测

3.1 引言

LSB匹配通过随机修改图像像素最低有效位,对图像统计特征有更好的保持。相比LSB替换,LSB匹配是一种更难被检测的空域图像隐写算法,是目前隐写分析研究的重点[47-49]。数字图像隐写分析主要基于模式识别的技术框架,由于人类已经开发出众多机器学习算法,如支持向量机,人工神经网络等,因此隐写分析学者主要将研究精力集中在特征提取上。

图像直方图是描述图像灰度分布的概率密度函数,在图像增强、图像匹配等图像处理领域中有着重要应用。Harmsen等[15]将LSB匹配模拟为在图像中加入随机噪声,对图像直方图的影响进行了详细分析。在傅里叶空间讨论LSB匹配的影响,提出了图像直方图特征函数质心特征,并进行了理论证明。图像一维直方图只能描述图像灰度分布概率,而不能反映图像像素的位置信息,Harmsen等[15]仅对图像一维直方图进行分析,显然不能对LSB匹配隐写行为进行完全刻画。Ker[16]采用相邻像素的二维直方图代替Harmsen等[15]采用的一维直方图,并采用基于下采样技术的特征校准机制进行隐写分析。相邻像素的二维直方图包含图像像素的空间信息,有着比一维直方图更好的效果。基于下采样技术的特征校准机制一定程度上消除图像内容导致的特征不稳定问题,使得特征更易于识别。张军等[18]也分析了LSB匹配对图像一维直方图的影响,指出在信息嵌入后图像直方图的局部极大值将变小,而局部极小值将变大,将直方图局部极值与其相邻元素的绝对差的累加和作为隐写分析特征,此外张军等[56]还把图像直方图的极大值和极小值之间的面积作为统计特征。Cancelli等[20]模仿Ker[16]的做法,对图像一维直方图和图像二维直方图都进行了考虑,并处理了图像直方图边沿影响,作为张军提出的直方图局部极值改进算法,提出了10维隐写分析特征。Yu等[34]对图像游程长度直方图进行分析,发现经过LSB匹配后游程长度直方图会向左移动,即长度较长的游程的数量会减少,而长度较小的游程数量会增加,采用图像游程长度直方图特征函数质心作为特征,并使用二次嵌入进行特征校准。Liu等[22]考虑LSB匹配对图像三像素对直方图的影响,提出基于图像三像素对直方图的信息熵和高阶统计的隐写分析特征。

Goljan等[57, 58]提出了基于小波域的隐写分析特征,张军等[59]在图像离散余弦变换域(DCT)分析了LSB匹配对噪声残差的影响,使用噪声残差的高阶中心绝对矩提取10维特征,该特征对经过JPEG压缩的图像库有很好的检测性能。Pevny等[24, 25]讨论了LSB匹配对图像相关性的影响,提出了带阈值的马尔科夫链模型。

17

空域图像LSB匹配隐写分析技术

本章提出基于图像直方图的隐写分析特征,通过分析LSB匹配对图像直方图的影响,使用图像直方图曲率和作为隐写分析特征刻画由LSB匹配导致的直方图平滑现象。针对图像多样性导致的隐写分析特征不稳定问题,采用二次嵌入对特征进行校准。本章余下内容安排如下:第二节分析LSB匹配模型并提出本章的直方图曲率和特征;第三节在大规模图像库上进行实验,并与其他算法进行对比;第四节为本章总结与分析。

3.2 特征提取

3.2.1 LSB匹配模型及分析

Is为载体图像Ic经过LSB匹配后得到的载密图像,设Ic为一幅灰度载体图像,

Ic(i,j)、Is(i,j)分别为载体图像Ic和载密图像Is在位置(i,j)的灰度值,其中0?Ic(i,j、)I)s(i,j?2且56cIi(、,j)sIi(?,j。)对于二进制秘密信息b,LSB匹配嵌

入策略如下:

?Ic(i,?I(i,?cIs(i,j)???Ic(i,??Ic(i,j), Ic(i,j)mod2?bj)?1, Ic(i,j)mod2?b&0?Ic(i,j)?255j)?1, Ic(i,j)mod2?b&Ic(i,j)?0j)?1, Ic(i,j)mod2?b&Ic(i,j)?255 (3.1)

定义图像I的一维直方图为h(n)?|{I(i,j)|I(i,j)?n}|,hc(n)和hs(n)分别代表载体图像Ic和载密图像Is的一维直方图。则嵌入率为p的LSB匹配对图像直方图影响可公式化表示为:

ppp?h(n)?(1?)h(n)?h(n?1)?hc(n?1),n?{2?253},cc?s244??h(0)?(1?p)h(0)?ph(1), cc?s24?ppp? (3.2) ? hs(1)?(1?)hc(1)?hc(0)?hc(2),224?ppp?h(254)?(1?)h(254)?h(253)?hc(255), cc?s242??h(255)?(1?p)h(255)?ph(254)cc?s24?若不考虑直方图的边界,嵌入率为p的携秘图像的图像直方图相当于对载体图像直方图进行一个核为[p/4,1?p/2,p/4]低通滤波。低通滤波的作用导致携秘图像直方图平滑于载体图像直方图。

3.2.2 图像直方图几何度量

将图像直方图的顶点依次用线段连接,得到含有256个有序点列的离散曲线,记为?hi?i?0。由于LSB匹配对图像直方图有低通滤波效应,导致直方图被平滑,而

25518

工程硕士学位论文

曲率是刻画平滑性的最佳方式,因此直方图曲率和(Sum of Curvature of Histogram,简称为SCH)可以刻画由LSB匹配导致的直方图被平滑现象。

为了计算直方图曲率和,首先需要计算直方图上每一点的曲率(Curvature of Histogram,简称为CH)。以计算hi点的曲率为例,图3.1显示了hi点及其直方图上的相邻点,与计算相关的距离已用符号在图中表示。将hi处的曲率记为CHi,则[60]

CHi?2?hi?1hihi?1didi?1d' (3.3)

?(di?di?1?d')?(di?1?d?di')?(di?d'?di?1)?(di?di?1?d')?/8didi?1d'

图3.1 单点曲率计算示例

式(3.3)中计算各种距离需要设置两离散点之间的水平距离。由于本章算法所采用的直方图未被均衡化,对于不同尺寸图像的直方图,两离散点的垂直距离相差很大,会导致获得的曲率值相差也很大。本章通过设置一个与图像尺寸相关的动态值消除这种影响,本章中两离散点之间的水平距离采用图像像素点数目的开方。

定义直方图曲率和为:

SCH??CHi (3.4)

i?1254将载体图像的直方图曲率和(SCH)记为SCHc,携秘图像的直方图曲率和(SCH)记为SCHs,由上文分析,LSB匹配会导致图像直方图曲率和下降,即:

SCHs?SCHc (3.5)

在NRCS原始图像库及其对应的隐写图像库上提取直方图曲率和(SCH),得到了如图3.2的实验结果,为便于观察,此处只显示出400对数据。从图3.2可以发现,携秘图像的直方图曲率和小于载体图像的直方图曲率和。从实验角度验证了SCHs?SCHc的结论。

19

空域图像LSB匹配隐写分析技术

图3.2 NRCS图像库上隐写前后SCH值

3.2.3 图像校准机制

图3.2显示直方图曲率和特征在隐写后有明显降低,但特征值并非很好的聚集在一条水平直线上,同类图像的特征并不是很稳定,不能用一个阈值分开两类图像,这对分类性能有很大的负面影响。事实上,自然图像内容千奇百怪,大小不一,呈现多样性,导致图像特征不稳定。为了消除图像内容多样性导致的特征不稳定问题,有必要对特征进行校准。Ker[16]采用1/4下采样技术对HCF COM特征进行校准,取得很好效果。Fridrich[50]选用“解压-裁剪-压缩”的方式对特征进行校准。夏志华等[26]利用小波去噪构造校准图像校准特征,去噪类型的校准方式其实就是对隐藏信息的擦除,是对载体图像的估计。另外,对特征归一化也能一定程度上消除图像多样性对特征不稳定的影响。采用校准机制的最后特征一般是待检测图像的特征与校准图像的特征比值。

不同的嵌入率对图像有着不同的影响程度,低嵌入率对图像影响程度很小,而高嵌入率对图像影响程度大,并且随着嵌入率的增加,单位嵌入率对图像影响程度更小,类似与计算数学中的收敛。我们利用不同嵌入率对图像造成影响程度的不同,采用二次满嵌入对图像进行校准。显然,二次满嵌入对低嵌入影响很大,而对高嵌入率影响很小。本算法的最后特征为待检测图像的直方图曲率和与校准图像的直方图曲率和比值。图3.3为特征校准流程图。图3.4显示了利用二次满嵌入特征校准机制后,在NRCS图像库上隐写前后特征的变化情况。与图3.2相比,经过二次满嵌入校准后的特征有了明显改观。

20

工程硕士学位论文

IdSCHdLSB matchSCHdSCHccIccSCHcc 图3.3 特征校准流程图

图3.4 采用校准机制的NRCS图像库上隐写前后SCH值

3.2.4 归一化

特征归一化技术是模式识别领域常用的数据处理技术,归一化的目的是消除量纲对分类性能的影响,是一种无量纲处理手段。特征归一化分为按行归一化和按列归一化,在数字图像隐写分析领域按行归一化有特征校准的效果。按列归一化主要是将特征各个分量数据限制到统一的数据范围内,按列归一化不仅能提高分类性能,还能增加支持向量机(SVM)的收敛速度。一般来讲,特征向量不同分量的数据具有不同的量纲,各分量的数量级也可能会有很大差别,而在分类器的代价函数中,具有大数据值的特征分量比小数据值的特征分量影响会更大,但数据值的大小却不能反映该分量对分类的重要性,在各特征分量数量级相差很大的情况下,对特征进行按列归一化有着重要的意义[61]。

本章将待检测图像直方图曲率和,校准图像直方图曲率和及二者比值作为隐写分析的特征,分量之间存在较大的数量级差距,采用按列归一化消除量纲对数量级差距的影响。本章算法已经采用二次嵌入机制对特征进行校准,故不考虑按行归一化的校准,对特征仅做按列归一化。对于某个特征分量,按列归一化首先需要在训练样本的所有特征中找出该特征分量的最大值fmax和最小值fmin,对于特征分量f,然后采用式(3.7)的计算公式计算归一化后的特征f?。采用式(3.7)归一

21

空域图像LSB匹配隐写分析技术

化公式得到的特征值都将会落在[0,1]内。

f??f?fmin (3.6)

fmax?fmin3.2.5 特征提取流程图

为了更为清晰的展示本章算法,将直方图曲率和(SCH)特征提取过程归纳如下:

第一步:对待检测图像Id,计算直方图曲率和SCHd。

第二步:对待检测图像Id,采用二次满嵌入机制获取校准图像Icc,计算校

准图像Icc的直方图曲率和SCHcc。

第三步:对待检测图像的SCHd和校准图像的SCHcc进行比值。 第四步:得到三维隐写分析特征为:SCHd、SCHcc、

SCHd。 SCHcc第五步:对所得三维隐写分析按列进行归一化,得到最终隐写分析特征:

?SCHd?'SCHd'、SCHcc、??。

?SCHcc?'3.3 支持向量机

分类器通过在训练库上进行学习(训练阶段)后,能够对测试库样本自动分到已知类别(测试阶段)。分类器的实质为数学模型,属人工智能(AI)范畴。迅速发展起来的分类器算法(Bayes分类器,BP神经网络分类器,决策树算法,支持向量机(SVM)算法等)已经在许多领域取得了成功应用。

支持向量机(SVM)由于其在解决小样本、非线性及高维模式识别中体现的独到优势,被得到广泛研究和应用。图3.5为三种支持向量机的图例:1)线性可分支持向量机2)线性不可分支持向量机和3)非线性支持向量机。支持向量机的关键问题是求解既能将两类样本分开又能使两类样本之间的间隔最大的分类面,即求解最大间隔超平面。对于非线性支持向量机,首先将难于划分的低维向量使用核函数映射到高维空间,使用核函数能够确保计算复杂度增加不明显,然后利用对偶方法,拉格朗日乘数,Karush-Kuhn-Tucker (KKT)条件等最优化技术求解。求解支持向量机的最大间隔超平面具有很高的时间复杂度,并且随着特征维数和样本数量的增加而增加,严重局限支持向量机的实用。

22

工程硕士学位论文

1)线性可分支持向量机

2)线性不可分支持向量机 3)非线性支持向量机

图3.5 三种支持向量机图例

LIBSVM[62]是台湾大学林智仁博士团队开发的SVM软件包,被学术界广泛使用。该软件包含有四种常用的核函数,其中以径向基函数(RBF)效果最佳。对支持向量机的参数,LIBSVM采用交叉验证方法进行自动搜索,并且提供参数搜索工具“Cross-validation and Grid-search”。此外,LIBSVM还提供特征归一化,ROC曲线绘制及其覆盖面积AUC计算工具。本章采用LIBSVM 3.1版本对本章提出算法进行训练和测试。

3.4 实验结果与分析

3.4.1 图像库

隐写分析特征严重受到图像类型(图像噪声,图像内容)的影响,导致特征不稳定,降低检测性能。为了更好的评价本章提出的算法,我们在两个经典的图像库上进行试验。

Set#1:2,069幅从greenspun库[63]下载的RGB图像。图像的大小不一,但都近似分布在650×450左右。将greenspun库的2,069幅RGB图像转换为灰度图像,

23

空域图像LSB匹配隐写分析技术

得到2,069幅的greenspun库灰度图像。将greenspun灰度图像库用LSB匹配隐写算法进行秘密信息嵌入,秘密信息长度为图像最大嵌入量的100%、75%、50%和25%。四种不同嵌入率的携秘图像和greenspun灰度图像库一起,构造了含有

2,069??4+1?=10,345幅灰度图的图像库,并记为Set#1。该图像库被Fridrich、Farid

等人使用[50, 64]。

Set#2:3,162幅从NRCS库[65]下载的以TIFF格式存储的RGB图像。图像尺寸是2100×1500 或 1500 × 2100。该图像库图像是未经JPEG压缩过的图像,相对JPEG压缩过图像,该图像库图像噪声大。将NRCS库3,162幅RGB图像转换为灰度图像,得到3,162幅的NRCS库灰度图像。将NRCS灰度图像库用LSB匹配隐写算法进行秘密信息嵌入,秘密信息长度为图像最大嵌入量的100%、75%、50%和25%。四种不同嵌入率的携秘图像和NRCS灰度图像库一起,构造了含有

3,162??4+1?=15,810幅灰度图的图像库,并记为Set#2。该图像库也被大量隐写分

析实验引用[66, 67]。

3.4.2 实验结果

将3.4.1中介绍的两个图像库都分为不重叠的训练库和测试库。

对于Set#1,训练库由1,000幅载体图像和1,000对应的隐写图像组成,即

345幅图像库构1,000?2=2,000幅。测试库则由与训练库不重叠的1,069??4+1?=5,成,其中1069幅载体图像,1,069?4=4,276幅携秘图像。

对于Set#2,训练库由1,000幅载体图像和1,000对应的隐写图像组成,即

310幅图像库构1,000?2=2,000幅。测试库则由与训练库不重叠的2,062??4+1?=10,成,其中2062幅载体图像,2,062?4=8,248幅携秘图像。

一般来讲,为了保证分类器的泛化性能,训练样本数目随着特征维数的增多而呈指数级增长。由于本章算法和对比算法特征维数不高,用于训练的样本数远大于特征维数的10倍,对分类器的泛化性能能够给予保证。

采用非线性支持向量机作为本章分类器,分类器的核函数采用径向基函数(RBF)。分类器惩罚参数C和核参数?使用LIBSVM提供的“Cross-validation and Grid-search”工具进行交叉验证,得到最优参数对(C,?)。本章算法对于两个图像库的参数对(C,?)见表3.1。

表3.1 支持向量机在SCH特征集上最优参数对

算法名称 本章算法

图像库

Set#1 (2,0.03125)

Set#2

(81922, 0.0078125)

图3.6通过ROC曲线显示了本章算法在Set#1,Set#2上四种嵌入率(100%、75%、50%和25%)下的检测性能。在图例中,嵌入率前的数值为该嵌入率的ROC

24

工程硕士学位论文

曲线下面积(AUC)。从图3.6可以看出,本章算法在两个图像库上都具有很高的检测率,而且检测率随嵌入率的增大而增高,这是因为高嵌入率对图像的影响程度大于低嵌入率对图像的影响程度,影响程度越大,留下的修改痕迹就越容易被捕捉,这符合数字图像隐写分析的基本准则。

(a)greenspun图像库 (b)NRCS图像库

图3.6 SCH特征在各个嵌入下ROC曲线

3.4.3 对比效果

本小节通过将本章算法SCH与KER等[16]的HCF COMs,张军等[18]的ALE及Yu的Runlength[34]在嵌入率为100%、75%下进行对比,评估本章算法的性能。HCF COMs代表Conventional HCF COM ,Calibrated HCF COM, Adjacency HCF COM ,Calibrated Adjacency HCF COM四种特征。各种算法对于两个图像库的LIBSVM参数对(C,?)见表3.2。图3.7、图3.8分别为各个算法在两个图像库对于100%、75%嵌入率的检测结果ROC曲线图。为了更为详细的进行比较,将坐标轴中的虚警率轴只显示0-0.5。

表3.2 各算法的支持向量机最优参数对

算法名称 本章算法 Runlength ALE HCF COMs

图像库

Set#1 (2,0.03125) (32768,2) (2048,8) (32768,0.001953125)

Set#2

(81922, 0.0078125) (2048,0.125) (32768,2) (8192,0.5)

25

空域图像LSB匹配隐写分析技术

(a)嵌入率为100% (b)嵌入率为75%

图3.7 四种算法在greenspun图像库上的检测性能

(a)嵌入率为100% (b)嵌入率为75%

图3.8 四种算法在NRCS图像库上的检测性能

两个图像库的实验结果都显示,本章提出的算法在各个嵌入率下检测精度都优于其余三种算法。如在嵌入率为100%的情况下,本章算法在Set#1和Set#2上的AUC面积分别达到0.98876和0.97672,而三种对比算法中精度最高的ALE算法只达到0.95394和0.94494。

3.5 小结

本章提出了一种基于图像直方图几何度量的LSB匹配检测算法,该算法具有检测精度高,特征维数低和计算复杂度低等特点。低特征维数可以使得机器学习所需的训练样本数目很少,而低计算复杂度保证算法能对网络中的海量图像进行快速检测。

26

工程硕士学位论文

第4章 基于曲率模式矩阵的隐写分析技术

4.1 引言

数字图像隐写分析是对数字图像隐写技术的攻击技术,能对因特网上日益泛滥的图像隐写技术进行监控和阻截,其关键技术是通过数学建模捕捉由信息嵌入导致的痕迹,即提取对隐写行为敏感的特征。随着图像隐写技术的发展,尽管与原始隐写算法的基本原理保持一致,但由于更多的规则被发现[43, 46],导致相同比特的秘密信息对图像数据的修改量越来越小,对修改痕迹越来越难捕捉,大大增加了图像隐写分析的难度。

图像直方图描述了不同灰度级像素出现的频率,能表征图像的一维信息,在图像隐写分析中被广泛使用[16, 20]。Ker[16]对Harmsen[15]等提出的图像一维直方图特征函数质心进行改进,提出了基于直方图特征函数质心与下采样校准技术相结合的隐写分析特征。Cancelli等[20]在张军[18]的图像直方图局部极值思想上提出10维隐写分析特征。但是图像直方图只能反映图像灰度分布情况,而对于像素的空间信息却无法反映,使得具有相同灰度分布不同内容的多幅图像可以具有相同的直方图。由于目前很多图像隐写算法对图像内容修改量很小,图像直方图对图像信息的描述有限,很难刻画隐写行为导致的变化,如BOSS(Break Our Steganography System)隐写分析竞赛前三甲均非使用图像直方图进行刻画[68]。

自然图像像素之间存在一定的相关性,而隐写行为对这种相关性进行一定扰乱,许多图像隐写分析算法对这种相关性扰乱进行刻画[21, 22, 25]。图像隐写归根结底是对图像像素的修改,势必修改像素之间的相关性。LSB匹配仅仅对图像最低位平面(LSBP)进行修改,因此图像最低位平面的自相关性受到LSB匹配隐写行为而扰乱。图像最低位平面与高位平面的相关性也会改变,这种相关性改变在最低位平面与次低位平面(LSBP2)之间最为明显[21]。Pevny等[24, 25]在差分图像上进行带阈值的马尔科夫链建模,将转移概率矩阵作为隐写分析的特征,该算法是目前为止检测性能最为优越的算法之一。差分图像一定程度上揭示像素的相关性,差分图像的像素值越小,表明与该差分像素相关的两个图像数据相关性越强,反之,差分图像的像素值越大,表明与该差分像素相关的两个图像数据相关性越弱。夏志华等[26]使用共生矩阵在差分图像进行建模,揭示LSB匹配隐写行为对图像像素相关性的改变,取得比较好的检测效果。相比直方图特征,像素相关特征更能捕捉隐写行为导致的微量痕迹,具有更高的检测性能。本章算法就是对图像像素相关进行建模,提出多维隐写分析特征。

本章余下内容如下安排:第二节给出基于像素相关的模型框架,并提出本章

27

空域图像LSB匹配隐写分析技术

算法的模型。第三节介绍本章所选用的分类器。第四节在大规模图像库上给出本章模型的检测性能。最后一节对本章进行总结。

4.2 特征提取

4.2.1 高维特征空间构造

设I为一幅灰度图像,I(i,j)为图像I在位置(i,j)的灰度值(0?I(i,j)?256且I(i,j)?Z)。为了对图像像素相关性进行建模,定义图像像素点邻域。

定义4.1 图像像素点邻域是以该像素为中心,围绕在该像素点附近的像素集合。

图像相邻像素存在一定的相关性,而隐写行为对图像相邻像素的相关性有一定扰乱。但图像相邻像素之间的相关性由于只涉及两个像素,很容易通过改进图像隐写算法而得到保持。图像邻域作为图像像素的组合,相邻邻域必然存在相关性,并且图像相邻邻域的相关性会随着隐写行为的进行而改变。本章算法的基本思想是将每一图像邻域视为一个基本单元并对其进行非线性变换,将所得的变换值按原来顺序进行排列,得到变换域的一个数值矩阵,将该矩阵记为模式矩阵,见图4.1。

图4.1 图像数据矩阵邻域变换

特征维数对图像隐写分析有着重要影响,一般来讲,高维数的特征能够更精细的对图像进行刻画,但特征维数太高势必造成维数灾难,不仅需要更多的样本进行训练,而且训练所消耗的时间也会变的无法容忍。在保证适当特征维数的同时,还需要单个特征具有很好的识别性能,即能够在非线性变换域寻找到对隐写行为敏感的特征。曲率是弯曲程度的数值度量,是对变化快慢的描述。曲率越

28

本文来源:https://www.bwwdw.com/article/i0og.html

Top