图像处理基础知识调研报告

更新时间：2023-12-28 01:12:01 阅读量：教育文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

科研调查报告

研究题目：实验室科研调查

指导老师：

作者：

专业班级：日期：

1 / 35

科研调查报告

一、视频图像特点 4 二、如何从视频图像中检测出运动目标？ 5 2.1 图像增强及其锐化 5 2.1.1 梯度图像直接输出 2.1.2加阈值的梯度输出 2.1.3轮廓灰度规定化输出 2.1.4背景灰度规定化输出 2.1.5二值化图像输出 2.2差分检查 2.3阈值分割及形态学滤波 2.4 运动目标检测实验结果三、计算机视觉信息处理 3.1目的和意义 3.2方法与技术 3.3应用方向四、《面向自动识别的文档图像处理技术》调研 4.1课题研究的背景 4.2国内外研究现状与水平 4.3研究目的与意义 4.4总体研究思路 2 / 35

6 6 6 7 7 7 8 8 9 9 10 11 14 14 16 16 16

科研调查报告

4.4.1图像校正 17 4.4.2版面分析 20 4.4.3类型识别 21 4.4.4污损检测和复原 23 五、课题相关文献 24 5.1《基于投影的文档图像倾斜校正方法》 24 5.2《表格文档预处理方法的研究》 26 5.3《文本图像几何畸变自动检测与分类的实现》 28 5.4《OCR binarization and image pre-processing for searching historical documents.》 31 5.5《optical character recognition》 32 5.6《Geometric rectification of camera-captured document images》33

3 / 35

科研调查报告

一、视频图像的特点

视频图像用数字任意描述像素点、强度和颜色。描述信息文件存

储量较大，所描述对象在缩放过程中会损失细节或产生锯齿。在显示方面它是将对象以一定的分辨率分辨以后将每个点的色彩信息以数字化方式呈现，可直接快速在屏幕上显示。分辨率和灰度是影响显示的主要参数。图像适用于表现含有大量细节（如明暗变化、场景复杂、轮廓色彩丰富）的对象，如：照片、绘图等，通过图像软件可进行复杂图像的处理以得到更清晰的图像或产生特殊效果。

计算机中的图像从处理方式上可以分为位图和矢量图，从中得到的视频图像。

视频图像处理是对图像进行分析、加工、和处理，使其满足视觉、心理以及其他要求的技术。图像处理是信号处理在图像域上的一个应用。目前大多数的图像是以数字形式存储，因而图像处理很多情况下指数字图像处理。此外，基于光学理论的处理方法依然占有重要的地位。图像处理是信号处理的子类，另外与计算机科学、人工智能等领域也有密切的关系。传统的一维信号处理的方法和概念很多仍然可以直接应用在图像处理上，比如降噪、量化等。然而，图像属于二维信号，和一维信号相比，它有自己特殊的一面，处理的方式和角度也有所不同。几十年前，图像处理大多数由光学设备在模拟模式下进行。由于这些光学方法本身所具有的并行特性，至今他们仍然在很多应用领域占有核心地位，例如全息摄影。但是由于计算机速度的大幅度提高，这些技术正在迅速的被数字图像处理方法所替代。从通常意义

4 / 35

科研调查报告

上讲，数字图像处理技术更加普适、可靠和准确。比起模拟方法，它们也更容易实现。专用的硬件被用于数字图像处理，例如，基于流水线的计算机体系结构在这方面取得了巨大的商业成功。今天，硬件解决方案被广泛的用于视频处理系统，但商业化的图像处理任务基本上仍以软件形式实现，运行在通用个人电脑上。二、如何从视频图像中检测出运动目标？

在数字视频处理和计算机视觉领域的各种应用中,目标的检测和

跟踪是一个重要的,也是最基本的任务. 运动目标检测与跟踪算法性能直接影响运动目标跟踪系统的精确度和稳定性，因此，研究一种鲁棒性好、精确、高性能的运动目标检测与跟踪算法是提高监控系统性能的关键。本文从视频图像的获取、预处理及目标检测与跟踪方法进行研究，并对采用不同方法得到的实验结果进行了对比分析。

运动目标检测是在一段序列图像的每帧图像中找到感兴趣的运动

目标所在的位臵，其难点在于如何快速而可靠地从一帧图像中匹配目标。在本系统中，由于摄像头固定，采集到的图像背景基本不变，故选取基于运动的帧间差分法。图像采集采用CCD 摄像头。为减少处理运算量，将采集到的彩色图像转换为灰度图像，再进行预处及目标检测。真彩图像到灰度图像的变换为Y=0.299R+0.587G+0.114B，其中Y 为灰度图像的灰度值， R、G、B 为红、绿、蓝三通道颜色值。

2.1 图像增强及其锐化

图像增强采用了中值滤波和灰度均衡化技术。由于滤波后的图像

5 / 35

科研调查报告

边界、轮廓往往会变模糊，需要利用图像锐化技术使图像的边缘变清晰。对一幅图像f(x，y)，它的梯度是一个矢量，梯度值的大小与相邻像素的灰度差值成正比。计算出图像f(x，y)的梯度值后，可以采用不同形式突出图像的轮廓，现采用下列方法进行了研究。 2.1.1、梯度图像直接输出

设输出图像为g (x，y)，梯度图像直接输出的表达式为： g(x，y)=|G[f(x，y)]|。原图像所有灰度变化平缓的区域，在输出图像g(x，y)上均变成了暗区，只有图像的轮廓部分在g (x，y) 上才表现为亮区（点、线或区）。由于图像上相邻像素的灰度值相关性一般很高，故输出图像g(x，y)总体上讲显得非常暗淡。 2.1.2、加阈值的梯度输出

6 / 35

科研调查报告

来实现。

2.1.4、背景灰度规定化输出

当背景的灰度变化造成图像轮廓不明显突出时，若只想突出轮廓而允许非轮廓像素的灰度层次，可把背景（非轮廓像素）规定成一个灰度级LB，其表达式为g(x，y)=|G[f(x，y)]||G[f(x，y)]|≥TLB |G[f(x，y)]|＜＜ T（3）按这种方式输出的图像，认定为非轮廓的像素均变为LB，而认定是轮廓的像素的灰度值以其梯度值来代替。 2.1.5、二值图像输出

若只关心每个像素是轮廓像素还是非轮廓像素，这时可以采用二值化的图像输出方式，其表达式为g(x，y)=LG |G[f(x，y)]|≥TLB |G[f(x，y)]|＜ ≥ T（4）按这种方式输出的图像，结果是整幅图像上所有像素只有两种可能的灰度值。这5 种不同的锐化方法各有优点，在完成帧间差分及阈值分割后将会对这5 种方法进行比较，找出最优方法。 2.2 差分检测

预处理之后的图像成为适合于计算机分析处理的图像，然后进行运动目标的检测。帧间差分法是基于运动图像序列中相邻两帧图像间具有强相关性而提出的检测方法。在摄像头固定的情况下，对连续的图像序列中的相邻两帧图像采用基于像素的时间差分来提取图像中的运动区域，设在t1时刻和t2时刻采集到同一背景下的两幅运动图像为f1(x，y)和f2(x，y)，则差分图像的定义为：fd(x，y)=f1(x，y)-f2(x，y)。对上式的差分结果进行阈值处理，就可以提取出运动的物体。

7 / 35

科研调查报告

2.3 阈值分割及形态学滤波

图像分割是图像分析、理解和计算机视觉中的难点。在图像分割的诸多方法中，阈值化技术是一种简单有效的方法，最大类间方差（Otsu）是广泛使用的阈值分割方法之一[3]。其基本思想是利用图像的灰度直方图，以目标和背景的方差最大来动态地确定图像的分割阈值。二值化后的图像往往会含有许多孤立的点、小区域以及小空隙和孔洞，为了解决阈值分割后的差分图像可能会存在的一些目标空洞和少量的孤立噪声的问题，这些均会对今后目标位臵的判断存在干扰，导致接下来跟踪丢失或者跟踪错误。因此，本文使用了数学形态学图像处理，适当地选取形态运算子和滤波窗口可以很好地排除杂点，消除物体内部的细小空隙。主要方法为膨胀和腐蚀。本系统分别使用3 阶和5 阶窗口进行形态学滤波操作。 2.4 运动目标检测实验结果

首先将采集到的图像序列（见图1 （a）、（b））转变为灰度图像，然后进行中值滤波和灰度均衡。采用(一) 中的5 种图像锐化方法分别对两幅滤波后的图像进行处理，然后利用5 种锐化后的图像进行帧间差分以及阈值分割，最终得到含有运动目标的二值图像。效果如图1 所示。

由实验结果可知，锐化效果最好的是第5 种方法，即二值图像输出方法。这种方法基本上可以准确地检测出运动物体；虽然还存在一些细小空洞，但在对其进行形态学滤波之后便可以完全消除，如图1 中(g) 所示。

8 / 35

科研调查报告

(a) 原始序列第5帧 (b)原始序列第6帧

(e) 轮廓灰度规定化输出差分效果 (f) 背景灰度规定化输出差分效果

(g) 二值图像输出差分效果

图1 运动目标检测效果图三、计算机视觉信息处理 3.1目的和意义

9 / 35

科研调查报告

计算机视觉是一门研究如何使机器?看?的科学，更进一步的说，就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，用电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。这里所指的信息指Shannon定义的，可以用来帮助做一个?决定?的信息。因为感知可以看作是从感官信号中提取信息，所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中?感知?的科学。

计算机视觉是使用计算机及相关设备对生物视觉的一种模拟。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息，就像人类和许多其他类生物每天所做的那样。计算机视觉既是工程领域，也是科学领域中的一个富有挑战性重要研究领域。计算机视觉是一门综合性的学科，它已经吸引了来自各个学科的研究者参加到对它的研究之中。其中包括计算机科学和工程、信号处理、物理学、应用数学和统计学，神经生理学和认知科学等。

3.2方法与技术

计算机视觉就是用各种成象系统代替视觉器官作为输入敏感手段，由计算机来代替大脑完成处理和解释。计算机视觉的最终研究目标就是使计算机能象人那样通过视觉观察和理解世界，具有自主适应环境的能力。要经过长期的努力才能达到的目标。因此，在实现最终

10 / 35

科研调查报告

目标以前，人们努力的中期目标是建立一种视觉系统，这个系统能依据视觉敏感和反馈的某种程度的智能完成一定的任务。例如，计算机视觉的一个重要应用领域就是自主车辆的视觉导航，目前还没有条件实现象人那样能识别和理解任何环境，完成自主导航的系统。因此，目前人们努力的研究目标是实现在高速公路上具有道路跟踪能力，可避免与前方车辆碰撞的视觉辅助驾驶系统。这里要指出的一点是在计算机视觉系统中计算机起代替人脑的作用，但并不意味着计算机必须按人类视觉的方法完成视觉信息的处理。计算机视觉可以而且应该根据计算机系统的特点来进行视觉信息的处理。但是，人类视觉系统是迄今为止，人们所知道的功能最强大和完善的视觉系统。如在以下的章节中会看到的那样，对人类视觉处理机制的研究将给计算机视觉的研究提供启发和指导。因此，用计算机信息处理的方法研究人类视觉的机理，建立人类视觉的计算理论，也是一个非常重要和信人感兴趣的研究领域。这方面的研究被称为计算视觉（Computational Vision）。计算视觉可被认为是计算机视觉中的一个研究领域 3.3应用方向

计算机视觉领域的突出特点是其多样性与不完善性。这一领域的先驱可追溯到更早的时候，但是直到20世纪70年代后期，当计算机的性能提高到足以处理诸如图像这样的大规模数据时，计算机视觉才得到了正式的关注和发展。然而这些发展往往起源于其他不同领域的需要，因而何谓?计算机视觉问题?始终没有得到正式定义，很自然地，?计算机视觉问题?应当被如何解决也没有成型的公式。

11 / 35

科研调查报告

尽管如此，人们已开始掌握部分解决具体计算机视觉任务的方法，可惜这些方法通常都仅适用于一群狭隘的目标（如：脸孔、指纹、文字等），因而无法被广泛地应用于不同场合。

对这些方法的应用通常作为某些解决复杂问题的大规模系统的一个组成部分（例如医学图像的处理，工业制造中的质量控制与测量）。在计算机视觉的大多数实际应用当中，计算机被预设为解决特定的任务，然而基于机器学习的方法正日渐普及，一旦机器学习的研究进一步发展，未来?泛用型?的电脑视觉应用或许可以成真。人工智能所研究的一个主要问题是：如何让系统具备?计划?和?决策能力?？从而使之完成特定的技术动作（例如：移动一个机器人通过某种特定环境）。这一问题便与计算机视觉问题息息相关。在这里，计算机视觉系统作为一个感知器，为决策提供信息。另外一些研究方向包括模式识别和机器学习（这也隶属于人工智能领域，但与计算机视觉有着重要联系），也由此，计算机视觉时常被看作人工智能与计算机科学的一个分支。

物理是与计算机视觉有着重要联系的另一领域。

计算机视觉关注的目标在于充分理解电磁波——主要是可见光与红外线部分——遇到物体表面被反射所形成的图像，而这一过程便是基于光学物理和固态物理，一些尖端的图像感知系统甚至会应用到量子力学理论，来解析影像所表示的真实世界。同时，物理学中的很多测量难题也可以通过计算机视觉得到解决，例如流体运动。也由此，计算机视觉同样可以被看作是物理学的拓展。

12 / 35

科研调查报告

另一个具有重要意义的领域是神经生物学，尤其是其中生物视觉系统的部分。

在整个20世纪中，人类对各种动物的眼睛、神经元、以及与视觉刺激相关的脑部组织都进行了广泛研究，这些研究得出了一些有关?天然的?视觉系统如何运作的描述（尽管仍略嫌粗略），这也形成了计算机视觉中的一个子领域——人们试图建立人工系统，使之在不同的复杂程度上模拟生物的视觉运作。同时计算机视觉领域中，一些基于机器学习的方法也有参考部分生物机制。

计算机视觉的另一个相关领域是信号处理。很多有关单元变量信号的处理方法，尤其对是时变信号的处理，都可以很自然的被扩展为计算机视觉中对二元变量信号或者多元变量信号的处理方法。但由于图像数据的特有属性，很多计算机视觉中发展起来的方法，在单元信号的处理方法中却找不到对应版本。这类方法的一个主要特征，便是他们的非线性以及图像信息的多维性，以上二点作为计算机视觉的一部分，在信号处理学中形成了一个特殊的研究方向。

除了上面提到的领域，很多研究课题同样可被当作纯粹的数学问题。例如，计算机视觉中的很多问题，其理论基础便是统计学，最优化理论以及几何学。

如何使既有方法通过各种软硬件实现，或说如何对这些方法加以修改，而使之获得合理的执行速度而又不损失足够精度，是现今电脑视觉领域的主要课题。

计算机视觉就是用各种成象系统代替视觉器官作为输入敏感手

13 / 35

科研调查报告

段，由计算机来代替大脑完成处理和解释。计算机视觉的最终研究目标就是使计算机能象人那样通过视觉观察和理解世界，具有自主适应环境的能力。要经过长期的努力才能达到的目标。因此，在实现最终目标以前，人们努力的中期目标是建立一种视觉系统，这个系统能依据视觉敏感和反馈的某种程度的智能完成一定的任务。例如，计算机视觉的一个重要应用领域就是自主车辆的视觉导航，目前还没有条件实现象人那样能识别和理解任何环境，完成自主导航的系统。因此，目前人们努力的研究目标是实现在高速公路上具有道路跟踪能力，可避免与前方车辆碰撞的视觉辅助驾驶系统。这里要指出的一点是在计算机视觉系统中计算机起代替人脑的作用，但并不意味着计算机必须按人类视觉的方法完成视觉信息的处理。计算机视觉可以而且应该根据计算机系统的特点来进行视觉信息的处理。但是，人类视觉系统是迄今为止，人们所知道的功能最强大和完善的视觉系统。如在以下的章节中会看到的那样，对人类视觉处理机制的研究将给计算机视觉的研究提供启发和指导。因此，用计算机信息处理的方法研究人类视觉的机理，建立人类视觉的计算理论，也是一个非常重要和信人感兴趣的研究领域。这方面的研究被称为计算视觉（Computational Vision）。计算视觉可被认为是计算机视觉中的一个研究领域。

四、课题研究《面向自动识别的文档图像处理技术》——方小敏 4.1课题研究的背景

信息技术的发展促使了电子文档的产生,电子文档在存储、传输、

处理等方面具有纸质文档不可比拟的优越性,而纸质文档也因其耐用

14 / 35

科研调查报告

性和安全性弥补了电子文档的部分缺陷.两者各有其特点、优势和存储方法,形成了共同发展、相互补充的共存态势.

有人说，电子文档将最终代替纸质文档，但纸质文档本身具备电

子文档不具备的传统优势。我们日常生活与各种纸质文档打交道最多，比如说身份证，火车票，餐票，发票，名片，校园卡等等，他们在我们的生活中扮演者十分重要的作用。同时，我们也可以发现，纸质文档的认可度十分高。我们各种各样的活动，证明，合同等等都需要纸质文档，才能得到他人，各种政府部门，企业等权威机构的承认。同时，纸质文档涉足到我们生活的各种领域，是我们生活学习工作的最具认可度的文件，因为纸质文档他的修改度，时效度等都是有限的，所以它的真实度也是很高，毕竟和我们接触最为接近的文件。

但随着计算机科学技术的飞速发展与社会的发展，电子文档开始

逐渐走进我们的生活中，并且日益普及。电子文档是指人们在社会活动中形成的，以计算机盘片、磁盘和光盘等化学磁性材料为载体电子文档的文字材料。依赖计算机系统存取并可在通信网络上传输。它主要包括电子文书、电子信件、电子报表、电子图纸等等。

电子文档具备以下特点。电子文档区别于印刷品文档主要有以下

四个特点：容易修改、容易删除、容易复制、容易损坏。但这些优点似乎又成为了电子文档的缺点。正是由于电子文档容易修改，删除，损坏的特点，如果不能很好的保护，就可能受到非法的修改，不管这种修改是有意还是无意的，都会给文档所有者带来一定程度的损失，这个时候它又变成一个缺点。总的来说都有其优缺点。

15 / 35

科研调查报告

我们如果能利用纸质文档与电子文档各自的优势，将他们二者相

结合，将会得到意想不到的效果，意义重大。将纸质文档电子化，这将是我们本次课题的目的，这是一个艰巨的任务，但所带来的巨大优势将给我们学习生活工作上都带来方便，更有利于社会的进步，管理的优化，生活的美好。 4.2国内外研究现状与水平

文档图像的电子化一般采用OCR技术。OCR的研究始于60、70年代，90年代至今，包括清华大学，中科院等一批高等院校都进行了OCR的相关研究。

在应用领域，目前OCR软件公司有?汉王?、尚书?、?清华紫光?等,国外公司比如IBM、Motorola、HP和Microsoft等也有自己的产品。这些软件对文档质量均有较高要求。提高文档质量的文档图像处理技术方面的研究空间大。 4.3研究目的与意义

1、将纸质文档电子化，充分发挥纸质文档中的各种优势。 2、更好地对各种容易出现破损遗失的纸质文档进行保存。 3、加强对各种文档进行合理化的管理。

4、文档作为信息的载体，在社会生活中占有着十分重要的地位。通常，我们可以把存储在计算机中或纸上的一切具有阅读意义的信息称为文档。文档可以通过扫描仪/、数码相机或文档处理系统进入计算机，转化为文档图像或者电子文档，从而使人们能够方便有效地对其进行存储、管理、传输。

16 / 35

科研调查报告

4.4总体研究思路

纸质文档文档图像图像校正预处理 OCR技术无损检测与修复版面分析字符识别电子文档类型识别

主要技术OCR技术

OCR （Optical Character Recognition光学字符识别）技术，是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息的过程。如何辅助信息提高识别正确率，是OCR最重要的课题，ICR（Intelligent Character Recognition）的名词也因此而产生。衡量一个OCR系统性能好坏的主要指标有：拒率、误识率、识别速度、用户界面的友好性，产品的稳定性，易用性及可行性等。 4.4.1图像校正（1）图像倾斜校正

17 / 35

科研调查报告

文档处理系统要求的处理对象是工整的文档图像，或者倾斜角度已知，否则许多对图像的操作，例如投影分析，图像分割等就无法进行。显然，扫描进计算机的文档图像无法保证一定是正的，因此需要利用倾斜检测和校正的方法对其进行处理。经常采用的倾斜角度检测的方法有：基于文本行的检测方法，投影轮廓分析方法，和Hough变换方法等。基于文本行的检测可以用于已知文本行方向（水平或竖直）的文档图像，它利用了对图像中连通体的分析。我们知道，连通体是一个灰度值相同的像素的集合，这个集合中任意两个像素之间都是8-近邻关系。可以用包含连通体内像素的最小矩形来表示连通体，它描述了连通体的大小和位臵信息。如果已知文本行方向，我们就可以将连通体合并成文本行，并用直线逼近。该直线的倾斜角即为文本行的倾斜角。对整幅图像的文本行作同样分析，选出出现频率最高的角度，即可作为图像的倾斜角。

投影操作也是一种基本的图像处理方法。将图像按一定方向作投影，可以得到在该方向坐标轴上分布的波形，它描述了图像沿该方向上的黑像素分布情况。如果图像文本行是水平的，那么沿水平方向的投影波形将具有明显的波峰和波谷。

Hough变换方法是在倾斜检测中最常使用的方法，它抗噪声干扰的能力强，并且不受图像间隙干扰。它的原理是将直线从图像空间映射到参数空间。这样就将原图像中的直线映射到参数空间的一点，而原图像中的一点则对应着参数空间的一条正弦曲线。图像空间中任意两点所对应的正弦曲线在参数空间将相交于一点，进而，通过的直

18 / 35

科研调查报告

线上的所有点所对应的正弦曲线在参数空间都将相交于这一点。基于这一点，我们将直线检测问题转化为参数空间寻找局部最大值的问题。以上是标准Hough变换的基本思想。该方法适于文本行方向预先未知的情况。

(a) 源图像 (b) 倾斜校正后的图像（2）弯曲畸变校正

（3）图像去色及二值化

存储在纸上的文档，若要输入计算机中，首先要通过扫描仪扫描成为数字图像。它可以是彩色图像，也可以是灰度图像，或者是二值图像，取决于扫描的具体过程。但一般文档处理系统要处理的是灰度图像，而且很多成熟的图像处理算法和工具包也是针对灰度图像的。在进入识别阶段时，识别引擎一般是针对二值图像的。因

19 / 35

科研调查报告

此，我们必须对输入的图像进行处理，将其二值化。

图像的二值化处理就是将图像上的像素点的灰度值设臵为0或255，也就是将整个图像呈现出明显的黑白效果。

将256亮度等级的灰度图像通过适当的阀值选取而获得仍然可以反映图像整体和局部特征的二值化图像。在数字图像处理中，二值图像占有非常重要的地位。首先，图像的二值化有利于图像的进一步处理，使图像变得简单，且数据量减小，能凸显出感兴趣的目标轮廓。其次，要进行二值图像的处理与分析，首先要把灰度图像二值化，得到二值化图像。

在我们所研究的文档图像处理这一特定领域中，图像的二值化一般是指将灰度图像转化为只包含黑、白两个灰度的二值图像。文档图像可以看作是由文字、背景、图片三类对象组成，而我们最关心的是文字区域二值化后的结果。

图像的这种转换必然会引起信息丢失，因此采用什么样的算法能够最大限度地保留识别时必需的信息（如字符的连通性），去掉不必要的背景信息和噪声，并且执行时间在实际可接受的范围内，是人们一直以来努力研究的问题 4.4.2、版面分析

文档图像几何结构的理解也称为版面拆解，它是文档图像分析中的一个重要问题。版面拆解的目的是生成一个描述文档图像的层次结构：几何结构。它将图像分割成为具有相同特性的区域，为下一步的区域识别和文字识别做好准备。版面拆解的方法一般有如下三

20 / 35

科研调查报告

算法实现

设文档图像由W×H 个边长为δ 的像素组成，如图1 所示。图像宽为WIDTH，高为HEIGHT，左下角位于坐标原点O。对所有像素按从左到右、从上到下的顺序进行编号，依次为0、1、HW-1，对应的图像灰度值为f[i]，其中0≤i≤HW-1。由上述分析可知，该文方法的关键是实现光束与像素的快速遍历。在文献[9]中，提出了一种射束与像素的遍历算法，该算法通过增量计算，而且主要涉及到加、减法运算，因而具有很高的效率。考虑到多数情况下，文档图像的倾斜角度不会过大。不失一般性，假定光束的斜率k 满足0≤k<1，其上边界直线方程为y=kx+b，下边界直线方程为y=kx+b2。由几何关系不难得到如下性质：性质1 若一个像素在光束内，且其正上方像素也在光束内，则其右上方像素必然也在射束内。性质2 若一个像素在光束内，且其正右方像素也在光束内，则其正上方像素必然不在射束内。性质3 若一个像素在光束内，且其正右方和正上方像素均不在光束内，则其右上方像素必然在光束内。

当0≤k<1 时，由于光束在X 方向比Y 方向变化要块，所以沿X 方向步进。在步进过程中，当确定一个像素K 在光束内时，根据上述性质，下一个要遍历的像素按如下规则来确定（1）首先判断正右方像素K+1 是否在光束内，若在，则遍历该像素。（2）若正右方像素K+1 不在光束内，则判断正上方像素K-W 是否在光束内，若在，则依次遍历正上方像素K-W 和右上方像素K-W+1。（3）若正右方像素K+1 和正上方像素K-W 都不在光束内，则遍历右上方像素

26 / 35

科研调查报告

K-W+1。

5.2《表格文档预处理方法的研究》作者：解正梅韩洋（1）广州华立科技职业学院

（2）安凯( 广州) 微电子技术有限公司

内容概况：在文档影像的自动处理中, 去黑边和去噪是影像文档预处理的首要环节。在去除黑边的处理中, 运用了数学形态学的理论和方法去除黑边; 在去噪的过程中, 采用灰度增强和维纳滤波相结合的方法进行图像的去噪。大量的实验结果表明, 文章所采用的方法可行。

图像黑边的去除

黑边指的是扫描图像的黑色边缘。造成扫描图像存在黑边的原因是, 在文档的扫描过程中, 当纸张的大小比扫描区域小时, 某些品牌的扫描仪会在图像的边缘用黑色进行补充。由于黑边不是文档本身的信息, 而是扫描过程中产生的附加信息,因此, 去除黑边对提高图像压缩比, 改善视觉效果都非常有好处; 甚至在一些识别应用中, 对于提高识别率都有很大帮助。因此, 对于扫描图像而言,去黑边是必须的。以下就去除黑边的有关原理和方法予以叙述。（1）数学形态学原理

数学形态学( Mathemat ical Mo rphology ) 是由法国数学家G. Matheron 和J. Serr a 于1964 年提出而逐渐发展起来的数学分支, 成为图像集合特征分析与处理的有力工具, 它用具有一定形态的结构

27 / 35

科研调查报告

元素( st ructure element ) 去度量和提取图像中的对应形状特征, 以达到对图像进行分析和识别的目的。数学形态学的基本运算包括膨胀( Dilation) 、腐蚀( Erosio n) 、开启( Opening ) 和闭合( Clo sing) ,由这些算法可以推导和组合各种实用算法。这种运算通常给出一个图像集合和一个结构元素集合,利用结构元素对图像进行操作。（2）图像减法运算

图像减法运算也称差分方法, 是一种常用于检测图像变化及运动物体的图像处理方法。图像减法可以作为许多图像处理过程的准备步骤。例如,可以使用图像减法来检测一系列相同场景图像的差异。在Mat lab 7. 0 中, 使用imsubtr act 函数可以将一幅图像从另一幅图像中减去, 或者从一幅图像中减去一个常数, 其格式如下Ip= imsubtr act( I, backgr ound) ;上式中的I 表示输入图像, backg round 为另一幅输入图像并且与I 中的图像存在部分相似, imsubt ract 函数将一幅输入图像的像素值从另一幅输入图像相应的像素值中减去, 再将相应的像素值之差作为输出图像相应的像素值。（3）去除黑边算法

去黑边有两种方法, 一是将黑边从扫描图像中裁减掉; 二是用白色填充黑色边缘。在前一种方法下, 图像的大小将会缩小到与原文档相同的实际大小; 而在后一种方法下, 图像的尺寸将保持不变。本文将采用第二种方法。由于图像黑边一般比图像内容灰度大, 所以本文先对灰度图像使用开运算得到只有黑边的图像, 再利用图像的减法运算将黑边去除, 最终达到去除黑边的目的, 具体步骤如下:1) 将彩

28 / 35

科研调查报告

色的表格图像转化为灰度图像;2) 对灰度图像进行开运算;3) 使用图像的减法运算, 将步骤1) 得到的图像减去步骤2) 得到的图像。 5.3《文本图像几何畸变自动检测与分类的实现》作者：(河北工业大学) 吴丽平于明马庆丽

内容概要：OCR 识别、数字文档版面分析等软件在处理存在几何畸变的文本图像前, 需要在预处理阶段对变形文本图像进行必要的几何校正,为实现文本几何畸变图像的自动校正和批量处理,提出了一种对文本图像的几何畸变进行自动检测及分类的方法。该算法结合数学形态学处理与曲线拟合等方法,实现简单,计算量小,识别率高,并且具有较强的鲁棒性。在数字化和信息化的现代,具有广阔的应用前景。 1文本图像的预处理

由于文字颜色的差异、纸上不可避免的污点,或者输入图像时可能有不均匀的亮度, 所有这些都会使我们所获得的文本图像是一个深浅分布不均匀的多值图像, 为了提取文本行的曲征,需要对图像进行二值化处理,并对二值图像进行滤波,以便去除干扰像素。（1）图像的二值化

灰度图像二值化的关键技术是阈值的选取。根据其对象素的处理方式可以分为两大类: 基于局部的阈值选取方法和基于全局的阈值选取方法。典型的全局阈值方法有迭代法和Otsu 算法。典型的局部阈值方法有Bernsen 算法和Niblack 算法。文本图像不同于一般的图形图像,它有自己的特点:文字与背景比率较小;文字大小、密度千差万别;文字与背景底色不均匀。所以单纯通过全局阈值很难得到理想的

29 / 35

科研调查报告

效果,而单纯使用局部阈值方法又很难达到实用性要求, 所以本文采用全局阈值与局部阈值相结合的方法实现二值化, 不仅较好保持局部阈值保留细节的优点,且时间开销少,算法描述如下:1)首先对图像以Otsu 算法,得到全局阈值Threshold。2)扫描整幅图像,如果当前像素的值大于Threshold,则臵f(i,j)=0(其中f(i,j)表示第i 行第j 列的像素点);否则对该像素点施以Niblack 局部阈值化。该算法由于对背景中大部分的像素值, 直接采用了0STU法得到的阈值,只对前景部分采用了局部域值算法。经验证,速度得到了较大的提高。此外,按照一般的认识,前景色应该是? 1?,而背景色是? 0?,这与计算机内对颜色的存储是相反的,因此图像在二值化后,也应该把其结果作反色处理,使其更符合人们的思路,程序调试上也更方便。（2）二值文本图像的滤波

上面得到的二值文本图像不可避免的存在干扰像素, 即图像噪声。因此,在后续操作之前必须对其进行有效的图像滤波,以免对后续处理造成干扰。针对文本图像的特征,本算法采用形态学滤波与中值滤波相结合的方法。由于形态学中的开、闭运算具有消除图像噪声和平滑图像的功能, 因此使用形态学开闭运算建立的形态滤波器逐渐发展起来。形态滤波器是用一个结构元素B 对初始图像串联地使用开启、闭合操作以达到滤波的目的。开启一幅图像可消除图中的孤岛或尖峰等过亮的点。闭合对较暗特征的功能与开启对较亮的特征一样, 它可将比背景亮度低且尺寸比结构元素小的结构除掉。结合形态滤波与中值滤波后的二值文本图像滤波效果良好,且经实验证明为后续处

30 / 35

科研调查报告

理工作打下了良好的基础。

2文本形曲线特征的提取

通过观察可以看出, 在游程图中存在一些不能体现文本行曲线特征的白游程,。为了避免此类游程的干扰, 我们可以根据游程的高度和宽度去掉这些干扰游程。通过实验得出经验值,去掉高度大于3 倍和小于1/3 平均高度的游程,以及宽度小于1/2 平均宽度的游程即可除去干扰游程。然后对每个有效的文本行白游程区段进行穿越线分割处理,在游程图上,水平方向每隔N 个像素的位臵进行垂直方向的穿越,获得一系列的垂直穿越线。所取的N 值应兼顾效率与精度。N 值越大所获的穿越线越少,分析的开销越小,效率越高。但N 值过大意味着抽样的减少,会影响精确性,经实验得知N 值一般可设在20 左右。穿越线将白游程分割成一系列区段,提取每个小区段的质心。为方便观察,该图为截取的一小部分并放大后的图像,且穿越线和质点均用黑色表示了出来。

5.4《OCR binarization and image pre-processing for searching historical documents.》

《二值化和光学图像预处理搜索历史文档》作者：Gupta, Maya R. gupta@ee.washington.edu

Jacobson, Nathaniel P.1 Garcia, Eric K.1

来源：Pattern Recognition; Feb2007, Vol. 40 Issue 2, p389-397, 9p

内容概要：We consider the problem of document binarization as a

31 / 35

科研调查报告

pre-processing step for optical character recognition (OCR) for the purpose of keyword search of historical printed documents. A number of promising techniques from the literature for binarization, pre-filtering, and post-binarization denoising were implemented along with newly developed methods for binarization: an error diffusion binarization, a multiresolutional version of Otsu''s binarization, and denoising by despeckling. The OCR in the ABBYY FineReader 7.1 SDK is used as a black box metric to compare methods. Results for 12 pages from six newspapers of differing quality show that performance varies widely by image, but that the classic Otsu method and Otsu-based methods perform best on average.

我们认为可以利用图像的预处理步骤二值化光学字符识别(OCR)，

通过关键词来搜索的历史文档，并进行打印。同时利用许多先进的技术pre-filtering文献值,实现post-binarization去噪,新开发的二值化方法:一个误差扩散的一个multiresolutional版本的值,最后进行?s值,通过despeckling和去噪。同时OCR还可以在ABBYY FineReader 7.1 SDK度量比较方法。 5.5《光标字符识别》

32 / 35

科研调查报告

我们可以利用OCR （Optical Character Recognition光学字符识别）技术，是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息的过程。

从而我们可以对文档进行图像处理，以便更好的进行管理。 5.6《Geometric rectification of camera-captured document images》

《camera-captured文档图像的几何校正》

作者：Daniel DeMenthon , David Doermann and Jian Liang

来源：IEEE Transactions on Pattern Analysis and Machine Intelligence. 30.4 (Apr. 2008): p591

内容概要：Compared to typical scanners, handheld cameras offer convenient, flexible, portable, and noncontact image capture, which enables many new applications and breathes new life into existing ones. However,

33 / 35

科研调查报告

camera-captured documents may suffer from distortions caused by a nonplanar document shape and perspective projection, which lead to the failure of current optical character recognition (OCR) technologies. We present a geometric rectification framework for restoring the frontal-flat view of a document from a single camera-captured image. Our approach estimates the 3D document shape from texture flow information obtained directly from the image without requiring additional 3D/metric data or prior camera calibration. Our framework provides a unified solution for both planar and curved documents and can be applied in many, especially mobile, camera-based document analysis applications. Experiments show that our method produces results that are significantly more OCR compatible than the original images.

手持相机提供方便、灵活、轻便、图像获取非，使许多新的应用

领域和现有新的现象。然而,camera-captured文件可能会受到扭曲造成形状和透视投影非文件,从而导致失败的电流光符识别技术(OCR)中技术。提出了一种几何校正框架的角度frontal-flat恢复一个文件从一个单一的camera-captured形象。我们的方法是通过估计三维形状纹理文件从直接得到流信息从图像不需要额外的3 D /度量数据或之前相机的标定。我们的框架提供了一个统一的解决方案和弯曲两平面文件,可以应用在很多,特别是移动,camera-based文献资料分析的应用。实验表明,本方法可产生结果,更比OCR兼容原始图像。

34 / 35

科研调查报告

35 / 35

本文来源：https://www.bwwdw.com/article/75kx.html

相关文章：

正在阅读：

图像处理基础知识调研报告12-28

小学优秀女教师先进事迹材料08-22

公路定额应用问题答疑11-18

社区服务中心公共卫生服务工作整改小结03-12

公司解散事由出现时股东也可以申请进行清算06-08

“十三五”重点项目-开办幼儿园项目节能评估报告（节能专篇）03-25

上一篇：复杂网络生态环境下企业技术创新研究下一篇：2019年入党的流程-word范文（2页）