汉王OCR录入工厂软件系统应用方案

更新时间:2023-08-27 11:57:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

汉王OCR录入工厂软件系统应用方案

汉王OCR录入工厂 软件系统应用方案

汉王OCR录入工厂软件系统应用方案

汉王OCR录入工厂软件系统应用方案

一、 背 景 概 述

信息资源对于网络时代,正如蒸汽机于工业社会,我们致力于信息资源建设,正是在构建未来社会的基石。要丰富网络资源,提高原有信息知识的利用效率,对图书、文献等信息资料的数字化就显得尤其重要。

目前,我国各级政府对数字化图书馆工程非常重视,国家专门成立了“863”计划数字化图书馆战略小组,北京市把数字图书馆建设列为四项高科技基础工程之一。这是一个运用现代高科技的数字资源系统工程,涉及到信息资源加工、存储、检索、传输和利用的全过程,是信息基础建设的重要组成部分。但如何将种类繁多的文档资料、行业信息进行出自动化处理,以期满足各种数字化信息的应用呢?这就不能不说到OCR技术(光学字符识别)在信息数字化建设中的至关重要的作用。

二、汉王OCR技术简介

OCR是英文Optical Character Recognition的缩写,意为光学字符识别。中文OCR光学符号识别技术是一种汉字文稿的自动输入方式,它通过光学扫描仪和计算机的配合,经OCR软件将图像数据进行运算分类后,将图像数据转化为计算机内码,这样就可以极大地减轻数据录入工作的强度、提高数据录入的速度。随着数字化信息资源的建设与管理对现有印刷品数字化的需求越来越强,通过OCR技术处理的电子文档将广泛应用于各种电子出版物,网络资源,各种大型文献资料数据库,数字化图书馆等多种领域,OCR技术应用成为信息资源建设中的最重要阶段。

汉王科技公司自1985年就开始从事OCR技术的研究工作,曾受到国家863计划、国家自然科学基金委员会、中国科学院的支持.是国内从事文字识别研究与开发的骨干单位,在联机手写识别、中文OCR识别等方面处于国际领先或先进水平。研究内容涉及到中文、英文、日文、韩文的印刷体识别,中文的手写体识别,手写数字识别,表格识别与还原,版面分析与还原,中文OCR系统.

汉王OCR录入工厂软件系统应用方案

汉王OCR技术的应用涉及到文字识别、身份证识别、银行票据识别、增值税发票识别、表格识别、车牌识别、教育系统的无纸化阅卷、大型网络化数据生产流水线等多方面。同时,汉王公司拥有一支稳定的、优秀的、年轻的、朝气蓬勃的OCR技术研究开发队伍,完全保证了在OCR技术研究方面的技术优势。

OCR技术主要应用

办公自动化中印刷汉字、英文、日文等文件资料的自动输入 建立汉字文献档案库

语言处理中文书刊资料的自动输入 汉字文本图像的压缩存储和传输 书刊自动阅读器,盲人阅读器 书刊资料的再版输入,古籍整理 智能全文信息管理系统,汉英翻译系统 名片识别管理系统 车牌自动识别系统

网络出版

表格、票据、发票识别系统 身份证识别管理系统

在教育系统的应用,如无纸化评卷

汉王OCR技术居国际领先水平

汉字多字体识别

多字体识别全面支持宋体、仿宋、楷体、黑体圆体、隶书、隶变、魏碑、行楷及各种变体 大字符集识别技术

大字符集简繁混排识别支持国标GB2312-80的全部二级汉字,简繁混识不但能识别6700多个简体汉字外,还可识别台湾的繁体5401字,香港繁体字;中英文混排的识别 多识别引擎

采用了3个识别核心来提高识别率,降低误识率。并可准确定位可疑字。 英文混排识别技术:目前已达到国际领先水平。

手写汉字识别:支持GB2312-80全部二级汉字,工整字识别率在95%

汉王OCR录入工厂软件系统应用方案

以上,自由书写字的识别率在80%以上,多识别引擎。 手写体数字识别:3个独立的识别引擎,集成识别率99%以上。 印刷体数字识别:4个独立的识别引擎,识别率在99.5% 表格识别技术:国家级评比第一名

一、 汉王OCR录入工厂软件系统

软件系统定义

是应用OCR技术,为满足书籍、报刊杂志、报表票据、公文档案等的海量录入需求,实现工业化流水线管理方式的大型Intranet软件系统。

目前,许多行业的海量信息资料需要转化成电子文档以便各种应用及管理,但因信息数字化处理的方式落后,不但费时费力,而且资金耗费巨大,造成了大量文档资料的积压,因此就急需一种快速高效的软件系统来满足这种海量录入需求。“OCR录入工厂软件系统”凭借汉王公司在OCR领域的领先技术,结合强大的网络功能,实现了海量纸质文件的快速录入,可广泛运用于数字图书馆、档案资料馆、政府机关等不同机构的大量文字、图表的自动录入,具有巨大的社会效益和经济效益。 录入工厂系统可解决的录入问题

现代各种书籍: 横版、竖版、简体、繁体; 古籍:特别是珍本、善本; 各年代的报刊杂志及内部资料; 各年代公文档案; 各种报表或票据 录入工厂软件系统总体功能:

实现大量原始资料的快速扫描录入与保存; OCR录入、校对、整理

数据库存储、备份、检索和管理; 对各工序环节能进行监督和调度协调; 员工岗位的管理; 质量控制 系统管理; 安全日志;

汉王OCR录入工厂软件系统应用方案

录入工厂软件系统特点

1、大量原始资料的快速扫描录入与保存

各种版式的现代书籍: 横版、竖版、简体、繁体 古籍:特别是珍本、善本 各年代的报刊杂志及内部资料 各年代公文档案

各种报表或票据

汉王表格票据扫描仪扫描速度为:30张/分钟,A4幅面纸:30-35页/分钟

2、汉字识别之王:国际领先的OCR录入、校对、整理功能。

采用汉王先进的OCR识别技术,识别率高、速度快;快捷精确的横校、纵校、对比校对;支持多种电子文档存储格式:PDF、HTML、RTF、TXT,方便地实现全文检索,并将逐步与国际标准电子文档格式接轨。 3、完善的员工管理功能

综合了考勤管理、岗位管理、工资管理三大功能,系统自动记录员工出勤情况,自动为各岗位分配工作并记录分配情况及工作量,并根据以上记录情况生成员工工资明细表;提供轻松友好的工作界面

4、自动进行各工序环节的监督和调度协调

服务器给各岗位分配任务,并进行任务协调,使各客户端的任务既相互独立又形成完整的生产流程,提高工作效率,使得文字处理速度可达到每人班10万字—12万字,比手工录入的效率提高5-8倍

系统自动进行员工工作量计算、差错量监控,可将整体差错量控制在万分之五以内,从而达到了出版质量要求。

对本套系统的监控、管理及日常维护,并定期生成安全日志。

汉王OCR录入工厂软件系统应用方案

系统网络结构图

扫描

图像处理

版面分析

识别

纵向校对

横向校对 还原保存

网络拓扑结构:

汉王OCR录入工厂软件系统应用方案

质量控制和员工管理、系统管理。

文字自动录入功能

OCR海量录入系统采用汉王在OCR领域领先的成熟的文字自动录入技术,可实现自动图像预处理、版面分析,能识别中文简体、繁体、英文及混排,多字体多字号文档。

流水线管理功能

OCR录入工厂系统的操作分为几个步骤:纸质资料的整理、扫描、图像预处理、版面分析、识别、校对和保存。单机OCR系统要求操作员熟悉每个步骤:扫描、图像预处理、版面分析、识别、校对和保存,这种串行的工作方式会降低效率,对操作员技能要求也较高。但是,如果将冗长、复杂的生产过程合理地划分成若干道工序,每道工序操作简便,合理安排工作岗位,并行操作,生产效率和质量就能得到很大的提高。OCR海量录入系统就是采用生产流水线管理方式,根据OCR技术和操作的特点,将生产过程划分成以下几道工序:

工序说明

·图书资料整理:为了便于扫描和以后的查询、检索而进行的图书分类、拆装、命名、编号等。

·扫描:扫描是纸质文稿图像输入计算机的过程。一般把相关文稿顺序扫描,在扫描质量控制程序自动检测并修正后,自动保存到数据库中。

·图像处理:为了提高识别率,对图像进行“消蓝去污”的处理,即去掉图像上影响识别率的噪音如麻点、下划线等,图像质量控制程序自动监测图像处理质量。

·版面分析:能自动进行版面理解并定位,判别划框区域是横排文本区、竖排文本区、表格区还是图像区,并对不同属性的区域以不同颜色的线框标识出来。

汉王OCR录入工厂软件系统应用方案

自动版面分析在后台运行,操作人员可在前台进行确认,必要时对自动版面分析结果加入手工干预。

·识别: 把文字图像转化为计算机文字内码,可以识别印刷体和手写体中文(包括简体字和繁体字) 、表格、中英文混排, 识别出来的文字内码可以是GB码、BIG5码、GBK码或者Unicode码。识别过程在后台运行。

·纵向校对:具有很强的查错纠错能力。纵向校对是将一个图像或若干个图像中识别成同一个字的文字图像列在一起显示,并以突出颜色标出可疑字,便于操作员发现错误和修改。

·横向校对:这是传统的人工校对方法,操作员直接对比识别结果文本和图像,以发现识别错误文字。系统自动调出文字对应的图像,进行比对。同时,以醒目的颜色标出识别可信度不高的文字。

·版面还原:将识别并修改好的文本还原成跟扫描文稿版面的布局一样、可以供计算机阅读和查询检索的RTF、PDF、HTML、 SGML/XML格式的数字文档。

·数据入库: 版面还原数字文档的保存。

质量控制和员工管理

质量控制是为了保证和控制系统的录入质量而采取的一整套方法与措施。主要是在各工序中加入对员工工作完成情况及差错量的监控和工作量的计算,以求将整体差错量控制在万分之二以内。

员工的工作态度将会直接影响到数据录入的质量和工作效率,要使员工保持一种积极的工作态度,必须有好的管理制度和客观的评价标准及依据。汉王OCR录入工厂系统还可以详尽地提供员工考勤情况和工作质量数据,对员工的工作情况给予公正的评估。

员工管理系统在整个系统中处于支配地位。该部分由考勤管理、工资管理、质量控制、工作分配、返工单管理和建立用户等几个模块组成。

考勤管理:记录各员工的出勤、缺勤状况;

岗位管理:记录各岗位的工作分配及员工的工作量、差错量(质、数量的差错要求控制在万分之三以内)的状况;

工资管理:根据员工的考勤、工作量、差错量的情况,发放员工的工资并列出明细帐目表。 系统管理功能

“OCR录入工厂软件系统”是一个大型的Intranet网络系统,它包含成千上万的加工数据资料和员工详尽的工作信息。管理人员通过简明友好的系统管理界面可以方便地查询数据、备份数据和系统维护。该系统还提供安全日志,供管理人员查询。

汉王OCR录入工厂软件系统应用方案

说 明:

整个系统围绕两个互相联系的数据库:员工管理数据库、OCR扫描文件数据库展开工作。

员工管理数据库由员工信息表、工种信息表、员工考勤表、员工工作量表、班次表、工资管理表等构成一个完整的员工资料库。员工依流程指定的步骤登录、考勤、申请工作、执行操作并接受管理监督。

OCR录入资料数据库经由扫描录入、图像处理、版面分析、识别、纵校、横校、版面还原等工序处理最终形成。

汉王OCR录入工厂软件系统应用方案

其中在信息传输上采取申请任务方式与分配任务方式相结合使用:

申请任务方式:用户完成一件工作包的同时查看是否有已经分配的工作包,如没有,则申请另一个工作包。

分配任务方式:由管理员分配工作包给每一个员工。

为对此流程进行有效管理,建立了原始工作包表、工序跟踪表、返工单表、员工工作分配表、工作包表等。

系统硬件选型

服务器:一台HP小型服务器作为数据服务器和主域控制器,管理多台终端。 工作站:PII350以上,WIN9X以上操作系统,快速扫描仪结合普通扫描仪 存储设备:视加工规模选用大容量硬盘或磁盘阵列 备份设备:选用磁带库或光盘库 具体项目我方提供相关咨询。

二、 服务及培训内容

北京汉王科技公司承诺以下服务及培训:

1、系统的安装、调试和试运行,可根据用户方意见对系统进行合理修改; 2、系统投入运行之后提供定期及不定期的维护,以保证系统处于良好的运行状态。

3、安排专门的时间为用户方提供系统的使用和维护培训。 1、为每个项目安排专门的项目经理,及时与用户沟通问题。

本文来源:https://www.bwwdw.com/article/8nji.html

Top