面向网络化制造资源的垂直搜索技术研究与应用

更新时间:2023-09-03 17:01:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

本文是在谢庆生教授主持的中国国家自然科学基金资助项目”面向协同商务 制造资源管理的关键技术研究”(计划批准号:50475185),国家863计划项目”面向 机电行业的ASP 应用服务平台开发与

贵 州 大 学 2007届硕士研究生学位论文

面向网络化制造资源的垂直搜索技

术研究与应用

学科专业:机电一体化

研究方向:计算机集成制造系统

导 师:尹健 教授、谢庆生 教授

研 究 生:程 锦

中国﹒贵州﹒贵阳

2007年5月

本文是在谢庆生教授主持的中国国家自然科学基金资助项目”面向协同商务 制造资源管理的关键技术研究”(计划批准号:50475185),国家863计划项目”面向 机电行业的ASP 应用服务平台开发与

摘 要

本文是在谢庆生教授主持的中国国家自然科学基金资助项目”面向协同商务制造资源管理的关键技术研究”(计划批准号:50475185),国家863计划项目”面向机电行业的ASP应用服务平台开发与应用”(课题编号:2003AA414013、2004AA414070),国家863计划项目”面向ASP平台的产品创新设计与制造资源管理构件的研究和应用”(课题编号:2002AA415310)等项目的支撑下,以制造业信息化理论方法为基础,以区域汽车零部件等行业为应用背景,对网络化制造系统建模及应用实现等进行研究。

网络化制造资源检索是企业信息化的基础,也是实现网络化制造的有效途径。其核心是利用网络,寻求合适的企业合作伙伴,实现企业间的资源共享、优势互补,提高企业竞争力。这也是本论文的研究目的。在实验室现有研究的基础上,本文着重研究了面向网络化制造资源检索系统的主题爬虫设计和中文分词技术。主题爬虫技术主要包括种子链接的获取、爬行算法、相似度分析、页面解析、摘要技术等。通过在主题爬虫中增加评价网页模块,让程序优先抓取与主题相似度高的网页中的链接,提高了爬虫的工作效率。在中文分词模块,通过一种改进的词典存储格式及相应的切词算法提出了一种改进的RMM中文分词算法。

系统的索引与检索模块,主要应用Lucene技术。并在研读Lucene源码的基础上,封装了自行设计的中文分词模块,改善了Lucene的中文分词性能,以达到系统对中文分词的需求。系统后端编码采用面向对象的Java语言,特别是用Java的多线程技术来协调各模块的工作,以充分利用计算机资源。前端设计主要采用JSP技术。主要利用它生成的结果与显示可以相分离、简洁的WEB页面和它拥有Java所有优点等特点。最后对系统进行了测试分析。

关键词:网络化制造;制造资源;页面解析;主题爬虫;中文分词;Lucene 分类号:TP391

本文是在谢庆生教授主持的中国国家自然科学基金资助项目”面向协同商务 制造资源管理的关键技术研究”(计划批准号:50475185),国家863计划项目”面向 机电行业的ASP 应用服务平台开发与

Research and Application of Vertical Search Engine

in Manufaturing Resources

Summary

As a part of the project of “the key technology of network manufacturing resource management aiming at Cooperation business” and “The ASP manufacturing platform aiming at machine and electronics” that undertoken by professor QS.Xie, the research project was financed by “The National science finance ”and “The Main Plans of The National Project 863 / CIMS ”.

The effective and accurate retrieval of manufacturing resource is the base of enterprise informatization, it is one of requisitions to realize the network manufacturing as well. The key is how to select the appropriate manufacture resource combination from dispersive manufacturing resources then satisfies the demand of fast processing, promoting the new product. This paper pays an emphasis on studying the technologies of the system, including the topic crawler and the Chinese word segmentation. The technologies of the topic crawler including how to obtain the seed links, the crawle algorithm, the analyses of the similitude degree, html parser, the technologies of abstract and so on. To improve the efficiency of the crawler, a model of page evaluating was added into the crawler module; therefore the urls in a page with a high similarity of the topic will be first crawled. A improved word segmentation was proposed by redesigning the store formatter of the major dictionary and the algorithm of word segmentation on the Chinese word segmentation module.

The lucene technology was used on the module of the index and retrieves of the system. To improve the efficiency of the lucene`s word segmentation and meet the system’s requirement of world segmentation, a new word segmentation algorithm was added to instead of lucene`s. The resources code was written in Java, a object oriented program language. To make full use of the computer resources, the technology of muti-thread was used in this system. To get the concise web pages and make different pages of showing the results and producing the results, the server script language JSP was used, with the same advantage of the Java. A test was carried on at the end.

Key Words: network manufacturing; manufacturing resources; html parser; topical crawler; word segmentation; lucene.

本文是在谢庆生教授主持的中国国家自然科学基金资助项目”面向协同商务 制造资源管理的关键技术研究”(计划批准号:50475185),国家863计划项目”面向 机电行业的ASP 应用服务平台开发与

目 录

第一章 前言........................................................1

1.1课题背景及来源...............................................1

1.2研究目标及意义...............................................1

1.3国内外研究进展...............................................2

1.4已具备的基础和科研条件......................................3

1.5本论文组织结构及主要创新点..................................4

第二章 网络化制造资源与搜索引擎概述.................................5

2.1网络化制造资源...............................................5

2.1.1制造资源定义及分类.....................................5

2.2搜索引擎.....................................................7

2.2.1 搜索引擎的起源及发展..................................7

2.2.2搜索引擎的原理.........................................8

2.2.3 搜索引擎的分类.........................................9

2.2.4 搜索引擎的主要评价指标...............................10

2.3网络化制造资源垂直搜索系统的特点...........................11

2.4网络化制造资源垂直搜索系统的模式...........................11

2.5 本章小结...................................................13

第三章 系统与算法设计..............................................14

3.1 系统定位及功能.............................................14

3.2 系统设计总体架构..........................................14

3.2.1主题爬行器概述........................................14

3.2.2页面结构..............................................17

3.2.3中文分词简述..........................................19

3.3数据存储与数据结构..........................................19

3.3.1页面存储库............................................19

3.3.2链接库................................................20

3.3.3 Hit列表..............................................20

3.4本章小结....................................................21

第四章 主题爬虫设计................................................22

4.1国内外主题爬行算法..........................................22

4.2主题爬行器..................................................29

4.2.1种子链接..............................................30

4.2.2页面解析..............................................34

4.2.3相似度计算............................................37

4.2.4摘要技术..............................................38

4.3 测试分析...................................................41

4.4 本章小结...................................................41

第五章 中文分词设计................................................42

5.1 分词算法...................................................42

5.2 词典机制...................................................43

5.3 改进的RMM算法.............................................47

本文是在谢庆生教授主持的中国国家自然科学基金资助项目”面向协同商务 制造资源管理的关键技术研究”(计划批准号:50475185),国家863计划项目”面向 机电行业的ASP 应用服务平台开发与

5.4 性能分析...................................................

5.5 本章小结...................................................

第六章 基于Lucene的索引与检索技术.................................

6.1 索引........................................................

6.1.1索引的功能............................................

6.1.2索引的原理............................................

6.2 检索技术...................................................

6.3 Lucene简介.................................................

6.3.1 Lucene的概念.........................................48 49 50 50 50 50 51 52 52

6.3.2 Lueene的组成结构.....................................

6.3.2 Lueene数据流分析.....................................

6.4 Lucene的应用...............................................

6.4.1改善分词..............................................

6.4.2建立索引..............................................

6.4.3检索配置..............................................

6.5 用户接口...................................................

6.6 本章小结...................................................

第七章 系统实现....................................................

7.1 系统程序框架...............................................

7.2 系统界面...................................................

7.3 运行结果...................................................

7.4 本章小节...................................................

第八章 结论........................................................

8.1 论文总结...................................................

8.2 进一步工作.................................................

参考文献...........................................................致 谢.............................................................附 录.............................................................附录一.............................................................附录二.............................................................附录三............................................................. 53 54 55 55 57 58 58 59 60 60 61 62 64 65 65 65 66 68 69 70 71 72

本文是在谢庆生教授主持的中国国家自然科学基金资助项目”面向协同商务 制造资源管理的关键技术研究”(计划批准号:50475185),国家863计划项目”面向 机电行业的ASP 应用服务平台开发与

第一章 前言

1.1课题背景及来源

在全球化制造环境下,国际市场与以前相比竞争更激烈,产品生命周期更短、更多样化。竞争的加剧将促使竞争对手利用一切可以利用的制造资源,主动积极地寻求市场机遇,灵敏地响应和适应客户多样化的消费需求,高质量地为全球顾客服务。从而获得规模经济,促进企业的发展与壮大[1]。

网络化制造是制造企业为应对知识经济和制造全球化的挑战而实施的以快速响应市场需求和提高企业竞争力为主要目的一种先进制造模式。它通过采用先进的计算机网络技术、优化集成技术、制造技术及其它相关技术,构建基于网络的制造系统[2]。在该系统的支持下,企业可以突破空间地域对生产经营范围和方式的约束,有效地开展产品设计、制造、采购、销售、运输和管理等各种生产经营活动。实现企业间的协同和各种社会资源的共享、重组和集成,从而高速度、高质量、低成本地为市场提供所需的产品和服务。

网络的发展是网络化制造的基础。搜索引擎的发展,有利于改善企业伙伴的 选择。但是,目前搜索引擎存在两方面的问题:1)网络信息资源庞大、易变性极强、更新快、网络信息资源呈几何级数增长,搜索引擎对网络信息的覆盖率在整体上呈下降趋势,尤其令以覆盖所有学科、所有类型信息为宗旨的通用搜索引擎越来越难以应对信息系统,难以满足特定领域的主题搜索;2)搜索引擎都是服务器端软件,用户需要严格按照各搜索引擎所要求的格式输人查询词,让用户不知道如何确切地表达自己的信息需求,也不知道如何更准确地寻找所需信息。

本课题是谢庆生教授主持承担的国家863计划项目”面向机电行业的ASP应用服务平台”(50475185)、国家自然科学基金项目”面向协同商务制造资源管理的关键技术研究”(2004AA414070)和国家发改委项目”贵阳市ASP平台的开发与应用”(发改办高技[2004]1273号)的子课题之一。

1.2研究目标及意义

研究的目标就是设计并实现一个面向制造资源领域的垂直搜索原型系统。

本文是在谢庆生教授主持的中国国家自然科学基金资助项目”面向协同商务 制造资源管理的关键技术研究”(计划批准号:50475185),国家863计划项目”面向 机电行业的ASP 应用服务平台开发与

对制造资源有效而准确的检索是企业信息化的基础,也是实现网络化制造的必备条件之一。网络化制造是目前先进制造技术的研究热点[3],其核心是利用网络,跨越不同企业之间存在的空间差距,使制造空间充分外延,实现企业间的资源共享、优势互补、优化组合配置,从而缩短产品的研制周期和费用,提高整个产业链和制造群体的竞争力。但是目前的通用搜索引擎提供的检索难以达到这个要求。

垂直搜索是针对为某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务的专业搜索引擎,是搜索引擎领域的行业化分工,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,抽取出需要的数据进行处理后再以某种形式返回给用户[4]。它只搜索特定的主题信息,按预先已定义好的专题有选择地收集相关的网页。这样降低了收集信息的难度,提高了信息的质量和查询结果的准确率。

总之,垂直搜索引擎对特定范围的网络信息的覆盖率相对较高,具有可靠的技术和信息资源保障,有明确的检索目标定位,有效地弥补了综合性搜索引擎对专门领域及特定领域信息覆盖率过低的问题。

1.3国内外研究进展

目前,国内外一些科研部门、高等院校、商业公司都在对智能化网络信息检索进行研究,并且已经开发出了一系列成功的产品[5]:

1) Eisevier的Scirus系统:Scirus科学搜索引擎是一种专为搜索高度相关的科学 信息而设计的搜索引擎,获得2001《搜索引擎观察》授予的”最佳专业搜索引擎奖”。Scrius是目前互联网上最全面、综合性最强的科技文献门户网站之一。它只面向包含有科学内容的网站,如大学和作者个人主页以及Elsevier自己的数据库。

2) NEC研究院的CiteSee: 是一个非常有名的针对计算机科学领域论文的检索 系统。Citeseer的核心是ACI (Automatically Citation Index),它可以自动地对网上的电子文件(Postscript和PDF等格式)进行索引并分类。

3) 美国国家科学数字图书馆的Collection Building Program (CBP)这个 项 目 旨在为科学、数学、工程和技术创建大规模的在线数字图书馆,试图研究在某一主题上资源自动建设的可能性。

4) Berkeley的FocusedProject:这个 系 统 由一个印度裔的科学家

本文是在谢庆生教授主持的中国国家自然科学基金资助项目”面向协同商务 制造资源管理的关键技术研究”(计划批准号:50475185),国家863计划项目”面向 机电行业的ASP 应用服务平台开发与

S.Charkrabarti带头研究开发,他是最早从事这方面研究的人之一。该系统通过两个程序来指导爬行器:一个是分类器。(Classifier),用来计算下载文档与预定主题的相关度;另一个程序是净化器(Distiller),用来确定那些指向很多相关资源的页面。

5) North Carolina大学计算机科学系和法学院联合开发研制的

LIBClient—IRISWeb系统可以用自然语言对网上的法律信息进行全文检索,使得用户获得全面高质的法律专业信息的效率大大提高。

6) Wall Street Research Network是由美国WSRN公司开发建立的经济与财经 类的专业搜索引擎,专门检索经济研究、工商企业、市场新闻、共同基金、投资中介商和经济研究出版物等各类信息。

7) 清华大学研制的PINS系统和Bookmark系统,它们能自动收集和记录用户的 习惯和兴趣,跟踪用户的信息需求。

8) 南京大学研制的WebAccess系统,它应用了机器学习、自然语言处理、超 文本等技术。

9) 首信采用的”以网对网”技术的智能搜索引擎。

10) 浙江大学瞿海斌、王祥君、程翼宇等人针对现有中医药信息检索中存在的 某些问题,将基于词表的扩展检索、相似性检索等方法与数据挖掘技术相结合,提出了一类智能化中医药信息检索系统的构建思想,据此建立了相应的智能检索系统。

11) 蔡铭等设计了一个原型系统Swirrsm,以网络化制造本体作为语义和推理支 撑,提出多层次信息智能检索模型,实现用户透明化的智能检索。

12) 张博锋,周传飞等提出了制造资源搜索引擎(Manufacturing Resource Search Engine简称MRSE),是基于构件的软件开发方法来实现。

但是国内的这些系统未利用当前搜索领域的成熟技术,系统开发周期较长, 未采用国外比较成熟的搜索技术比较少,成本高、性能不够理想。

1.4已具备的基础和科研条件

本项目的研究具有良好的实验环境与应用平台。”十五”贵阳市企业信息化重点建设项目”面向中小企业的信息化服务平台”初步建立了原型系统”中国西部制造网”(http://www.77cn.com.cn),完成了该系统规划和总体设计,其应用系统已初步运行。该系统是一个面向中小制造企业网络化的ASP应用服务平台,是本论文得以进行研究的支柱平台。

本文是在谢庆生教授主持的中国国家自然科学基金资助项目”面向协同商务 制造资源管理的关键技术研究”(计划批准号:50475185),国家863计划项目”面向 机电行业的ASP 应用服务平台开发与

课题组所在实验室具有开展研究工作所需的软硬件环境,包括微机、服务器、数据库软件、开发工作、实验室环境等,可保证为研究提供良好的支撑条件。

1.5本论文组织结构及主要创新点

本论文由八章构成,其中第三、四、五、六章为核心部分,讲述了系统的总体构架和各个模块的详细设计。本论文的设计思想是基于结果导向的,按照先整体后具体的思路来组织论文结构。具体的每个章节的主要内容如下:

第一章 绪论。主要介绍论文的课题来源、研究背景、目标、意义和国内外 研究进展等。

第二章 网络制造资源与搜索引擎概述。主要介绍制造资源的定义及分类与 搜索引擎的起源、发展、分类等。

第三章 网系统与算法设计。主要介绍系统的总体构架各个模块的设计如主 题爬虫、页面解析、中文分词、检索与索引等。

第四章 主题爬虫设计。该章详细介绍主题的设计,主要包括种子链接的获 取、爬行算法、相似度计算等。

第五章 中文分词技术。该章详细介绍中文切词,主要包括常见的切词算法、 词典存储方式及本文的创新之处。

第六章 基于Lucene的索引与检索技术。主要介绍其组织结构和应用。

第七章 系统实现。该章简述了系统的源码结构、系统界面,最后给出了程 序的运行结果。

第八章 结论和进一步工作。该章对面向网络化制造资源的垂直搜索技术研 究与应用进行了总结,并对未来的进一步研究方向进行展望。

通过上述内容研究,本文主要在以下方面有所创新:

1) 在主题爬虫中增加网页相似度分析模块,优先爬行与主题相似度高的网 页中的链接,提高了爬虫的工作效率。

2) 在中文分词方面,通过一种改进的词典存储格式及其相应的匹配算法,有 效地改进了中文分词的速度与精度。

本文是在谢庆生教授主持的中国国家自然科学基金资助项目”面向协同商务 制造资源管理的关键技术研究”(计划批准号:50475185),国家863计划项目”面向 机电行业的ASP 应用服务平台开发与

第二章 网络化制造资源与搜索引擎概述

国际化的市场竞争和信息技术的快速发展促使制造环境发生了根本性的转变。制造企业仅仅依赖企业内部的制造资源进行生产的模式己经与之不相适应。借助信息检索技术,充分利用企业外的制造资源,生产出低成本,高质量的产品才是制造企业赢得竞争的根本出路。

2.1网络化制造资源

网络化制造资源包括满足中小制造企业开展网络化制造需求的共享信息库、共享资源库、基础数据库等,同时也包括制造资源的分类、描述、评价、搜索等。网络化制造企业信息包括4类 [1]:基础信息、能力信息、业绩信息和辅助信息等。

1) 基础信息

基础信息主要是指网络化制造企业注册时,所必须提供的基本信息,如企业的开业登记信息、变更登记信息、营业执照年检情况、税务登记信息、设立登记信息、财务状况、人员构成、概要信息的评价确定企业是否有基本的资格参加该项目的投标。

2) 能力信息

能力信息是网络化制造企业在技术能力与加工能力的描述,它可以通过技术储备信息、产品信息、工艺能力信息、设备能力信息等进行描述。

3) 业绩信息

业绩信息主要表现在企业的以往市场情况,包括产品的市场情况、产品质量信息、售后服务信息和信誉度等信息等。

4) 辅助信息

辅助信息作为对网络化制造企业基础信息、能力信息、业绩信息的补充,在计算机评标或专家评标时也具有重要的参考价值。辅助信息主要包括企业组织与管理模式、标准化信息、质量认证体系情况等。

2.1.1制造资源定义及分类

制造资源是”企业完成产品整个生命周期所有生产活动的物理元素的总称”[6],制造资源贯穿产品生产全过程,包括企业的设备、材料、人员以及产品生命周期

本文是在谢庆生教授主持的中国国家自然科学基金资助项目”面向协同商务 制造资源管理的关键技术研究”(计划批准号:50475185),国家863计划项目”面向 机电行业的ASP 应用服务平台开发与

所涉及的其他所有硬件和软件。常见的制造资源分类有以下两种:

1) 按其特征可以分为广义制造资源和狭义制造资源。广义制造资源是企业完成产品整个生命周期所有生产活动的物理要素的总称。广义制造资源可根据企业的组织结构分为5个层次[7],即企业层、车间层、单元层、工作站层和设备层,每个层次所代表的制造资源都具有一定的属性和功能。企业层完成企业经营决策和生产管理;车间层执行生产任务调配和任务调配;单元层完成单元任务调度和监控;工作站层完成设备控制与动作协调;设备层执行加工、传输和测量。狭义制造资源是指加工一个零件所需要的物质元素,是面向CIMS、CAPP、NC等系统所需的底层制造资源,这些元素包括机床、刀具、夹具、量具材料和标准工艺术语等,也就是常说的企业的机械制造工艺资源。

2) 把具有某种共同属性或特征的制造资源归并在一起[8],如图2.1所示:

(1) 硬件资源:当前主要指各种可租赁的生产设备和工具。主要包括加工设备资源、刀具资源 、装夹具资源、计算设备资源、存储设备资源、试验设备资源等;

(2) 软件资源:在此主要指各种通用和专用计算机软件系统。包括CAD,C AE,CA PP , C AM , P DM,E RP, SCM,CRM、数据库管理软件等;

(3) 技术资源:这一部分涉及领域很广,而且是不断发展的。它主要设计、制造或不同领域中发展出来的专门方法、技术和经验等,包括专门的知识产品、各种设计 标 准、 零件库,以及各种专利、发明和解决方案等;

(4) 人力资源:主要指从事各种硬件和软件系统的建立及维护、应用技术的实现等所需的专业技术人才。它可以解决企业对专门人才的需要又不需花费过多的开支;

(5) 信息资源:主要指与制造过程相关的各种信息。包括销售、供应、市场、资金、 人力 (一般生产所需人员)等的相关信息。

本系统着重关注硬件资源、软件资源以及技术资源。这是构建专业分词词典的基础。

本文是在谢庆生教授主持的中国国家自然科学基金资助项目”面向协同商务 制造资源管理的关键技术研究”(计划批准号:50475185),国家863计划项目”面向 机电行业的ASP 应用服务平台开发与

图2-1:制造资源分类

2.2搜索引擎

搜索引擎实际是个Web服务器,存有庞大的索引数据库。它以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,为用户提供检索服务,起到信息导航的目的。目前,搜索引擎己成为Intemet上继email、浏览新闻之后使用最多网络服务。随着信息时代的发展,Web上的信息正在飞速地增长。截止到2003年7月[9],Internet上的网页数量就已经超过30亿,上网用户数量超过5.2亿,而且每天730万个页面、0.1Terabytes的速度增长。搜狐的第三代搜索引擎搜狗3.0网页索引量已达100亿,平均每天更新50亿[10]。

2.2.1 搜索引擎的起源及发展

在Web出现之前,互联网上的信息资源主要存在于各种允许匿名访问的FTP站点。为了便于人们在分散的FTP资源中找到所需的信息,1990年加拿大麦吉尔大学(University of McGill)计算机学院的师生开发了一个软件Archie。它通过定期搜集并分析FTP系统中存在的文件名信息,提供查找分布在各个FTP主机中文件的服务。实际上Archie是一个大型的数据库,包括大量可通过FTP下载的文件资源的有关信息,如文件名、文件长度、存放该文件的计算机名及目录名等。再加上与这个大型数据库相关联的一套检索方法,Archie就是搜索引擎的雏形了。

Web出现以后,HTML文档之间通过链接相互联系。1993年,Matthew Gray开发了World Wide Web Wanderer,它是世界上第一个利用HTML网页之间的链接关系来监测Web发展规模的”机器人”( robot)程序,为搜索引擎的提供了基本的思路。

1994年7月,Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中,

本文是在谢庆生教授主持的中国国家自然科学基金资助项目”面向协同商务 制造资源管理的关键技术研究”(计划批准号:50475185),国家863计划项目”面向 机电行业的ASP 应用服务平台开发与

创建了大家现在熟知的Lycos,成为第一个现代意义的搜索引擎。之后出现了Altavista、YAHOO和Infoseek为代表的第一代搜索引擎,其中YAHOO最具代表性。第一代的核心技术是人工分目录检索。最大的缺点,是无法针对网页内容进行搜索。

1998年,以Google和DirectHit为代表的第二代搜索引擎出现在互联网上,其中Google最为成功。Google搜索引擎采用全新的搜索方式,由数据搜集、数据存储、数据索引、数据检索等构成。优点是信息量大、更新及时、毋需人工干预。第二代的核心技术是机器程序抓取网页和计算机算法。缺点是数据存储量大、计算要求高、返回信息过多、准确度不高。

目前,搜索引擎正处在从第二代向第三代”渐变”的过程之中。第三代搜索引擎应该具有智能化、个性化和社区化等特征。2003年8月,中国搜索推出”网络猪”。2004年8月,搜狐正式推出新的专业搜索网站”搜狗”(http://www.77cn.com.cn),并声称这是”全球首个第三代中文互动式搜索引擎”等等。如今,搜索引擎百花齐放,出现了各种各样的搜索引擎。但这些并不能代表第三代搜索引擎。现在搜索引擎发展的主要技术发展方向:

1) 通过智能化、人机交互等方法提高信息查询和检索的精确度、有效性、相 关度 基于智能代理的信息过滤和个性化服务;

2) 采用P2P等分布式体系结构提高系统规模和性能;

3) 重视交叉语言检索的研究和开发。

2.2.2搜索引擎的原理

现在使用的搜索引擎都综合了上面提到的两种检索方式。搜索引擎通常由三个子系统信息采集、信息处理、信息检索组成[11],如图2.2所示:

1) 信息采集

信息采集主要与一个网络蜘蛛组成。网络蜘蛛Spider(也称为Robot或Crawler)实际上是一个基于Web的程序,它从一个初始网页集出发,遍历Internet自动地采集网络信息。当Spider收集某个HTML页面时,它会分析HTML标记结构来获取指向其它页面的超级链接,然后通过既定的搜索策略选择下一个要访问的链接。从理论上讲,如果为Spider指定一个适当的初始文档集和一个适当的网络搜索策略,它就可以遍历整个网络。

本文是在谢庆生教授主持的中国国家自然科学基金资助项目”面向协同商务 制造资源管理的关键技术研究”(计划批准号:50475185),国家863计划项目”面向 机电行业的ASP 应用服务平台开发与

图2-2:搜索引擎工作流程

2) 信息处理

信息处理主要是对网络蜘蛛提取的网页进行处理,创建索引后入库,以备用户检索使用。处理网页的过程主要包括这几部分:文档特征向量提取、网页筛选、相关度分析、文档分类和入库操作等等。

3) 信息检索

信息检索是搜索引擎和用户之间的接口。它首先获取用户查询条件并加以分析,然后访问索引数据库对关键词进行匹配获得检索结果,最后按照相关度进行降序排序处理后返回给用户。

2.2.3 搜索引擎的分类

搜索引擎按其工作方式可分为三种,分别是全文搜索引擎、目录索引搜索引擎和元搜索引擎 [12]。

1) 全文搜索引擎

全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi等,国内著名的有百度(Baidu)。它们都是从互联网上收集网站的信息(以网页文字为主),建立索引数据库,当用户提交查询时,系统在索引数据库中检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。

从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序,并自建网页数据库。搜索结果直接从自身的数据库中调用;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。

2) 目录索引

本文是在谢庆生教授主持的中国国家自然科学基金资助项目”面向协同商务 制造资源管理的关键技术研究”(计划批准号:50475185),国家863计划项目”面向 机电行业的ASP 应用服务平台开发与

目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎。因为它仅仅是一个按目录分类的网站链接列表而已,用户完全可以不用进行关键词查询,仅靠分类目录逐级便可查找到需要的信息。目录索引中最具代表性的是Yahoo(雅虎)。其他著名的还有Open Directory Project(DMOZ)、LookSmart等。国内有早期的搜狐、网易等。

3) 元搜索引擎 (META Search Engine)

元搜索引擎是在接收用户查询请求时,向其他多个搜索引擎上提交搜索,对各搜索引擎返回的结果进行相关处理之后再返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo、Dogpile等。

按检索内容划分为综合型搜索引擎、专题型搜索引擎和特殊搜索引擎[13]。

1) 综合型搜索引擎

综合型搜索引擎在收集信息时由于不限制信息的主题范围和数据类型,人们可用它们检索几乎任何方面的资源,如AltaVista, Google, Yahoo等均属这种类型,通常这类搜索引擎也称为通用型搜索引擎。

2) 专题型搜索引擎

专题型搜索引擎专门收集某一主题范围的信息资源,并用更为详细和专业的方法对信息资源进行描述,且往往在检索机制中设计利用与该专业领域密切相关的方法和技术。这类搜索引擎常被称为专业搜索引擎或垂直搜索索引,典型的如医学搜索引擎HealthGate、教育搜索引擎ERIC等。

3) 特殊搜索引擎

专门用来检索某一类型信息或数据的搜索引擎,例如专门查寻人物信息的 Any Who、查询地图的MapBlast、查询MP3音乐的http://www.77cn.com.cn等等。

2.2.4 搜索引擎的主要评价指标

在传统信息检索中,衡量的基本指标是查全率(Recall)和查准率(Precision)。查全率是检索出的相关文档数和文档库中所有的相关文档数的比率;查准率是检索出的相关文档数与检索出的文档总数的比率。

对于搜索引擎系统来讲,没有一个搜索引擎系统能够搜集到所有的WEB网页,所以召回率很难计算。同时,互联网的信息是动态变化的,搜索引擎必须反映这种变化。另外,搜索引擎在满足用户对信息查询的需求时,也要提高用户的

本文是在谢庆生教授主持的中国国家自然科学基金资助项目”面向协同商务 制造资源管理的关键技术研究”(计划批准号:50475185),国家863计划项目”面向 机电行业的ASP 应用服务平台开发与

搜索体验。为了更好的评价一个搜索引擎,以下是几个比较重要的指标[14]:

1) 网页覆盖率,提高查全率,是保证查准率的基础。

2) 返回结果的准确性,主要是第一页结果的准确性。大部分用户仅仅察看搜索结果的第一页。

3) 重复信息返回的过滤,返回结果应该尽可能不出现重复、类似的结果。

4) 网页更新速度,取决于新网页的发现,和死链(指无法访问网页)的及时删除。结果中大量的死链和过时信息的链接,将会降低用户体验。

5) 搜索服务的相应时间,也就是用户提交检索后得到结果返回的等待时间,一般要低于一秒即可。

6) 搜索服务的系统稳定性。

2.3网络化制造资源垂直搜索系统的特点

垂直搜索引擎与通用搜索引擎的工作原理和主要技术大致相同。都是由信息采集、信息处理、信息检索和用户界面构成。不同之处在于垂直搜索是针对为某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务的专业搜索引擎。它只搜索特定的主题信息,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,抽取出需要的数据进行处理后再返回给用户。使查询结果的准确率、精确率大大提高。

垂直搜索引擎的信息采集比通用搜索引擎较为复杂,如图2.3所示。需要根据一定的网页分析算法过滤与主题无关的链接,保留与主题相关的链接并将其放入等待爬行的URL队列。然后,主题爬虫将根据一定的搜索策略从队列中选择下一步要抓取的URL。重复上述过程,直到达到系统的某一条件时停止。在对网页进行中文分词时,本垂直搜索系统按照机械专业词典对网页进行分词。只切分网页中属于机械行业的词语,忽略分词词典以外的词语。然后依据切分的结果,计算网页与主题的相似度,最后对网页进行索引,存入数据库。

2.4网络化制造资源垂直搜索系统的模式

网络化制造动态联盟作为一种崭新的企业组织模式,是企业进行生产和市场竞争的主要模式,建立动态联盟的一个关键环节是选择敏捷的、具有竞争力和相容企业文化的合作伙伴。因此,研究动态联盟中的制造资源检索与评价策

本文是在谢庆生教授主持的中国国家自然科学基金资助项目”面向协同商务 制造资源管理的关键技术研究”(计划批准号:50475185),国家863计划项目”面向 机电行业的ASP 应用服务平台开发与

图2-3:搜索器流程图

略与方法,具有很强的理论和现实意义。

在网络化制造的制造资源搜索中,根据智能化程度逐级递增研究,检索模型可以分为四个层次,依次分别为:

1) 精确检索:实现与用户查询需求进行精确匹配的检索功能,并用于相关实例信息处于分布状态的跨页面检索。

2) 语义检索:能检索与用户查询中所表达的概念具有同义、上下位等语义关系的实例信息。

3) 模糊检索:可以接受用户查询中的模糊量,能检索与用户查询相符的实例信息。

4) 智能推理:能根据用户查询所表达的蕴涵信息进行检索。

上述各种检索技术并不互相排斥,是一种相辅相承的关系。通过模糊扩展,对模糊查询量精确化,在此基础上根据语义信息,实现语义扩展(包括同义扩展、语义蕴涵、语义外延和语义联想等),采用精确匹配与智能推理相结合,最终完成检索任务。

本文是在谢庆生教授主持的中国国家自然科学基金资助项目”面向协同商务 制造资源管理的关键技术研究”(计划批准号:50475185),国家863计划项目”面向 机电行业的ASP 应用服务平台开发与

2.5 本章小结

网络化制造资源检索是网络化制造的一个重要组成内容,是面向区域内制造资源的检索方式。网络化制造资源检索就是通过计算机检索系统,使企业能够快速、准确地寻找到分布在不同地点的制造资源,并高效地使用这些资源,是开放制造资源模式的一种实现。本章主要先介绍了网络化制造资源的定义和分类,然后介绍了搜索引擎发展、原理、分类及评价指标。最后,通过对比,指出了垂直搜索引擎的与通用搜索引擎的不同之处及网络化制造资源检索的几种模式。

本文是在谢庆生教授主持的中国国家自然科学基金资助项目”面向协同商务 制造资源管理的关键技术研究”(计划批准号:50475185),国家863计划项目”面向 机电行业的ASP 应用服务平台开发与

第三章 系统与算法设计

本论文以满足网络化制造企业对制造资源检索的需求为目标,并结合当前较成熟的搜索引擎技术,开展了对主题爬虫、页面解析、中文分词、索引与检索等方面的研究,设计了一个结构新颖的网络制造资源垂直搜索系统。

3.1 系统定位及功能

在全球化制造环境下,如何充分利用异构的资源(设备、知识和人力)来参与市场竞争,制造出市场所需的产品,以快速满足市场需求,是制造企业面临的重大课题。制造资源管理系统通过虚拟企业的伙伴选择,制造需求与制造能力和资源之间的匹配选择,实现分散化制造资源的快速配置与应用。

目前,企业在伙伴选择上采用较多的是定性搜索算法。如关键词匹配搜索,通常选择Yahoo、Baidu等。但是,在这种方式下搜索结果有很大的干扰性。用户所需要的信息可能淹没在返回的海量检索结果中,让用户难以发现。针对这种情况,本文设计的面向网络制造资源的垂直搜索引擎能很好的解决这个问题。因为本系统只收录机械行业的网页,并按相似度给网页排序,使检索返回的结果范围大大缩小。这样有效地提高了系统的查准率,减少了用户的检索时间。

3.2 系统设计总体架构

系统主要分为三个模块,爬虫模块、索引模块和检索模块。其中爬虫模块包括种子链接准备和获取、相似度分析等,索引模块包括页面解析和中文分词,检索模块为用户检索提供接口。整个系统体系结构如图3.1所示。

3.2.1主题爬行器概述

主题爬行器主要由主题爬虫组成。主题在话语分析文献中最常使用,但是却很少解释什么是主题。目前在语言学界也很难给出一个确切的定义。主题在本论文中是指”本文或本网页在讨论什么”[15]。主题爬虫是根据事先确立的主题,在受限领域内进行定向页面的采集,而有别于普通爬虫采用完全遍历Web的方式。它是垂直搜索引擎的基础与核心,它尽可能多地爬行与某个主题相关的Web资源,扩大该主题资源的覆盖度。举例来说,假设在整个Web上有T个网页文件,其中

本文来源:https://www.bwwdw.com/article/d1pi.html

Top