网络爬虫的设计与实现

更新时间:2024-03-08 13:42:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

龙源期刊网 http://www.qikan.com.cn

网络爬虫的设计与实现

作者:董日壮 郭曙超

来源:《电脑知识与技术》2014年第17期

摘要:随着社会的飞速发展,互联网上信息容量急剧增加,人们对搜索引擎的依赖愈发强烈。网络爬虫是搜索引擎的关键技术之一,同时也是快速获取网络上可用资源的有效工具。为了能够对网络爬虫更深入的了解并熟练合理的应用于各种的应用和系统中,经过对网络爬虫的框架、基本工作流程、抓取策略的分析和了解,使用Java与HTML解析工具jsoup以及MySQL数据库实现一个网络爬虫,简单爬取京东的图书数据,用于用户喜好的分析及购买倾向的判断,为用户提供个性化的服务。

关键词:搜索引擎;网络爬虫;抓取策略;Java;jsoup;MySQL

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2014)17-3986-03 Design and Implementation of Web Crawler DONG Ri-zhuang1, GUO Shu-chao2

(1.School of Computer Engineering, Qingdao Technological University, Qingdao 266033, China; 2.Shandong Entry-Exit Inspection and Quarantine Bureau, Qingdao 266000, China) Abstract: With the rapid development of society, a sharp increase in information capacity on the Internet, people rely on search engines is growing. As one of the key technologies of Web crawler search engines, but also an effective tool for quick access to the available resources on the network. In order to understand web crawler better and apply it into various applications and systems more skillful and reasonably. After analyze and understand the framework, basic workflow, grab strategy of web crawler, use programming language of Java and HTML parsing tools jsoup and MySQL database implements a web crawler, crawling Jingdong book data simply in order to analysis user’s preferences and purchase predisposition, so that to provide users with personalized service.

Key words: search engine; Web crawler; grab analyze; Java; jsoup; MySQL 1 概述

随着社会发展与时代进步,信息社会的发展速度超出了绝大多数人的想象,与此同时,互联网容量已经达到了一个空前的规模。据搜索引擎巨头Google透露,在2012年时候,Google的网页爬虫Googlebot每天都会经过大约200亿个网页[1],并且追踪着约300亿个独立的URL

本文来源:https://www.bwwdw.com/article/gy6a.html

Top