一种基于python语言的网络爬虫研究 - 图文

更新时间：2024-01-07 21:43:02 阅读量：教育文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

PYTHON是一门什么语言推荐度：
相关推荐

龙源期刊网 http://www.qikan.com.cn

一种基于python语言的网络爬虫研究

作者：刘洋崔翠李立新来源：《科学与财富》2016年第09期

摘要：随着Internet技术的不断发展，互联网已经成为人们获取信息的主要途径，搜索引擎从互联网中靶向性筛选出有用信息，而网络爬虫又是搜索引擎的基础构件之一。本文实现了一个基于python语言的并行网络爬虫，利用关键字匹配技术对目标网站进行扫描，得到敏感数据并抓取，分析网站数据结构和受恶意攻击的风险系数。关键词：搜索引擎网络爬虫 python 敏感数据 1引言

网络爬虫（Crawler）是搜索引擎（search engine SE）的基本构件之一，其直接面向互联网底层，它是搜索引擎的数据发源地，决定着整个系统的内容是否丰富、信息能否得到及时更新。它的性能表现直接影响整个搜索引擎的效果。网络爬虫的工作原理如下：从一个初始种子URLs出发，从中获取一个URL，下载网页，从网页中抽取所有的URLs，并将新的URLs添加到URLs队列中。然后，Crawler从队列中获取另一个URL。重复刚才的过程，直到Crawler达到某种停止标准为止。

搜索引擎以一定的策略在互联网中搜集、发现信息，对信息进行理解、提取、组织和处理，并为用户提供检索服务，从而起到信息导航的目的。我们经常看到不同的网站发布着同样的新闻，很多就是通过网络爬虫的技术从其它的网站爬取信息，然后放在自己的网站发布。同样，这样的爬虫技术也可以用来帮助我们做安全扫描分析等工作，这也是本文研究的重点。 2国内外研究现状及相关核心技术 2.1现状

90年代出现了最早的搜索引擎，也就产生了网络爬虫。此时的爬虫在爬取整个网络的时候采取深度或广度优先的遍历方式。作为搜索引擎的信息资源采集的重要角色，网络爬虫的性能将直接影响整个搜索引擎索引网页的数量、质量和更新周期。于是出现后面的分布式网络爬虫。分布式网络爬虫可以看做是由多个集中式网络爬虫组合而成，分布式系统中的每个节点都可以看作一个集中式网络爬虫。分布式网络爬虫大大提高了爬取效率，目前分布式网络爬虫已近有了不少的应用，例如现在著名的Google和Alta Vista搜索引擎所采用的网络爬虫系统。由于爬虫的重要性，Twisted使用python语言写了一个广受欢迎的爬虫事件驱动网络框架：scrapy，scrapy使用的是非堵塞的异步处理方式。scrapy能够爬取web页面，并从页面中提取结构化的数据。它可以用来数据挖掘、监测、和自动化测试。

本文来源：https://www.bwwdw.com/article/yh3x.html

相关文章：

正在阅读：

一种基于python语言的网络爬虫研究 - 图文01-07

2015届北京市石景山区高三第一学期生物期末试卷及答案11-27

系统仿真实验报告01-05

实验四 RC一阶电路的响应测试11-29

DPtech FW1000应用防火墙(实验指导)07-03

作文开头结尾专项训练09-17

水产养殖业增长方式转变行动实施方案07-23

2009年高考山东卷语文试题精析版03-05

小猫小学生二年级作文06-13

1-脱氧野尻霉素的研究进展07-22

上一篇：普及光伏发电安装中遇到问题该如何解决下一篇：小学家委会自荐信