如何使用八爪鱼批量下载网页

更新时间:2023-10-08 17:47:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

八爪鱼·云采集网络爬虫软件

www.bazhuayu.com

如何使用八爪鱼批量下载网页

八爪鱼作为一款通用的网页数据采集器,其并不针对于某一网站某一行业的数据进行采集,而是网页上所能看到或网页源码中有的文本信息几乎都能采集,有些朋友有批量下载网页的需求,其实可以使用八爪鱼采集器去实现。下面以UC头条网页为大家详细介绍如何使用八爪鱼批量下载网页。

采集网站:https://news.uc.cn/

使用功能点:

? Xpath xpath入门教程1

http://www.bazhuayu.com/tutorialdetail-1/xpathrm1.html xpath入门2

http://www.bazhuayu.com/tutorialdetail-1/xpathrm1.html 相对XPATH教程-7.0版

http://www.bazhuayu.com/tutorialdetail-1/xdxpath-7.html

八爪鱼·云采集网络爬虫软件

www.bazhuayu.com

? AJAX滚动教程

http://www.bazhuayu.com/tutorial/ajgd_7.aspx?t=1

步骤1:创建UC头条文章采集任务

1)进入主界面,选择“自定义模式”

八爪鱼·云采集网络爬虫软件

www.bazhuayu.com

2)将要采集的网址URL复制粘贴到网站输入框中,点击“保存网址”

3)在页面右上角,打开“流程”,以展现出“流程设计器”和“定制当前操作”两个板块。网页打开后,默认显示“推荐”文章。观察发现,此网页没有翻页按钮,而是通过下拉加载,不断加载出新的内容

八爪鱼·云采集网络爬虫软件

www.bazhuayu.com

因而,我们选中“打开网页”步骤,在高级选项中,勾选“页面加载完成后向下滚动”,滚动次数根据自身需求进行设置,间隔时间根据网页加载情况进行设置,滚动方式为“向下滚动一屏”,然后点击“确定”

(注意: 间隔时间需要针对网站情况进行设置,并不是绝对的。一般情况下,间隔时间>网站加载时间即可。有时候网速较慢,网页加载很慢,还需根据具体情况进行调整。具体请看:八爪鱼7.0教程——AJAX滚动教程

http://www.bazhuayu.com/tutorial/ajgd_7.aspx?t=1)

八爪鱼·云采集网络爬虫软件

www.bazhuayu.com

步骤2:创建翻页循环及提取数据

1)移动鼠标,选中页面里第一条文章链接。系统会自动识别相似链接,在操作提示框中,选择“选中全部”

2)选择“循环点击每个链接”

本文来源:https://www.bwwdw.com/article/4ryf.html

Top