加入收藏 | 设为首页 | 会员中心 | 我要投稿 鹰潭站长网 (https://www.0701zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 网站设计 > 教程 > 正文

八爪鱼采集器自定义如何用 自定模块教程

发布时间:2021-11-17 13:59:57 所属栏目:教程 来源:互联网
导读:有了上次体验的使用模板爬取数据的经验,相信大家应该能较为熟练的使用八爪鱼采集器了,或许有小伙伴好奇,难道我们只能通过软件预设的模板爬取数据吗,当然不是,八爪鱼采集器还有一个自定义采集功能,以供用户采集自己想要的数据,比起预设的模块,自定义更
有了上次体验的使用模板爬取数据的经验,相信大家应该能较为熟练的使用八爪鱼采集器了,或许有小伙伴好奇,难道我们只能通过软件预设的模板爬取数据吗,当然不是,八爪鱼采集器还有一个自定义采集功能,以供用户采集自己想要的数据,比起预设的模块,自定义更加灵活,虽然比起预设模板更为复杂,但是爬取到的数据也更贴合你的心意,本文小编便为大家带来八爪鱼采集器的自定义模块教程。
 
八爪鱼采集器 V7.6.4 官方版
八爪鱼采集器 V7.6.4 官方版
类别:站长工具   大小:57.14M    语言:简体中文
 
评分:6
下载地址
安装教程:八爪鱼采集器安装教程
 
新手教程:八爪鱼采集器新手教程
 
步骤一
 
首先还是照旧,启动并登入你的八爪鱼采集器,进入到主界面,点击【新建】下的【新建任务组】创建一个新的组。
 
 
点击确定创建新组
 
步骤二
 
创建好组后,点击【新建】下的自定义任务,就会到这样一个界面。
 
 
 
我们可以去寻找想要爬取的网页的链接,这里小编到京东搜索了手机,等搜索结果出来,就可以复制链接。
 
 
将我们复制的链接粘贴到网址一栏中,并将任务组改成先前创建的组,然后点击【保存设置】。
 
步骤三
 
保存设置后,便会跳转到爬取界面,软件会自动开始识别网页中要爬取的部分,根据个人机器网速不同,相应的等待时间也不同。
 
识别完成后,我们可以看到有许多数据,其中有许多无用的数据,需要我们剔除。
 
 
 
将光标移动到表格字段上,会出现两个图标,笔图标为更改字段名,垃圾桶为删除此字段。
 
 
我们可以自由的删除,更改字段名,这里小编仅保留上图内字段。
 
步骤四
设置好字段后,我们把目光转到上图内的小框中,首个不可选,我们直接忽视。
 
采集前滚动页面加载更多数据:因为现在很多网站都采用的是动态页面,有些内容不会在加载的时候展示,只有当我们下拉时才会逐渐展示出来,而这个功能就是为了防止这个情况出现。
 
翻页并采集多页数据:设置爬取多页,不勾选仅爬取当前页。
 
点击列表中XXX并采集下一级页面:这个功能可以让我们爬取子页面内的内容。
 
这里我们不深入爬取,只勾选前两项,然后点击【生成采集设置】。
 
 
点击生成后,会让你开始保存或查看,这里点击保存并开始采集。
 
步骤五
 
到了这个界面后,我们可以看到一个细致的流程,内循环列表中就是本页内爬取的内容。
 
 
我们点击外循环的设置按钮。
 
 
展开退出循环设置,勾选循环执行次数,这里我们仅爬取3页。
 
 
开始采集
 
 
采集完成,点击导出。
 
 
另外,如果你爬取的页面内有重复数据,软件也会直接提示,根据自己情况选择保留或去除。
 
 
导出方式
 
 
导出文件的保存位置
 
 
保存完成
 
 
查看数据
 
以上就是小编为大家带来的八爪鱼采集器自定义模块教程,熟练使用后相信小伙伴们能采集的数据就更多了,使用八爪鱼采集器采集数据后,可以根据采集的数据进行分析,完成各种任务,希望本文能为大家带来帮助。

(编辑:鹰潭站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读