后羿采集器liunx版是后羿采集器的liunx版本,适合使用liunx系统的个人博客主和站长使用,利用软件能够轻松的对站群进行采集和上架,软件支持后台运行,有需要的可以下载使用。
软件特色
1、可视化自定义采集流程
全程问答式引导、可视化操作、自定义采集流程
自动记录和模拟网页操作顺序
*设置满足更多采集需求
2、点选抽取网页数据
鼠标点击选择要爬取的网页内容、操作简单
可选择抽取文本、链接、属性、html标签等
3、运行批量采集数据
软件按照采集流程和抽取规则自动批量采集
快速稳定,实时显示采集速度和过程
可切换软件后台运行,不打扰前台工作
4、导出和发布采集的数据
采集的数据自动表格化,自由配置字段
支持数据导出到Excel等本地文件
和一键发布到CMS网站/数据库/微信公众号等媒体
使用方法
安装包在的文件夹,按住shift,点击鼠标右键,会弹出如下界面,点击在终端中打开
输入下面的命令,-i后面是你的文件名,如果权限不够,就要在前面输入sudo,然后回车后再输入密码
常见问题
1、XX 网站能不能采集?XX 数据能不能采集?
官网视频讲解教程中我们已经介绍过,后羿采集器是一款通用网页采集软件,只要是有网址,可以通过网页浏览,您能看得见的内容,大多都是可以采集的(视频比较特殊,得分析具体情况)。
为了保护您的隐私,您所有的任务及配置都以加密形式存储于云端,除了您个人外任何人都无法查看具体的内容,您在采集过程中输入的账号密码以及您的采集结果都存在您的本地电脑中。但请您严格遵守相关的法律法规,若后羿采集器官方收到任何关于非法采集的举报,将会*时间封停该账号。
2、为什么采集数据提前停止了?
如果您遇到采集提前停止的问题,请按照以下步骤自检一下:
第一步:请确认您在浏览器中能看见多少内容
有的时候搜索显示数量和你最终能看得见的数量不是一致的,请确认您能看见多少条数据,然后再确定采集是提前停止还是正常停止。
第二步:采集结果数量和在浏览器中看到的数量不一致
在采集过程中,如果遇到这个问题,有以下两种可能性:
第一种可能性是采集速度过快而网页加载时间过慢,从而导致无法采集到网页中的数据。
遇到这种情况时请增加请求等待时间,等待时间长一点之后,就有足够的时间留给网页加载内容。
请求等待时间的设置在 启动设置—>智能策略中,如下图所示:
第二种可能性是你遇到了其他问题
我们可以通过在运行过程中,点击运行界面中的“查看网页”来观察一下当前的网页内容是否正常,是否无法正常显示,是否出现异常提示等。
如果出现了上述情况,我们可以通过降低采集速度、切换代理IP、手动打码等方式,至于哪种方式可以起作用,这个需要测试才知道,不同的网站问题不同,没有一个统一的解决方案。
如果尝试了以上方案后仍然无法解决,你可以在帮助中心反馈给我们,我们会为您提供支持。
3、为什么采集字段不全?
字段不全一般有以下两种情况:
第一种,由于列表元素的结构不同,有些元素中有的字段其他元素中没有,这是正常的现象,请大家先在网页中确认对应元素中是否存在你想要的字段。
第二种,页面结构发生了变化,这种通常会发生在同一个搜索结果中包含多种页面结构的场景,例如搜索引擎的搜索结果(包含很多种网站)。
这种情况需要针对具体问题进行分析,您可以导出您的采集任务,发到我们官方的帮助中心,我们的客服会帮您进行测试分析。
……
点击下载网络软件 >>本地高速下载
点击下载网络软件 >>百度网盘下载