懒人采集器作为完全智能化的网站数据扫描采集工具,能够直接根据用户输入的网站地址信息,在平台上对数据进行一站式的扫描采集处理。并且绝大多数的网站平台都有覆盖,完全不用担心遇到内容无法编写提取的情况。
具有可视化的工作界面,用户通过鼠标就可以完成对网页数据的采集,该程序的使用门槛非常低,任何用户都可以轻松使用它就行数据采集而不需要用户拥有爬虫程序的编写能力;通过这款软件,用户可以在大多数网站中采集数据,包括可以在一些单页应用Ajax加载的动态网站中获取用户需要的数据信息;软件中内置高速的浏览器引擎,用户可以自由切换多种浏览模式,让用户轻松以一个直观的方式去对网站网页进行采集。
可视化向导
所有采集元素,自动生成采集数据
计划任务
灵活定义运行时间,全自动运行
多引擎支持
支持多个采集引擎,内置高速浏览器内核、HTTP引擎和JSON引擎
智能识别
可自动识别网页列表、采集字段和分页等
拦截请求
自定义拦截域名,方便过滤站外广告,提高采集速度
多种数据导出
可导出为Txt 、Excel、MySQL、SQLServer、 SQlite、Access、网站等
步骤1:设定起始网址
要收集网站数据,首先,我们需要设置进入收集的URL。例如,如果要收集网站的国内新闻,则应将起始URL设置为国内新闻栏列表的URL,但是通常不会将网站的主页设置为起始地址,因为主页通常包含许多列表,例如最新文章,热门文章和推荐文章Chapter和其他列表块,这些列表块中显示的内容也非常有限。一般来说,收集这些列表时无法收集完整的信息。
接下来,我们以新浪新闻集为例,从新浪首页查找国内新闻。但是,此列首页上的内容仍然很混乱,并且分为三个子列
让我们看一看“内地新闻”的子栏目报道
此列页面包含带有分页的内容列表。通过切换分页,我们可以收集此列下的所有文章,因此此列表页面非常适合我们收集起始URL。
现在,我们将在任务编辑框的步骤1中将列表URL复制到文本框中。
如果您要在一个任务中同时收集国内新闻的其他子列,您还可以复制其他两个子列的列表地址,因为这些子列的格式相似。但是,为了便于导出或发布分类数据,通常不建议将多个列的内容混合在一起。
对于起始URL,我们还可以从txt文件中批量添加或导入。例如,如果我们要收集前五个页面,我们还可以通过这种方式自定义五个起始页面
应当注意,如果在此处自定义多个分页列表,则在后续的收集配置中将不会启用分页。通常,当我们要收集列下的所有文章时,我们仅需要将列的第一页定义为起始URL。如果在后续的收集配置中启用了分页,则可以收集每个分页列表的数据。
步骤2:①自动生成列表和字段
进入第二步后,对于某些网页,惰性收集器将智能分析页面列表,并自动突出显示页面列表并生成列表数据,例如
然后我们可以修剪数据,例如删除一些不必要的字段
懒人采集器采用的都是线上一站式的采集运行模式,用户只需在平台上设置好运行任务目标。系统就会自动对收录的内容进行采集筛选,以便能够一键提取出自己需要的内容查阅浏览。
上文就是小编为您带来的懒人采集器了,更多精彩软件请多多关注IE浏览器中文网站!