ygbook的系统搭建完成后,在采集设置中,点击批量采集新书,就可以开始采集了。
默认最多采集1000次,也可以通过修改url中数字的方式来实现更多次:
将
https://www.example.com/index.php?s=/Admin/Index/pick/action/runpick/nownum/1/maxnum/10.html
修改为
https://www.example.com/index.php?s=/Admin/Index/pick/action/runpick/nownum/1/maxnum/99999.html
但是他采集开始之后,还是跟小水管一样,很慢很慢,采集了大半天才几千篇。
emmm,上python吧,模拟登陆然后循环调用ygbook的采集界面或者接口进行采集,大致的代码如下:
1、模拟登陆
2、模拟提交
下面这两种都可以,第一种是请求页面,第二种是请求api,显然api更好更快
3、开启多线程
4、记录采集日志
采集的同时计算采集效率、记录采集日志,这样就可以大概知道每种源的效率,例如下图,我采集了4个源,相同时间下,其中3个都采集了3000次,有一个只采集了1600次,明显效率太低,可以考虑放弃。
总结
好了,这就是本文的全部内容了,有兴趣一起学习建站和seo的可以加我一起学习啦,你说联系方式?聪明如你一定可以找到~