那个网站我感觉代码运行的没有问题,唯一的问题就是爬去到一般的时候,往往就自动停止了,这是很奇怪的现象。
ip和headers不变的情况下,第一次可以抓取26页,第二次只能抓6页,真是奇怪。
然后我看到了以下办法。
第一,加上了headers
第二,使用了代理ip。
后来,依旧不太管用。
不过,却引出了我新的问题。网站那些免费的代理ip,有的好用,有的不好用,而且这些ip是有端口的。
这些端口有什么用?有什么差别?我还得继续研究。
其次,网上有人说,只要是人能正常浏览的页面,那么防屏蔽系统就能够给他突破掉。其次,政府网站没有防屏蔽系统。
透明代理:服务器知道你使用了代理并且知道你真实IP
匿名代理:服务器知道你使用了代理但不知道你真实IP
高匿名代理:服务器不知道你使用了代理。