2021-07-08

周四,对项目进行一个小结。

当我们爬到一定程度时,会发现返回错误。

这就要考虑一个问题了,程序的运行速度是很快的,如果我们利用一个爬虫程序在网站爬取东西,一个固定IP的访问频率就会很高,这不符合人为操作的标准,因为人操作不可能在几ms内,进行如此频繁的访问。所以一些网站会设置一个IP访问频率的阈值,如果一个IP访问频率超过这个阈值,说明这个不是人在访问,而是一个爬虫程序。

我的解决办法是弄一个代理ip池

如何建立一个爬虫代理ip池 :

1、找到一个免费的ip代理网站(我这里用的是https://www.kuaidaili.com/free/)

2、爬取ip

3、检测ip可用性,移除不可用ip

4、随机取ip使用

新建ip.py文件。

使用requests和BeautifulSoup爬取网站的ip。

对于项目的整体架构,暂时是这个思路:

1.首先可以从一位知乎用户开始,先爬取他的关注列表的用户url_token

2.递归爬取他关注列表用户的关注列表,并存储在文本里

3.根据文本里的用户url_token一一爬取用户信息

4.写入数据库

5.搞一个代理ip池

继续加油!

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 企业想要yingxiao获客应该怎么做? 企业无论采取新营销还是旧营销,其本质都是获客。虽然旧营销没有获客这个概念...
    2b74f7f8fd9f阅读 1,131评论 0 0
  • 作为一名合格的理财经理,你一定要了解这些知识 客户难找,产品难卖、销售任务难完成,这是绝大多数理财经理目前的困境。...
    清风徐徐吹来阅读 3,003评论 0 0
  • “我长得像个坏人吗?以毒攻毒你没听说过吗?”陈名佳不屑一顾的说,“我给你妈妈听脉之后,我确定你妈妈是中毒了,...
    小白同学作文阅读 1,417评论 1 1
  • “‘我们听到的一切都是一个观点,不是事实。我们看见的一切都是一个视角,不是真相’。——马克·奥勒留《沉思录》 ”昨...
    轻语光阴阅读 1,729评论 0 0
  • 进入股市也三四年了,学费交了不少,最近几年行情还算可以,但是我确实亏损了接近40%,心态都炸了。 每天都在学习,学...
    小D莫闲谈阅读 2,854评论 1 2