240 发简信
IP属地:北京
  • 使用python验证代理ip是否可用

    在使用爬虫爬取网络数据时,如果长时间对一个网站进行抓取时可能会遇到IP被封的情况,这种情况可以使用代理更换ip来突破服务器封IP的限制。随手在百度上搜索免费代理IP,可以得到...

  • 爬虫(2)--- 构建简单代理IP池

    目录 1. 何为代理IP池?2. 代理IP池构建2.1 浏览器伪装2.2 代理IP爬取2.3 代理IP验证2.4 代理IP多进程验证2.5 函数调用3. 后记 1 何为代理I...

  • 120
    2017-4-30爬取代理IP并验证

    之前有一次被豆瓣封IP了,就想着自己构建一些IP加UA.今天参考了这篇文章爬虫(2)--- 构建简单代理IP池先简单的爬取了一些免费代理IP并验证了下可用性. 选择的是西刺免...

  • 120
    Python爬虫防封杀方法集合

    Python 2.7IDE Pycharm 5.0.3 前言 方法1:设置等待时间 有一些网站的防范措施可能会因为你快速提交表单而把你当做机器人爬虫,比如说以非常人的速度下载...

  • 120
    008 - 爬虫处理流程及网页解析

    爬虫处理流程: 将互联网上的网页获取到本地 对网页进行解析网页解析是从网页中分离出我们所需要的、有价值的信息,以及新的待爬取的URL。网页的解析的方法:正则表达式(采用模糊匹...

  • Python 爬虫 2 爬取多页网页

    参考资料:极客学院: Python单线程爬虫 代码:2.Single-thread-crawler.ipynb 本文内容: Requests.get 爬取多个页码的网页 例:...

  • 120
    如何打造类似数据虫巢官网系列教程之一:介绍以及准备工作

    文·blogchong 一、俺不是打广告的 本文的标题是“如何打造类似数据虫巢官网系列教程之XX”,那主角当然我们的“数据虫巢官网”,不多说上链接www.mite8.com。...

  • 120
    谈一谈简书数据的爬取

    前天的文章发出之后有简友留言说,是看我的专题文章学习爬虫的,并告诉我,简书更新新版网站后,我是第一个讲解的,他当时能搜到的全是旧版本的文章。今天来详细说说简书的数据抓取。 学...

  • 简书上两个跟我学Python爬虫的童鞋

    简书有两个勤奋的童鞋,罗罗攀 (以下简称 攀攀)和 Mr_Cxy (以下简称 程同学),他们跟我一起学习Python,十分认真,进步也快。就连春节期间也不例外,还在微信上跟我...

  • 我在学利用python进行数据分析这本书,主要用的pandas和NumPy

    感谢人生中的贵人

    做数据分析这行,第一个感谢的是我的领导:胡老师,平时我们都称呼他胡哥,沙县小吃发源地长大,给我的感觉是有思想,逻辑思维很清晰,做事特别仔细,追求完美,学习东西必然要学的扎实透...