240 发简信
IP属地:江苏
  • 120
    scrapy 爬取新浪账号

    前两天晚上对新浪微博的账号信息进行了爬去,10几个小时爬了30几万的数据,然后我的微博就被封号了,微博一个小时大概就2万条数据,应该已经很慢了,但是还是被封号了,后续增加多账...

  • scrapy 模拟登录weibo.com

    之前学习了模拟登录新浪微博,没有用到框架,今天晚上尝试用scrapy重新写一遍模拟登录。存在问题:1、scrapy 好像不擅长模拟登录,写出来的代码结构还不如requests...

  • 用了requests库我已经彻底忘了urllib模块了

    python模拟登录练习(三)

    经历过模拟登录微博之后,今天试了一下爬网页版的微信,感觉比微博简单多了。

  • python模拟登录练习(三)

    经历过模拟登录微博之后,今天试了一下爬网页版的微信,感觉比微博简单多了。

  • python模拟登录练习(二)

    花了4个晚上终于把模拟登录新浪微博学习完了,相对于知乎迷你登录,微博登录的过程确实难度大了很多,好多知识点都不懂,所以虽然把代码都码了一遍,但很多都是照猫画虎,其实还有很多地...

  • python模拟登录练习(一)

    上一篇文章模拟登陆存在问题用scrapy无法登录知乎,后来志明S告诉我是验证码的问题,另外知乎上xchaoinfo提到知乎登录需要保持cookies一致,都不是太理解,暂时找...

  • 昨天在知乎上看到,好像登陆的时候需要保持cookies一致,验证码的问题我也不是很清楚,浏览器一般不需要输验证码

    模拟登陆存在问题

    学习Python爬虫(七)--Scrapy模拟登录的post模拟登陆后,自己写了模拟登陆知乎首页的代码。 测试后发现无效

  • 模拟登陆存在问题

    学习Python爬虫(七)--Scrapy模拟登录的post模拟登陆后,自己写了模拟登陆知乎首页的代码。 测试后发现无效

  • ```
    from scrapy.spiders import CrawlSpider
    from scrapy.selector import Selector
    from scrapy.http import Request,FormRequest

    class zhihu_login(CrawlSpider):
    name = 'zhihu'
    allowed_domains = ['www.zhihu.com']
    start_urls = ['https://www.zhihu.com/#signin']

    def parse(self, response):
    cel = Selector(response)
    _xsrf = cel.xpath('//html/body/input[@name="_xsrf"]/@value').extract()[0]
    print(_xsrf)
    password = '888'
    captcha_type = 'cn'
    phone_num = '15325648303'

    Formdata = {'_xsrf':_xsrf,
    'password':password,
    'captcha_type':captcha_type,
    'phone_num':phone_num
    }

    return FormRequest.from_response(response,formdata=Formdata,callback=self.after_login,dont_filter = True)

    def after_login(self,response):
    cel = Selector(response)
    print(response.body())
    ```

    为什么这样无法登陆,headers我在settings中设置过的,手机和密码是瞎写的,测试的时候是用正确的账号密码测试,提示
    ```
    2017-02-16 21:07:45 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.zhihu.com/#signin&gt; (referer: None)
    893df5e5ad5ee495265c72a0ae5714ad
    2017-02-16 21:07:45 [scrapy.core.engine] DEBUG: Crawled (403) <POST https://www.zhihu.com/&gt; (referer: https://www.zhihu.com/)
    2017-02-16 21:07:45 [scrapy.spidermiddlewares.httperror] INFO: Ignoring response <403 https://www.zhihu.com/&gt;: HTTP status code is not handled or not allowed
    ```

    Python爬虫(七)--Scrapy模拟登录

    1. Cookie原理 HTTP是无状态的面向连接的协议, 为了保持连接状态, 引入了Cookie机制 Cookie是http消息头中的一种属性,包括: Cookie名字(N...

  • Python爬虫(七)--Scrapy模拟登录

    1. Cookie原理 HTTP是无状态的面向连接的协议, 为了保持连接状态, 引入了Cookie机制 Cookie是http消息头中的一种属性,包括: Cookie名字(N...

  • 120
    scrapy 爬取整站图片

    这是一个练习项目,这里要感谢简书的向右奔跑,从开始学习scrapy开始,跟向右奔跑老师学习了很多,这个项目也是向右奔跑老师的建议练习项目之一。使用Scrapy ItemLoa...

  • 简述第一文《为什么选择爬虫、选择python》

    2012年毕业到现在已经过去5年,越发对现在的工作状态感到不满,也对将来的生活感到不安,一直想改行从事别的行业,但身无一技之长,发现除了现在的工作居然没有自己能胜任的,所以决...

  • 120
    使用Scrapy ItemLoaders爬取整站图片

    先看一下Item Loaders的说明,官网对ItemLoaders的介绍是,如果想要保存单个数据或者对数据执行额外的处理,那将是 Item Loaders发挥作用的地方。 ...

  • 楼主,有什么方法可以去重,我用循环写的递归调用parse 好多页面都重复访问的,导致效率特别低。

    使用Scrapy ItemLoaders爬取整站图片

    先看一下Item Loaders的说明,官网对ItemLoaders的介绍是,如果想要保存单个数据或者对数据执行额外的处理,那将是 Item Loaders发挥作用的地方。 ...