前两天晚上对新浪微博的账号信息进行了爬去,10几个小时爬了30几万的数据,然后我的微博就被封号了,微博一个小时大概就2万条数据,应该已经很慢了,但是还是被封号了,后续增加多账...
之前学习了模拟登录新浪微博,没有用到框架,今天晚上尝试用scrapy重新写一遍模拟登录。存在问题:1、scrapy 好像不擅长模拟登录,写出来的代码结构还不如requests...
用了requests库我已经彻底忘了urllib模块了
python模拟登录练习(三)经历过模拟登录微博之后,今天试了一下爬网页版的微信,感觉比微博简单多了。
经历过模拟登录微博之后,今天试了一下爬网页版的微信,感觉比微博简单多了。
花了4个晚上终于把模拟登录新浪微博学习完了,相对于知乎迷你登录,微博登录的过程确实难度大了很多,好多知识点都不懂,所以虽然把代码都码了一遍,但很多都是照猫画虎,其实还有很多地...
上一篇文章模拟登陆存在问题用scrapy无法登录知乎,后来志明S告诉我是验证码的问题,另外知乎上xchaoinfo提到知乎登录需要保持cookies一致,都不是太理解,暂时找...
昨天在知乎上看到,好像登陆的时候需要保持cookies一致,验证码的问题我也不是很清楚,浏览器一般不需要输验证码
模拟登陆存在问题学习Python爬虫(七)--Scrapy模拟登录的post模拟登陆后,自己写了模拟登陆知乎首页的代码。 测试后发现无效
学习Python爬虫(七)--Scrapy模拟登录的post模拟登陆后,自己写了模拟登陆知乎首页的代码。 测试后发现无效
```
from scrapy.spiders import CrawlSpider
from scrapy.selector import Selector
from scrapy.http import Request,FormRequest
class zhihu_login(CrawlSpider):
name = 'zhihu'
allowed_domains = ['www.zhihu.com']
start_urls = ['https://www.zhihu.com/#signin']
def parse(self, response):
cel = Selector(response)
_xsrf = cel.xpath('//html/body/input[@name="_xsrf"]/@value').extract()[0]
print(_xsrf)
password = '888'
captcha_type = 'cn'
phone_num = '15325648303'
Formdata = {'_xsrf':_xsrf,
'password':password,
'captcha_type':captcha_type,
'phone_num':phone_num
}
return FormRequest.from_response(response,formdata=Formdata,callback=self.after_login,dont_filter = True)
def after_login(self,response):
cel = Selector(response)
print(response.body())
```
为什么这样无法登陆,headers我在settings中设置过的,手机和密码是瞎写的,测试的时候是用正确的账号密码测试,提示
```
2017-02-16 21:07:45 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.zhihu.com/#signin> (referer: None)
893df5e5ad5ee495265c72a0ae5714ad
2017-02-16 21:07:45 [scrapy.core.engine] DEBUG: Crawled (403) <POST https://www.zhihu.com/> (referer: https://www.zhihu.com/)
2017-02-16 21:07:45 [scrapy.spidermiddlewares.httperror] INFO: Ignoring response <403 https://www.zhihu.com/>: HTTP status code is not handled or not allowed
```
Python爬虫(七)--Scrapy模拟登录1. Cookie原理 HTTP是无状态的面向连接的协议, 为了保持连接状态, 引入了Cookie机制 Cookie是http消息头中的一种属性,包括: Cookie名字(N...
1. Cookie原理 HTTP是无状态的面向连接的协议, 为了保持连接状态, 引入了Cookie机制 Cookie是http消息头中的一种属性,包括: Cookie名字(N...
这是一个练习项目,这里要感谢简书的向右奔跑,从开始学习scrapy开始,跟向右奔跑老师学习了很多,这个项目也是向右奔跑老师的建议练习项目之一。使用Scrapy ItemLoa...
2012年毕业到现在已经过去5年,越发对现在的工作状态感到不满,也对将来的生活感到不安,一直想改行从事别的行业,但身无一技之长,发现除了现在的工作居然没有自己能胜任的,所以决...
先看一下Item Loaders的说明,官网对ItemLoaders的介绍是,如果想要保存单个数据或者对数据执行额外的处理,那将是 Item Loaders发挥作用的地方。 ...
楼主,有什么方法可以去重,我用循环写的递归调用parse 好多页面都重复访问的,导致效率特别低。
使用Scrapy ItemLoaders爬取整站图片先看一下Item Loaders的说明,官网对ItemLoaders的介绍是,如果想要保存单个数据或者对数据执行额外的处理,那将是 Item Loaders发挥作用的地方。 ...