xcaojianhong - 简书

发简信

xcaojianhong

12
关注
3
粉丝
8
文章
2721

字数
9

收获喜欢
1

总资产

IP属地：江苏

xcaojianhong

treelake
写了 110687 字，被 3235 人关注，获得了 3374 个喜欢

无名之辈
xcaojianhong

scrapy 爬取新浪账号
前两天晚上对新浪微博的账号信息进行了爬去，10几个小时爬了30几万的数据，然后我的微博就被封号了，微博一个小时大概就2万条数据，应该已经很慢了，但是还是被封号了，后续增加多账...

473 0 0

xcaojianhong

scrapy 模拟登录weibo.com
之前学习了模拟登录新浪微博，没有用到框架，今天晚上尝试用scrapy重新写一遍模拟登录。存在问题：1、scrapy 好像不擅长模拟登录，写出来的代码结构还不如requests...

1004 0 2
xcaojianhong

小武子
写了 39284 字，被 85 人关注，获得了 196 个喜欢

天大地大，总有一个我写python的地方。
xcaojianhong

用了requests库我已经彻底忘了urllib模块了

python模拟登录练习（三）
经历过模拟登录微博之后，今天试了一下爬网页版的微信，感觉比微博简单多了。

xcaojianhong
224 1 1
xcaojianhong

python模拟登录练习（三）
经历过模拟登录微博之后，今天试了一下爬网页版的微信，感觉比微博简单多了。

224 1 1
xcaojianhong

python模拟登录练习（二）
花了4个晚上终于把模拟登录新浪微博学习完了，相对于知乎迷你登录，微博登录的过程确实难度大了很多，好多知识点都不懂，所以虽然把代码都码了一遍，但很多都是照猫画虎，其实还有很多地...

735 1 1

xcaojianhong

resolvewang
写了 35112 字，被 718 人关注，获得了 561 个喜欢

我的开源项目： 分布式微博爬虫 <a href="https://links.jianshu.com/go?to=https%3A%2F%2Fgithub.com%2FSpiderClub%2Fweibospider" target="_blank">https://github.com/SpiderClub/weibospider</a> 高可用分布式代理池 <a href="https://links.jianshu.com/go?to=https%3A%2F%2Fgithub.com%2FSpiderClub%2Fhaipproxy" target="_blank">https://github.com/SpiderClub/haipproxy</a>
xcaojianhong

python模拟登录练习（一）
上一篇文章模拟登陆存在问题用scrapy无法登录知乎，后来志明S告诉我是验证码的问题，另外知乎上xchaoinfo提到知乎登录需要保持cookies一致，都不是太理解，暂时找...

635 1 3
xcaojianhong

sunhaiyu
写了 230192 字，被 555 人关注，获得了 582 个喜欢
xcaojianhong

昨天在知乎上看到，好像登陆的时候需要保持cookies一致，验证码的问题我也不是很清楚，浏览器一般不需要输验证码

模拟登陆存在问题
学习Python爬虫(七)--Scrapy模拟登录的post模拟登陆后，自己写了模拟登陆知乎首页的代码。测试后发现无效

xcaojianhong
275 3 0
xcaojianhong

模拟登陆存在问题
学习Python爬虫(七)--Scrapy模拟登录的post模拟登陆后，自己写了模拟登陆知乎首页的代码。测试后发现无效

275 3 0

xcaojianhong

```
from scrapy.spiders import CrawlSpider
from scrapy.selector import Selector
from scrapy.http import Request,FormRequest

class zhihu_login(CrawlSpider):
name = 'zhihu'
allowed_domains = ['www.zhihu.com']
start_urls = ['https://www.zhihu.com/#signin']

def parse(self, response):
cel = Selector(response)
_xsrf = cel.xpath('//html/body/input[@name="_xsrf"]/@value').extract()[0]
print(_xsrf)
password = '888'
captcha_type = 'cn'
phone_num = '15325648303'

Formdata = {'_xsrf':_xsrf,
'password':password,
'captcha_type':captcha_type,
'phone_num':phone_num
}

return FormRequest.from_response(response,formdata=Formdata,callback=self.after_login,dont_filter = True)

def after_login(self,response):
cel = Selector(response)
print(response.body())
```

为什么这样无法登陆，headers我在settings中设置过的，手机和密码是瞎写的，测试的时候是用正确的账号密码测试，提示
```
2017-02-16 21:07:45 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.zhihu.com/#signin> (referer: None)
893df5e5ad5ee495265c72a0ae5714ad
2017-02-16 21:07:45 [scrapy.core.engine] DEBUG: Crawled (403) <POST https://www.zhihu.com/> (referer: https://www.zhihu.com/)
2017-02-16 21:07:45 [scrapy.spidermiddlewares.httperror] INFO: Ignoring response <403 https://www.zhihu.com/>: HTTP status code is not handled or not allowed
```

Python爬虫(七)--Scrapy模拟登录
1. Cookie原理 HTTP是无状态的面向连接的协议, 为了保持连接状态, 引入了Cookie机制 Cookie是http消息头中的一种属性，包括： Cookie名字（N...

Andrew_liu
80716 15 116
xcaojianhong

Python爬虫(七)--Scrapy模拟登录
1. Cookie原理 HTTP是无状态的面向连接的协议, 为了保持连接状态, 引入了Cookie机制 Cookie是http消息头中的一种属性，包括： Cookie名字（N...

Andrew_liu
80716 15 116
xcaojianhong

志明S
写了 1840 字，被 42 人关注，获得了 64 个喜欢
xcaojianhong

ericlll
写了 1873 字，被 7 人关注，获得了 10 个喜欢
xcaojianhong

scrapy 爬取整站图片
这是一个练习项目，这里要感谢简书的向右奔跑，从开始学习scrapy开始，跟向右奔跑老师学习了很多，这个项目也是向右奔跑老师的建议练习项目之一。使用Scrapy ItemLoa...

1227 0 1

xcaojianhong

简述第一文《为什么选择爬虫、选择python》
2012年毕业到现在已经过去5年，越发对现在的工作状态感到不满，也对将来的生活感到不安，一直想改行从事别的行业，但身无一技之长，发现除了现在的工作居然没有自己能胜任的，所以决...

468 0 1
xcaojianhong

使用Scrapy ItemLoaders爬取整站图片
先看一下Item Loaders的说明，官网对ItemLoaders的介绍是，如果想要保存单个数据或者对数据执行额外的处理，那将是 Item Loaders发挥作用的地方。 ...

向右奔跑
5080 5 6
xcaojianhong

楼主，有什么方法可以去重，我用循环写的递归调用parse 好多页面都重复访问的，导致效率特别低。

使用Scrapy ItemLoaders爬取整站图片
先看一下Item Loaders的说明，官网对ItemLoaders的介绍是，如果想要保存单个数据或者对数据执行额外的处理，那将是 Item Loaders发挥作用的地方。 ...

向右奔跑
5080 5 6