2017.07.19

make plans as Bullet Journal

scrapy crawl zhihu.com:

login
header
post_data: {
username:
password:
captcha:
}
验证码模拟登陆
解析
itemloader
解析question
解析answer
注意：问题url中，知乎现在有两个版本，一个是 url 中只有 question_id，另一个版本是带有answer和 answer_id 的url，这两个版本均解析正常
create table in mysql
没完成：将 item 数据通过 pipeline 保存到 mysql 中

scrapy 是基于 twisted 的异步框架，所有使用 Request 时，必须指定一个回调函数 callback，默认调用parse

如果Request函数中的回调函数没有调用，可能的愿意就是被 scrapy 中默认的 Offsite Spider Middleware 过滤掉了，只需要加上 dont_filter=True 参数即可，或者将 allowed_domains 设置为空

最后编辑于：2017.12.09 01:22:01

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

不该有的习惯
2017、4、30 深圳晴我是希望，真名邓玉梅，但我更喜欢人家称呼我梅子或是邓玉，我是一名...
梅子日记阅读 2,224评论 0赞 0
得失
活着挺累的总是在得失中计较为什么不能放开心些是欲望在膨胀仔细想想得到又怎样失去又能怎样呢不过都是瞬间的...
粗手不凡综合美术亲子活动吴老师阅读 3,068评论 0赞 0

【0707晨读感悟】-与大佬“斗智斗勇”
今天的晨读分享是《向上汇报》，讲的是职场中面对上级的汇报技巧，从中我温习了如何正确地与大佬“斗智斗勇”。我在家乡...
鮸鱼阅读 1,547评论 0赞 1
我把万科恒大碧桂园保利的网测题都录了下来！
写在前面：目前，我是西南天府之国某普通985高校的一枚应届工科小硕。历经了2个月的苦逼求职期后才拿到合自己心意的o...
高级农民工阅读 43,149评论 1赞 15
荷花季
爱莲，不是她比牡丹花贵、比玫瑰花艳、比茉莉花香！独爱她的清高。出淤泥而不染、浊青莲而不妖。喜欢她的叶，铺天盖地、...
孤鹰翱翔阅读 1,488评论 0赞 0

赞1赞

赞赏

手机看全文