make plans as Bullet Journal
scrapy crawl zhihu.com:
login
header
post_data: {
username:
password:
captcha:
}
验证码模拟登陆解析
itemloader
解析question
解析answer
注意:问题url中,知乎现在有两个版本,一个是 url 中只有 question_id,另一个版本是带有answer和 answer_id 的url,这两个版本均解析正常create table in mysql
没完成:将 item 数据通过 pipeline 保存到 mysql 中
scrapy 是基于 twisted 的异步框架,所有使用 Request 时,必须指定一个回调函数 callback,默认调用parse
如果Request函数中的回调函数没有调用,可能的愿意就是被 scrapy 中默认的 Offsite Spider Middleware 过滤掉了,只需要加上 dont_filter=True 参数即可,或者将 allowed_domains 设置为空