登录注册写文章

Python

Python

运行scrapy程序

scrapy crawl kaili_spider

编程最好都用空格
scrapy方法传参默认第一个传self
scrapy输出抓取内容到文件

yield item
scrapy crawl kaili_spider -o kaili_spider.json

scrapy中parse不能返回item列表，但作为callback的parse_item却可以参照。
scrapy输出log

scrapy crawl tencent_crawl --logfile 'ten.log' -L INFO

scrapy调度器对请求队列的处理方式是请求在队列中是按后进先出的顺序到调度器的（知乎真是一个好网站）
scrapy xpath返回对象还想继续调用xpath则不要调用extract
Python疑点解答
Scrapy设置定时任务
scrapy spider配置pipeline
deploy spider to scrapyd

python c:\Python27\Scripts\scrapyd-deploy <target> -p <project>
<target>:scrapy.cfg中[deploy:后的名字
<project>:项目名称

命令scrapyd要到项目根目录运行才能启动（不足：不能定时执行）
apscheduler可以使用RotatingFileHandler按文件大小分割log
logger.exception可以打印错误堆栈
logger = logging.getLogger(name)
try:
...
except:
logger.exception('error')
16.scrapy.Request的dont_filter=True用来重复访问url(对登录失败后重试特别有用)，scrapy默认只对一个url访问一次(碰到特别具体的问题还是得看官方文档呀！哪怕是英文的！)

17.电话号码归属地查询库

最后编辑于：2020.05.08 14:41:48

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

赞1赞

赞赏

手机看全文