- 运行scrapy程序
scrapy crawl kaili_spider
- 编程最好都用空格
- scrapy方法传参默认第一个传self
- scrapy输出抓取内容到文件
yield item
scrapy crawl kaili_spider -o kaili_spider.json
- scrapy中parse不能返回item列表,但作为callback的parse_item却可以参照。
- scrapy输出log
scrapy crawl tencent_crawl --logfile 'ten.log' -L INFO
- scrapy调度器对请求队列的处理方式是请求在队列中是按后进先出的顺序到调度器的(知乎真是一个好网站)
- scrapy xpath返回对象还想继续调用xpath则不要调用extract
- Python疑点解答
- Scrapy设置定时任务
- scrapy spider配置pipeline
- deploy spider to scrapyd
python c:\Python27\Scripts\scrapyd-deploy <target> -p <project>
<target>:scrapy.cfg中[deploy:后的名字
<project>:项目名称
- 命令scrapyd要到项目根目录运行才能启动(不足:不能定时执行)
- apscheduler可以使用RotatingFileHandler按文件大小分割log
- logger.exception可以打印错误堆栈
logger = logging.getLogger(name)
try:
...
except:
logger.exception('error')
16.scrapy.Request的dont_filter=True用来重复访问url(对登录失败后重试特别有用),scrapy默认只对一个url访问一次(碰到特别具体的问题还是得看官方文档呀!哪怕是英文的!)
17.电话号码归属地查询库