Python

  1. 运行scrapy程序

scrapy crawl kaili_spider

  1. 编程最好都用空格
  2. scrapy方法传参默认第一个传self
  3. scrapy输出抓取内容到文件

yield item
scrapy crawl kaili_spider -o kaili_spider.json

  1. scrapy中parse不能返回item列表,但作为callback的parse_item却可以参照
  2. scrapy输出log

scrapy crawl tencent_crawl --logfile 'ten.log' -L INFO

  1. scrapy调度器对请求队列的处理方式是请求在队列中是按后进先出的顺序到调度器的(知乎真是一个好网站)
  2. scrapy xpath返回对象还想继续调用xpath则不要调用extract
  3. Python疑点解答
  4. Scrapy设置定时任务
  5. scrapy spider配置pipeline
  6. deploy spider to scrapyd

python c:\Python27\Scripts\scrapyd-deploy <target> -p <project>
<target>:scrapy.cfg中[deploy:后的名字
<project>:项目名称

  1. 命令scrapyd要到项目根目录运行才能启动(不足:不能定时执行)
  2. apscheduler可以使用RotatingFileHandler按文件大小分割log
  3. logger.exception可以打印错误堆栈
    logger = logging.getLogger(name)
    try:
    ...
    except:
    logger.exception('error')
    16.scrapy.Request的dont_filter=True用来重复访问url(对登录失败后重试特别有用),scrapy默认只对一个url访问一次(碰到特别具体的问题还是得看官方文档呀!哪怕是英文的!)

17.电话号码归属地查询库

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。