登录注册写文章

Scrapy问题记录

石器时代小古董

Scrapy问题记录

一、Filtered offsite request

由于指定了allowed_domains的参数，所有不符合规定的url将被忽略，导致部分url爬取失败，解决方法时不设置该参数，或者设置dont_filter=true

yield Request(url, callback=self.parse_item, dont_filter=True)

二、Item

负责将数据进行结构话的保存，在parse方法中将数据保存到item中，并且返回yield方法，数据会传入到pipline中。

三、pipline

负责保存数据，在settings进行配置，IMAGES_URLS_FIELD必须是一个数组，对应的是item中保存图片的字段

ITEM_PIPELINES = {
   'ArticleSpider.pipelines.ArticlespiderPipeline': 300,
    #配置图片下载的方式
  # 'scrapy.pipelines.images.ImagesPipeline':1
}
##指定从Item的哪个参数获取image url
"""
IMAGES_URLS_FIELD会接收一个数组函数
"""
IMAGES_URLS_FIELD="front_img_url"
##指定保存图片的位置
project_dir=os.path.abspath(os.path.dirname(__file__))
##图片保存路径
IMAGE_STORE=os.path.join(project_dir,'images')

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

scrapy学习笔记(有示例版）
scrapy学习笔记(有示例版）我的博客 scrapy学习笔记1.使用scrapy1.1创建工程1.2创建爬虫模...
陈思煜阅读 14,374评论 4赞 46
写在2017年末
最近身体一直处于大毛病没有，小毛病不断的状态，主要是荨麻疹，差不多连续吃了半个多月的药了，这几天都还有点反复。这...
Misss张阅读 3,073评论 0赞 0

一千张面孔‖0011
四月青阅读 3,192评论 11赞 15
2017-09-29
可是无论怎样，生活还是得继续啊，我们也要继续一直往前走啊
努力地过真好阅读 1,090评论 0赞 0

友情链接更多精彩内容

赞1赞

赞赏

手机看全文