Python爬虫----初窥Scrapy

为什么要学习scrapy,简单来说就是让爬虫更快更强.

安装命令

sudo pip3 install scrapy

在开始爬取之前，必须创建一个新的Scrapy项目。

scrapy startproject 项目名称

新建爬虫文件

 scrapy genspider jobbole jobbole.com

然后在创建的爬虫文件jobbole.py中就可以发起请求,并提取想要的数据,将start_urls(设置起始url)的值修改为需要爬取的第一个url

start_urls = ("http://blog.jobbole.com/all-posts/",)

在items.py文件中添加字段(Item 定义结构化数据字段，用来保存爬取到的数据，有点像Python中的dict，但是提供了一些额外的保护减少错误)

class JobboleItem(scrapy.Item):

    # define the fields for your item here like:
    #标题
    title = scrapy.Field()
    #创建时间
    create_date = scrapy.Field()

在setting.py中启用一个Item Pipeline组件,当Item在Spider中被收集之后，它将会被传递到Item Pipeline,所以我们只需在pipeline文件中设置文件写入本地的格式和地址即可

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

Python爬虫----初窥Scrapy

Python爬虫----初窥Scrapy

推荐阅读更多精彩内容

友情链接更多精彩内容