Scrapy框架入门实例(爬取腾讯社招招聘信息含代码)

Scrapy简单入门及实例讲解

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。其可以应用在数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。
Scrapy 使用了 Twisted异步网络库来处理网络通讯。整体架构大致如下

29-978666187.png

scrapy介绍1.png

scrapy执行过程.png

clipboard.png

1.安装scrapy包

pip install scrapy

2.查看scrapy命令

scrapy

clipboard.png

测试爬取数据的根据机器性能

scrapy bench

下载响应文件

scrapy fetch "http://www.baidu.com"

获取对应文件

scrapy shell "http://www.baidu.com"

3.开始创建一个项目

scrapy startproject zhangxuhui(项目名称)

4.创建一个爬虫

scrapy genspider tencent(爬虫名称) "tencent.com" (url)

5.运行爬虫

scrapy crawl tencent(爬虫名称)

6.保存文件

scrapy crawl tencent(爬虫名称) -o data.json

源码下载地址:
https://github.com/itzhangxuhui/scrapy-tencent

最后编辑于：2018.04.26 12:43:06

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

Scrapy框架入门实例(爬取腾讯社招招聘信息含代码)

Scrapy框架入门实例(爬取腾讯社招招聘信息含代码)

Scrapy简单入门及实例讲解

推荐阅读更多精彩内容

友情链接更多精彩内容