Scrapy(一) | 介绍和安排

第一讲:Scrapy框架的配置和基础知识的介绍,所涉及的主要内容如下:

1.Scrapy的安装
2.Scrapy框架简述

第二讲:利用Python Scrapy框架实战,内容如下:

1.Scrapy爬取toscrape名人名言,并保存至文件、MongoDB:
① 掌握使用CSS选择器提取数据、分页爬取
② 掌握Scrapy自带各种文件格式输出数据
③ 掌握MongoDB的使用

2.Scrapy爬取虎扑NBA所有球员个人信息,并保存至mysql:
① 掌握Xpath选择器提取数据
② 将数据保存至mysql

3.Scrapy爬取虎扑NBA论坛球队新闻,并按NBA各球队区分保存至文件夹,以及保存至mysql:
① 熟悉Xpath选择器提取数据
② 掌握图片保存
③ 使用os库实现数据存储至本地电脑
④ 将数据保存至mysql数据库

第三讲:如何突破各网站的反爬技术

  1. 随机更换User-agent
  2. 设置ip代理池
  3. 突破图片验证,文字验证码
  4. 自动化模拟输入点击操作(比如模拟人工输入用户名、密码、点击登录等一系列操作)

第四讲:各部分架构详解

1.Spider的用法
2.Downloader Middleware 的用法
3.Spider Middleware的用法
4.Item Middleware的用法

第五讲:分布式爬虫

  1. 分布式爬虫原理
  2. Scrapy-Redis介绍
  3. Scrapy分布式的实现
  4. 分布式爬虫的部署

:上述实战项目源码开放,若需要可私聊。


人生苦短,我用python。

您的关注与点赞,是我努力的源泉。谢谢。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容