学习爬虫

一、前期准备
方法一:
1. 创建虚拟环境

python3 -m venv 虚拟环境名称
  1. 激活虚拟环境
在 Windows 下:
./ 虚拟环境名称/Scripts/activate.bat

在 OS X 和 Linux 上:
source ./venv/bin/activate
  1. 安装依赖
下载 vc++ 14安装
pip install twisted[tls]

4.安装Scrapy

pip install scrapy

方法二:

可以直接下载安装Anaconda在可视化界面完成(我是懒癌患者,所以我推荐这种方式,哈哈)

二、开始爬虫
1.新建一个爬虫项目(生成项目目录)

scrapy startproject 项目名称

2.生成爬虫

scrapy genspider  爬虫名  域名

3.配置请求身份

在setting文件下→设置user-agent(具体需要到你要爬的网页上找,很简单~)

4.编写爬虫

在你之前爬虫名文件中编写--首先修改在class里的start_urls 看是否是你要爬的那页网址--再到parse方法中编写爬虫代码

5.我爬的简单的豆瓣上电影信息(如图)


image.png

6.运行爬虫

scrapy crawl 爬虫名

这样一个简单的爬虫流程就走完啦,是不是感觉没那么复杂呢!!!

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容