学习爬虫

学习爬虫

一、前期准备
方法一：
1. 创建虚拟环境

python3 -m venv 虚拟环境名称

在 Windows 下:
./ 虚拟环境名称/Scripts/activate.bat

在 OS X 和 Linux 上:
source ./venv/bin/activate

下载 vc++ 14安装
pip install twisted[tls]

4.安装Scrapy

pip install scrapy

方法二：

可以直接下载安装Anaconda在可视化界面完成（我是懒癌患者，所以我推荐这种方式，哈哈）

二、开始爬虫
1.新建一个爬虫项目（生成项目目录）

scrapy startproject 项目名称

2.生成爬虫

scrapy genspider  爬虫名  域名

3.配置请求身份

在setting文件下→设置user-agent(具体需要到你要爬的网页上找，很简单~)

4.编写爬虫

在你之前爬虫名文件中编写--首先修改在class里的start_urls 看是否是你要爬的那页网址--再到parse方法中编写爬虫代码

5.我爬的简单的豆瓣上电影信息(如图）

image.png

6.运行爬虫

scrapy crawl 爬虫名

这样一个简单的爬虫流程就走完啦，是不是感觉没那么复杂呢！！！

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。