Python-Scrapy-学习笔记(一)

概览

由于工作需要,以及之前的经验积累,决定尝试用scrapy爬虫框架爬取部分数据。
这是我第二次尝试学习scrapy框架,第一次学习无疾而终(那时候没有工作压力)。
该篇我命名为初窥门径

问题

1. 安装问题

直接使用pip安装scrapy模块是报错:Microsoft Visual C++ 14.0 is required
建议参考Microsoft Visual C++ 14.0 is required 的解决方案下载文件并安装即可
附:

  1. Microsoft 官网没有14.0的包,15.0的包下载了貌似没用
  2. 在安装了python3 和 Anaconda3的情况下, 请使用pip3 安装命令,直接使用pip安装的包是安装到Anaconda 环境里面了。(估计是跟路径的设置有关)
  3. 如果在网络受限的环境情况下,可以给pip使用代理下载,格式如下:
    pip3 install --proxy=http://127.0.0.1:8080 scrapy

2. 创建项目

在cmd中使用 scrapy startproject project_name时,我遇到了以下问题

  1. ImportError: No module named win32api
    建议参考:Scrapy运行ImportError: No module named win32api错误
    命令:pip install pypiwin32
  2. 在pip安装该模块时,总是会报另外一个错误:ReadTimeoutError
    建议参考:Windows下,pip安装时ReadTimeoutError解决办法
    命令:pip --default-timeout=100 install -U pypiwin32
  3. 然后会报错:No module named 'urllib2'
    这是因为scrapy的piplines.py里面使用了相应的包
    建议用requests模块重写这部分的逻辑
    代码:
    import requests
    response = requests.get(url)
  4. 因为网路问题,爬虫在爬取的时候,需要增加代理。
    建议参考:给Scrapy添加代理;关于这块的代理添加的文章大多都是这篇。。。
    我这边是直接在piplines.py里面直接更改爬取逻辑的:
    import requests
    proxies = {'http':'http://127.0.0.1:8080','https':'http://127.0.0.1:8080'}
    response = requests.get(url,proxies = proxies)
    虽然我也参考了方法二,中间件那个,但是对我这边没什么用。

参考

  1. Scrapy简单入门及;实例讲解
  2. Microsoft Visual C++ 14.0 is required 的解决方案
  3. Scrapy运行ImportError: No module named win32api错误
  4. Windows下,pip安装时ReadTimeoutError解决办法
  5. 给Scrapy添加代理
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 目录 前言 安装环境Debian / Ubuntu / Deepin 下安装Windows 下安装 基本使用初始化...
    无口会咬人阅读 12,266评论 2 45
  • ——文/小字公子 1、 “我在哪里?是雨吗……我讨厌雨……而又怀念雨……”黑暗的森林中,冰冷的雨水淅淅沥沥的下着,...
    小字公子阅读 5,857评论 2 21
  • Makdown简介 简介 轻量级的标记语言,在语法方面做出了卓越贡献 该语言目标是易读易写,提供简单语法用纯文本发...
    沐阳落枫阅读 1,805评论 0 0
  • 我们做梦的胳膊搂在一起安坐在汹涌的星辰祈求和承诺的嘴唇亮起的心和眼睛,灯躲在山谷 桌子上安放着求婚的杯盏一堆红烛,...
    欺尘阅读 1,414评论 3 3
  • 夜深人静时,躺下来仔细想想。 人活着真不容易,复杂的社会,看不透的人心,放不下的责任,经历不完的坎坷,躲不完的虚伪...
    寅午贤人红尘录阅读 1,225评论 0 0

友情链接更多精彩内容