Scrapy 框架入门

1. 安装配置

下载对应版本的tisted.whl 文件到本地https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
pip install Twisted-19.2.1-cp36-cp36m-win_amd64.whl 本地编译安装twisted
安装框架 pip install scrapy
可能还需要安装 pip install pypiwin32

2. 入門程序

命令行下，创建scrapy项目 D:>scrapy startproject DouBan
打开pycharm 打开项目，在命令行下输入
D:\DouBan>scrapy genspider douban_movie www.movie.douban.com
会在spiders目录下自动生成 douban_movie.py
修改setting.py 里面有关headers、user-agent配置、robot =false
在工程目录下创建begin.py ,启动项目时，就run这个文件

from scrapy import cmdline
# 使用cmd命令行 执行 spiders/douban_movie.py
cmdline.execute('scrapy crawl douban_movie'.split())

在douban_movie.py中编写解析代码

# -*- coding: utf-8 -*-
import scrapy
from DouBan.items import DoubanItem

class DoubanMovieSpider(scrapy.Spider):
    name = 'douban_movie'
    allowed_domains = ['www.movie.douban.com']
    start_urls = ['https://movie.douban.com/subject/26100958/comments?sort=new_score&status=P']

    # parse方法是框架内置的，start_urls 中的请求完成后
    # 返回的response会传给parse方法
    # 我们在parse方法中，解析网页源代码
    # response 就是 start_urls 的网页源代码
    def parse(self, response):
        item = DoubanItem()
        comment = response.xpath('//span[@class="short"]/text()').extract()
        print(comment)

最后编辑于：2019.07.17 10:39:44

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

Scrapy 框架入门

Scrapy 框架入门

1. 安装配置

2. 入門程序

相关阅读更多精彩内容

友情链接更多精彩内容