1. 安装配置
- 下载对应版本的tisted.whl 文件到本地https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
-
pip install Twisted-19.2.1-cp36-cp36m-win_amd64.whl
本地编译安装twisted
- 安装框架 pip install scrapy
- 可能还需要安装 pip install pypiwin32
2. 入門程序
- 命令行下,创建scrapy项目 D:>scrapy startproject DouBan
- 打开pycharm 打开项目,在命令行下输入
D:\DouBan>scrapy genspider douban_movie www.movie.douban.com
会在spiders目录下自动生成 douban_movie.py
- 修改setting.py 里面有关headers、user-agent配置、robot =false
- 在工程目录下创建begin.py ,启动项目时,就run这个文件
from scrapy import cmdline
# 使用cmd命令行 执行 spiders/douban_movie.py
cmdline.execute('scrapy crawl douban_movie'.split())
- 在douban_movie.py中 编写解析代码
# -*- coding: utf-8 -*-
import scrapy
from DouBan.items import DoubanItem
class DoubanMovieSpider(scrapy.Spider):
name = 'douban_movie'
allowed_domains = ['www.movie.douban.com']
start_urls = ['https://movie.douban.com/subject/26100958/comments?sort=new_score&status=P']
# parse方法是框架内置的,start_urls 中的请求完成后
# 返回的response会传给parse方法
# 我们在parse方法中,解析网页源代码
# response 就是 start_urls 的网页源代码
def parse(self, response):
item = DoubanItem()
comment = response.xpath('//span[@class="short"]/text()').extract()
print(comment)
-
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。