永远保持一颗求知的心,不要被已知所束缚。
今天开始将自己学习scrapy的笔记记下来,以后可以反复温习,希望能坚持下去。
A任务:scrapy访问http://www.isc.ac.uk/并保存网页
在powershell中新建工程:
> scrapy startproject projectA
cd进入子文件夹projectA,新建爬虫:
> scrapy genspider projectA_spider www.isc.ac.uk
在子文件夹spiders中找到刚刚创建的爬虫projectA_spider.py,用Notepad++进行编辑:
# -*- coding: utf-8 -*-
import scrapy
class ProjectaSpiderSpider(scrapy.Spider):
name = 'projectA_spider'
allowed_domains = ['www.isc.ac.uk/']
start_urls = ['http://www.isc.ac.uk/']
def parse(self, response):
filename = response.url.split('.')[-3]+".html"
with open(filename,'wb') as fp:
fp.write(response.body)
运行:
> scrapy crawl projectA_spider
即可在当前文件夹中找到下载的isc.html源网页,任务完成。
查看目录文件夹下当前已有的爬虫:
> scrapy list
登陆scrapy shell查看获取的响应网页源码:
> scrapy shell “http://www.isc.ac.uk/”
>>> response.body