大家好,我是一个"沾沾自喜"的虫子,刚刚学会写一点点代码,明白了"爬"的原理,就想要"飞"了,于是"摔"的很惨.不过,这也是成长的过程.也许当我回头看的时候,自己会笑喷.还是比较享受这个过程的.

Scrapy

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

爬取数据

首先我们来一起爬取一下豆瓣电影上的数据吧..come on,

这个是要爬取数据的地址

https://movie.douban.com/top250

新建一个工程

scrapy startproject doubandianying

Item

item 模块个人理解为一种 model,说白了,就是把数据爬取下来之后放到这个容器中,之后可以用 pipelines 文存取到数据库中. (本文不涉及到) .

修改 items.py 文件

打开文件可以看到结构,而且有例子,很简单.把想要的数据在这里写好.写spider文件的时候会需要.

import scrapy

class DoubandianyingItem(scrapy.Item):

# define the fields for your item here like:

# name = scrapy.Field()

title = scrapy.Field()

link = scrapy.Field()

star = scrapy.Field()

quote = scrapy.Field()

pass

这里是想取的数据:

Spider 文件

接下来就是写爬虫喽,话不多说直接上代码.

import scrapy

import sys

from doubandianying.items import DoubandianyingItem

reload(sys)

sys.setdefaultencoding('utf-8')

class doubandianying(scrapy.Spider):

name ='doubandianying'

allowed_domains = ["douban.com"]

start_urls = ["http://movie.douban.com/top250/"]

def parse(self,response):

item = DoubandianyingItem()

infos = response.xpath('//div[@class="item"]')

for info in infos:

title = info.xpath('div[@class="pic"]/a/img/@alt').extract()

link= info.xpath('div[@class="pic"]/a/@href').extract()

star = info.xpath('div[@class="info"]/div[@class="bd"]/div[@class="star"]/span[@class="rating_num"]/text()').extract()

quote = info.xpath('div[@class="info"]/div[@class="bd"]/p[@class="quote"]/span/text()').extract()

item['title']= title

item['link']=link

item['star']=star

item['quote']=quote

yield item

next_page = response.xpath('//span[@class="next"]/a/@href')

if next_page:

url = response.urljoin(next_page[0].extract())

yield scrapy.Request(url,self.parse)

一切都 OK 了,剩下的就是去爬虫文件所在的目录去执行

scrapy crawl doubandianying

之后如果想看的方便点,可以导出成.csv 格式或者 json 的形式.

scrapy crawl doubandianying -o items.json

如果还有什么地方有问题大家可以在评论里面说说....欢迎.

最后

想说一句其实有了框架,进行爬虫很简单,主要还是对于网页的分析,XPath 语法要看看.传送门,

如果看会了,不如试试抓一下豆瓣图书去.加油

刚"会爬"就想"飞"的虫子(基于 Scrapy)