大家好,我是一个"沾沾自喜"的虫子,刚刚学会写一点点代码,明白了"爬"的原理,就想要"飞"了,于是"摔"的很惨.不过,这也是成长的过程.也许当我回头看的时候,自己会笑喷.还是比较享受这个过程的.
Scrapy
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。
爬取数据
首先我们来一起爬取一下豆瓣电影上的数据吧..come on,
这个是要爬取数据的地址
https://movie.douban.com/top250
新建一个工程
scrapy startproject doubandianying
Item
item 模块个人理解为一种 model,说白了,就是把数据爬取下来之后放到这个容器中,之后可以用 pipelines 文存取到数据库中. (本文不涉及到) .
修改 items.py 文件
打开文件可以看到结构,而且有例子,很简单.把想要的数据在这里写好.写spider文件的时候会需要.
import scrapy
class DoubandianyingItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
title = scrapy.Field()
link = scrapy.Field()
star = scrapy.Field()
quote = scrapy.Field()
pass
这里是想取的数据:
Spider 文件
接下来就是写爬虫喽,话不多说直接上代码.
import scrapy
import sys
from doubandianying.items import DoubandianyingItem
reload(sys)
sys.setdefaultencoding('utf-8')
class doubandianying(scrapy.Spider):
name ='doubandianying'
allowed_domains = ["douban.com"]
start_urls = ["http://movie.douban.com/top250/"]
def parse(self,response):
item = DoubandianyingItem()
infos = response.xpath('//div[@class="item"]')
for info in infos:
title = info.xpath('div[@class="pic"]/a/img/@alt').extract()
link= info.xpath('div[@class="pic"]/a/@href').extract()
star = info.xpath('div[@class="info"]/div[@class="bd"]/div[@class="star"]/span[@class="rating_num"]/text()').extract()
quote = info.xpath('div[@class="info"]/div[@class="bd"]/p[@class="quote"]/span/text()').extract()
item['title']= title
item['link']=link
item['star']=star
item['quote']=quote
yield item
next_page = response.xpath('//span[@class="next"]/a/@href')
if next_page:
url = response.urljoin(next_page[0].extract())
yield scrapy.Request(url,self.parse)
一切都 OK 了,剩下的就是去爬虫文件所在的目录去执行
scrapy crawl doubandianying
之后如果想看的方便点,可以导出成.csv 格式或者 json 的形式.
scrapy crawl doubandianying -o items.json
如果还有什么地方有问题大家可以在评论里面说说....欢迎.
最后
想说一句其实有了框架,进行爬虫很简单,主要还是对于网页的分析,XPath 语法要看看.传送门,
如果看会了,不如试试抓一下豆瓣图书去.加油