用23行代码爬取豆瓣音乐top250

学习.png

网上有各种爬取豆瓣电影top250的教程，虽然豆瓣音乐top250和豆瓣电影top250的爬取十分类似，但是我大致对比了一下，我这种方法应该是最简单的，仅需要23行代码。

豆瓣对于爬虫十分友好，而且豆瓣上面又有各种电影图书音乐等资源，是我们学习爬虫一个很不错的锻炼目标。基本上每个学习爬虫的人都会拿豆瓣来练练手。

好吧，如果你有更简单的方法，欢迎给我评论留言交流交流，共同进步。

抓取目标：

豆瓣音乐top250的歌名、作者（专辑）、评分和歌曲链接

使用工具：

requests + lxml + xpath。

我认为这种工具组合是最适合初学者的，requests比python自带的urllib库好用，功能更强大。关于requests的使用方法，建议看它的官方文档：

http://docs.python-requests.org/zh_CN/latest/user/quickstart.html

使用lxml来解析网页，速度是最快的，至少比BeatifulSoup快。关于lxml的使用方法，建议看这个：

http://lxml.de/

而xpath更是傻白甜的使用方式：直接在浏览器中复制即可，如果想要掌握xpath更具体的语法，建议看w3school的xpath教程：

http://www.w3school.com.cn/xpath/

首先目标url是： https://music.douban.com/top250?start=0

image.png

点击下一页，我们多观察几个页面的url：

image.png

我们会发现url的start=是以25的倍数增长的，起始为start=0，然后是start=25，每页25首音乐，一共十页。

所以，我们可以使用一个for循环来得出这十个页面的url：

for i in range(10):      
    # 一共有10个页面，每个页面25首音乐
    url = "https://music.douban.com/top250?start={}".format(i * 25)

关于format()函数的使用方法，可以看菜鸟教程上的讲解：

http://www.runoob.com/python/att-string-format.html

关于range()函数的使用方法，可以看菜鸟教程上的讲解：

http://www.runoob.com/python/python-func-range.html

然后我们使用requests.get()来进行网页请求：

import requests
headers = {"User_Agent": "Mozilla/5.0(compatible; MSIE 5.5; Windows 8)"}
data = requests.get(url, headers=headers).text

使用lxml来解析网页：

from lxml import etree
s = etree.HTML(data)

接下来我们开始提取数据，打开目标页面，将每首音乐的完整信息的xpath信息复制下来：

image.png

重复这样的操作，多复制几首音乐的xpath信息，观察它的规律：

//*[@id="content"]/div/div[1]/div/table[1]
//*[@id="content"]/div/div[1]/div/table[2]
//*[@id="content"]/div/div[1]/div/table[3]

这样子规律就很明显了，每首音乐就是table后的序号不同。只要我们将序号去掉，就可以提取所有音乐的全部信息了：

# 歌曲整体的xpath
musics = s.xpath('//*[@id="content"]/div/div[1]/div/table')

我们再使用同样的方法来获取歌名的xpath信息：

image.png

多复制几个歌名信息的xpath来对比一下：

# 歌名的xpath
# //*[@id="content"]/div/div[1]/div/table[1]/tbody/tr/td[2]/div/a
# //*[@id="content"]/div/div[1]/div/table[2]/tbody/tr/td[2]/div/a

这是注意一下，上面的xpath路径中，/tbody是多余的，我们要将其删掉，不然会出错，所以，有时候直接在浏览器复制xpath信息也不一定靠谱，这里要注意一下。

这样我们就可以提取出每首歌的歌名：

for music in musics:
    music_name = music.xpath('./tr/td[2]/div/a/text()')[0].strip()

如果不加[0]，我们得到的结果将是一个list类型，每个结果都被中括号[]裹起来，比较碍眼，所以使用[0]取出list的第一个值就可以了。strip()函数可以去除多余的空格。

还有，音乐的链接和名字的xpath路径是相同的，只是一个取href值，一个取text值。
所以每首歌的链接如下：

for music in musics:
    music_name = music.xpath('./tr/td[2]/div/a/@href')[0]

我们再使用同样的方法复制作者（专辑）的xpath信息：

image.png

多复制几个作者的xpath信息来对比一下：

# //*[@id="content"]/div/div[1]/div/table[1]/tbody/tr/td[2]/div/p[1]
# //*[@id="content"]/div/div[1]/div/table[2]/tbody/tr/td[2]/div/p[1]

同样要将/tbody从xpath路径中删掉，这样我们可以提取到每首歌的作者信息：

for music in musics:
    music_author = music.xpath('./tr/td[2]/div/p[1]/text()')[0].strip()

我们还使用同样的方法复制评分的xpath信息：

image.png

多复制几个评分的xpath信息来对比一下：

# //*[@id="content"]/div/div[1]/div/table[1]/tbody/tr/td[2]/div/div/span[2]
# //*[@id="content"]/div/div[1]/div/table[2]/tbody/tr/td[2]/div/div/span[2]

同理，我们就可以提取出每首歌的评分了：

for music in musics:
    music_score = music.xpath('./tr/td[2]/div/div/span[2]/text()')[0]

到现在，我们已经获取了我们想要的所有信息。现在来整合一下代码，存储为TXT文件：

import requests
from lxml import etree
import time

with open("豆瓣音乐top250.txt", "w", encoding="utf-8") as f:        
    for i in range(10):               
        # 一共有10个页面，每个页面25首音乐
        url = "https://music.douban.com/top250?start={}".format(i * 25)
        headers = {"User_Agent": "Mozilla/5.0(compatible; MSIE 5.5; Windows 8)"}
        data = requests.get(url, headers=headers).text      
        s = etree.HTML(data)                       

        # 歌曲整体的xpath
        musics = s.xpath('//*[@id="content"]/div/div[1]/div/table')
        time.sleep(2)                  

        for music in musics:
            music_name = music.xpath('./tr/td[2]/div/a/text()')[0].strip()  # 歌名
            music_author = music.xpath('./tr/td[2]/div/p[1]/text()')[0].strip()  # 作者
            music_score = music.xpath('./tr/td[2]/div/div/span[2]/text()')[0]  # 评分
            music_href = music.xpath('./tr/td[2]/div/a/@href')[0]  # 链接

            f.write("{} {} {} {}\n".format(music_name, music_author, music_score, music_href))

如上，一共23行代码。

爬取结果如下：

image.png

本来我想存为CSV文件的，结果发现有的歌曲有多个歌手，而且几个歌手之间是用逗号(，)分开的，这就和CSV中的逗号产生了混淆，导致结果比较错乱。

好吧，我暂时不知道存为CSV格式时，怎样消除其本身携带的逗号产生的影响。

当然，同样的爬取思路，我们还可以爬取豆瓣电影top250、豆瓣图书top250。只需要将url和xpath路径修改一下就可以了。

每天学习一点点，每天进步一点点。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,324评论 6赞 498
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,356评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,328评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,147评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,160评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,115评论 1赞 296
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,025评论 3赞 417
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,867评论 0赞 274
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,307评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,528评论 2赞 332
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,688评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,409评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,001评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,657评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,811评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,685评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,573评论 2赞 353

用23行代码爬取豆瓣音乐top250

推荐阅读更多精彩内容