孤单的时候,音乐是最佳的陪伴。曾何时也是小麦霸,歌曲是存满的。现在想下载一点新音乐好难啊。
自学的Python,学以致用,就用这来爬歌玩。直接放代码,不多说了。
拾前人牙慧,但自己也查阅了很多资料,收获颇多。
先放爬歌曲的吧,MV后续再放。Python菜鸟起航喽
#Python 3.8.2
#运行环境WIN 10 64位
import requests #用于获取网页内容的模块
from bs4 import BeautifulSoup #用于解析网页源代码的模块
import json
header = { #伪造浏览器头部,不然获取不到网易云音乐的页面源代码
'User-Agent':'Mozilla/5.0(Windows NT 6.3;WOW64) AppleWebKit/537.36(KHTML, like Gecko) Chrome/46.0.0.2490.80 Safari/537.36',
'Referer':'http://93.174.95.127',
}
link = "http://music.163.com/discover/toplist?id=19723756" #这是网易云音乐热歌榜的链接(其实是嵌套在网页里面含有歌曲数据的页面框架的真实链接
#link = "http://music.163.com/artist?id=3682" #歌手列表 ,歌手列表只会爬取第一页的歌曲,后期待改进
r = requests.get(link, headers = header) #通过requests模块的get方法获取网页数据
html = r.content #获取网页内容
soup = BeautifulSoup(html, "html.parser") #通过BeautifulSoup模块解析网页,具体请参考官方文档
songs = soup.find("ul", class_ = "f-hide").select("a", limit = 10) #通过分析网页源代码发现排行榜中的歌曲信息全部放在类名称为f-hide的ul中,于是根据特殊的类名称查找相应ul,然后找到里面的全部a标签,限制数量为10,即排行榜的前10首歌
i = 1 #设置一个自增参数,表示歌曲的数目
for s in songs: #遍历输出数组songs中的内容
maxnum = 5
for tries in range(maxnum):
try:
song_id = s['href'][9:] #只截取歌曲链接中的ID部分,因为网页中链接的形式为"/song?id=496870798",从=号之后的就是歌曲的ID号
song_name = s.text #获取a标签的文本内容,即上歌曲的名称
song_down_link = "http://music.163.com/song/media/outer/url?id=" + song_id + ".mp3" #根据歌曲的ID号拼接出下载的链接,歌曲直链获取的方法参考文前的注释部分
print("第 " + str(i) + " 首歌曲:" + song_down_link)
print("正在下载......")
response = requests.get(song_down_link, headers = header).content #亲测必须要加 headers 信息,不然获取不了
f = open("e:\music\\" + song_name + ".mp3", 'wb') #"d:\music\",报错:SyntaxError:EOL while scannig string literal. 如去掉最后的\,则文件名变成MUSICXXX.MP3;加双\后,达成目标。以二进制的形式写入文件中
f.write(response)
f.close()
url = 'http://music.163.com/api/song/lyric?' + 'id=' + str(song_id) + '&lv=1&kv=1&tv=-1'
htm = requests.post(url,headers=header)
htm2 = htm.text
json_obj = json.loads(htm2)
lyric2 = json_obj['lrc']['lyric']
f_ric = open("e:\music\\" + song_name + ".lrc", 'w', encoding = 'utf-8')
f_ric.write(lyric2)
f_ric.close()
print(song_name + ".mp3")
print("下载完成\n\r")
i = i + 1
break
except:
if tries < (maxnum -1):
continue
else:
print("Has tried %d times to acces url %s, all failed!\n\n" %(maxnum,song_down_link + "\n"))
break
#云音乐说唱榜 ID=19723756
#云音乐古典音乐榜 ID=71384707
#云音乐电音榜 ID=1978921795
#云音乐热歌榜 ID=3778678
#抖音排行榜 ID=2250011882
#KTV 唛唠 ID=21845217