基本实现步骤
1.分析网页
2.构造伪装浏览器
3.向接口发送请求,从获取json数据中获取音乐id(rid)/歌曲名字/歌手
4.根据音乐id拼接音乐地址,发送请求返回json并获取音乐播放地址
5.对音乐播放地址再次发送请求获取二进制内容数据
6.保存数据,即完成下载
以下为具体步骤分析
分析网页
打开酷我音乐官网,随便搜索一位歌手(以周杰伦为例子),并随机播放一首免费的歌,打开开发者工具,点击Network,并选择Fetch/XHR,可以看到会出现前面如下所示:
而点击media则会出现播放歌曲的url,如下图所示:
按键盘上的ctrl+F将上图中歌曲播放的url进行查找,会发现其url在第一张图中的playUrl开头的url中,如下所示:
现在先将上述playUrl开头的url在网页上查找(将type=music后的一串字符去掉不影响),可以得到如下结果,:
返回的是json格式数据,其中就包括了歌曲播放的url,分析其url,主要还是要找到mid值,对应的值其实就是歌曲的编号rid值,其值可通过如下url中进行获取:
而对于这个url可以进行简化只保留如下所示即可:
http://www.kuwo.cn/api/www/search/searchMusicBykeyWord?key=%E5%91%A8%E6%9D%B0%E4%BC%A6&pn=1&rn=30
key代表搜索的歌手/关键字(也可直接输入中文不影响),pn代表获取第几页的歌曲,其余的保留默认。遇到的一个小问题就是若将上述mid的值等于一首VIP歌曲的编号,会出现如下结果:
因此为了解决这个问题,只需要把url中的type对于的值改为convert_url即可,如下所示:
网页分析总结:
1.从下面url中获取歌曲编号rid
http://www.kuwo.cn/api/www/search/searchMusicBykeyWord?key=%E5%91%A8%E6%9D%B0%E4%BC%A6&pn=1&rn=30
2.替换下面url的mid值,其对于rid,并将type值改为convert_url
https://www.kuwo.cn/api/v1/www/music/playUrl?mid=228908&type=convert_url
代码实现
import requests
import os
import re
#1.伪装浏览器构造
header={'User-Agent':'Chrome/98.0.4750.0 Safari/537.36',
'Host': 'www.kuwo.cn',
'Referer': 'http://www.kuwo.cn/search/list?key=%E5%91%A8%E6%9D%B0%E4%BC%A6',
'Cookie':'_ga=GA1.2.875943871.1641819175; _gid=GA1.2.1324320270.1642511664; _gat=1; Hm_lvt_cdb524f42f0ce19b169a8071123a4797=1642513362,1642513390,1642513491,1642515791; Hm_lpvt_cdb524f42f0ce19b169a8071123a4797=1642515791; kw_token=XB4MO9HTYQF',
'csrf': 'XB4MO9HTYQF'
}
#保存地址
pathd=os.getcwd()+'\\mysong'
#判断mydata文件夹是否存在
if os.path.exists(pathd):
pass
else:
#创建mydata文件夹
os.mkdir(pathd)
def main(key,page):
'''
key:搜索歌手名字
page:爬取的第几页
'''
#2.向接口发送请求,从获取json数据中获取音乐id(rid)/歌曲名字/歌手
url='http://www.kuwo.cn/api/www/search/searchMusicBykeyWord?key={}&pn={}&rn=30'.format(str(key),str(page))
music_data=requests.get(url,headers=header).json()
for id in music_data['data']['list']:
rid=id['rid']
singer=id['artist']
song_name=id['name']
#3.根据音乐id拼接音乐地址,发送请求返回json并获取音乐播放地址
base_url='https://www.kuwo.cn/api/v1/www/music/playUrl?mid={}&type=convert_url'.format(str(rid))
response=requests.get(base_url,headers=header).json()
song_url=response['data']['url']
#4.对音乐播放地址再次发送请求获取二进制内容数据
song_content=requests.get(song_url).content
#将歌名或者作者名当中的奇怪符号去掉,防止保存
singer1=re.sub('[\\/:?*<>"|]','',singer)
song_name1=re.sub('[\\/:?*<>"|]','',song_name)
#5.保存数据,即完成下载
with open('./mysong/'+song_name1+'-'+singer1+'.mp3','wb+') as f:
f.write(song_content)
if __name__=='__main__':
main('周杰伦',1)
结果截图
本例只作为学习交流,不得进行商用---------同步到本人的csdn账号