扒一扒网易云音乐的歌曲及歌词

孤单的时候,音乐是最佳的陪伴。曾何时也是小麦霸,歌曲是存满的。现在想下载一点新音乐好难啊。

自学的Python,学以致用,就用这来爬歌玩。直接放代码,不多说了。

拾前人牙慧,但自己也查阅了很多资料,收获颇多。

先放爬歌曲的吧,MV后续再放。Python菜鸟起航喽

#Python 3.8.2

#运行环境WIN 10 64位

import requests #用于获取网页内容的模块

from bs4 import BeautifulSoup #用于解析网页源代码的模块

import json

header = { #伪造浏览器头部,不然获取不到网易云音乐的页面源代码

            'User-Agent':'Mozilla/5.0(Windows NT 6.3;WOW64) AppleWebKit/537.36(KHTML, like Gecko) Chrome/46.0.0.2490.80 Safari/537.36',

            'Referer':'http://93.174.95.127',

        }

link = "http://music.163.com/discover/toplist?id=19723756" #这是网易云音乐热歌榜的链接(其实是嵌套在网页里面含有歌曲数据的页面框架的真实链接

#link = "http://music.163.com/artist?id=3682" #歌手列表 ,歌手列表只会爬取第一页的歌曲,后期待改进

r = requests.get(link, headers = header) #通过requests模块的get方法获取网页数据

html = r.content #获取网页内容

soup = BeautifulSoup(html, "html.parser") #通过BeautifulSoup模块解析网页,具体请参考官方文档

songs = soup.find("ul", class_ = "f-hide").select("a", limit = 10) #通过分析网页源代码发现排行榜中的歌曲信息全部放在类名称为f-hide的ul中,于是根据特殊的类名称查找相应ul,然后找到里面的全部a标签,限制数量为10,即排行榜的前10首歌

i = 1 #设置一个自增参数,表示歌曲的数目

for s in songs: #遍历输出数组songs中的内容

    maxnum = 5

    for tries in range(maxnum):

        try:

            song_id = s['href'][9:] #只截取歌曲链接中的ID部分,因为网页中链接的形式为"/song?id=496870798",从=号之后的就是歌曲的ID号

            song_name = s.text #获取a标签的文本内容,即上歌曲的名称

            song_down_link = "http://music.163.com/song/media/outer/url?id=" + song_id + ".mp3" #根据歌曲的ID号拼接出下载的链接,歌曲直链获取的方法参考文前的注释部分

            print("第 " + str(i) + " 首歌曲:" + song_down_link)

            print("正在下载......")

            response = requests.get(song_down_link, headers = header).content #亲测必须要加 headers 信息,不然获取不了

            f = open("e:\music\\" + song_name + ".mp3", 'wb') #"d:\music\",报错:SyntaxError:EOL while scannig string literal. 如去掉最后的\,则文件名变成MUSICXXX.MP3;加双\后,达成目标。以二进制的形式写入文件中

            f.write(response)

            f.close()

            url =  'http://music.163.com/api/song/lyric?' + 'id=' + str(song_id) + '&lv=1&kv=1&tv=-1' 

            htm = requests.post(url,headers=header)

            htm2 = htm.text

            json_obj = json.loads(htm2)

            lyric2 = json_obj['lrc']['lyric']

            f_ric = open("e:\music\\" + song_name + ".lrc", 'w', encoding = 'utf-8')

            f_ric.write(lyric2)

            f_ric.close()

            print(song_name + ".mp3")

            print("下载完成\n\r")

            i = i + 1

            break

        except:

            if tries < (maxnum -1):

                continue

            else:

                print("Has tried %d times to acces url %s, all failed!\n\n" %(maxnum,song_down_link + "\n"))

                break

#云音乐说唱榜 ID=19723756

#云音乐古典音乐榜 ID=71384707

#云音乐电音榜 ID=1978921795

#云音乐热歌榜 ID=3778678

#抖音排行榜 ID=2250011882

#KTV 唛唠 ID=21845217

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容