爬虫入门2(爬取酷狗TOP500的数据)

万恶的酷狗浏览器网页版居然只能看第一页,要下载播放器才能浏览后面的内容。
此段代码爬取所有的歌曲及链接

image.png

第一页就是这样的,观察发现https://www.kugou.com/yy/rank/home/1-8888.html?from=rank
把1改成2
https://www.kugou.com/yy/rank/home/2-8888.html?from=rank
就是第二页了,爬取多页,如下
'''
import lxml
import requests
from bs4 import BeautifulSoup

headers={
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.75 Safari/537.36"
}

def get_informations(url):
web_data=requests.get(url,headers)
soup=BeautifulSoup(web_data.text,"lxml")
informations=soup.find_all("a","pc_temp_songname")
for information in informations:
data={
'歌曲':information.get('title'),
'网址':information.get("href")
}
print(data)
urls=["https://www.kugou.com/yy/rank/home/{}-8888.html?from=rank".format(str(i)) for i in range(1,24)]
for url in urls:
get_informations(url)
'''

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 爬虫三大库 request、BeautifulSoup、lxml库 推荐使用lxml作为解释器,其效率高 使用请求...
    李玉奇_1aeb阅读 479评论 0 0
  • 目标需求爬取百度百科一百个词条,保存其相关的链接、标题、摘要信息 爬虫架构想象一下爬虫运行的过程,从计算机启动,从...
    zhile_doing阅读 324评论 1 0
  • 金指尖的花园阅读 330评论 0 2
  • --226天 在任何时候,语言必须要建立在尊重他人的基础上: 1,自己说的话要让对方容易理解; 2,在正常情况下...
    Alina_qi阅读 95评论 0 1
  • 项目分层思想介绍: 持久层:JDBC,Mybatis,Hibernate,SpringData表现层:Spring...
    神豪VS勇士赢阅读 263评论 0 0