image.png
今天看一看未来七天北京的天气情况,当然你可以看一下你自己所在的城市的天气那。
URL:http://www.weather.com.cn/weather/101010100.shtml
我们要看的是:
日期 date
天气 weather
温度 temperature
风向 wind direction
风力等级 Wind power rating
Code:
from urllib.request import urlopen
from bs4 import BeautifulSoup
url = "http://www.weather.com.cn/weather/101010100.shtml"
response = urlopen(url)
# html_content = response.read().decode("utf-8")
bs = BeautifulSoup(response, "html.parser")
dates7 = bs.select(".sky > h1")
weas7 = bs.select(".sky .wea")
tems7 = bs.select(".sky .tem")
wins7 = bs.select(".sky .win > em")
level7 = bs.select(".sky .win > i")
# 处理:
for index in range(len(dates7)):
date = dates7[index].text
wea = weas7[index].text
tem = tems7[index].text.replace("\n", "")
span_one_or_two = wins7[index].select("span")
wins = "-".join([span.get("title") for span in span_one_or_two])
level = level7[index].text
print("\t\t".join([date, wea, tem, wins, level]))
image.png
但仍然还是很简单的入门,主要是你在网页源码解析数据时候的部分繁琐一点,我给大家看看这几个信息都是怎么定位的。
谷歌浏览器打开网站 ----> F12 查看网站源码 ----> 找到你想抓取的信息,右键“检查” ----> ctrl+f 查找 ----> bs4来定位。
就拿date信息举例,其他信息一样操作:
image.png
2、F12 查看网站源码
image.png
3、找到你想抓取的信息,右键“检查”
image.png
4、ctrl+f 查找
image.png
5、bs4来定位
image.png