爬虫_4、中国天气网

image.png

今天看一看未来七天北京的天气情况,当然你可以看一下你自己所在的城市的天气那。

URL:http://www.weather.com.cn/weather/101010100.shtml
我们要看的是:

日期 date
天气 weather
温度 temperature
风向 wind direction
风力等级 Wind power rating

Code:

from urllib.request import urlopen
from bs4 import BeautifulSoup


url = "http://www.weather.com.cn/weather/101010100.shtml"
response = urlopen(url)

# html_content = response.read().decode("utf-8")
bs = BeautifulSoup(response, "html.parser")

dates7 = bs.select(".sky > h1")
weas7 = bs.select(".sky .wea")
tems7 = bs.select(".sky .tem")
wins7 = bs.select(".sky .win > em")
level7 = bs.select(".sky .win > i")


# 处理:
for index in range(len(dates7)):
    date = dates7[index].text
    wea = weas7[index].text
    tem = tems7[index].text.replace("\n", "")
    span_one_or_two = wins7[index].select("span")
    wins = "-".join([span.get("title") for span in span_one_or_two])
    level = level7[index].text
    print("\t\t".join([date, wea, tem, wins, level]))
image.png

但仍然还是很简单的入门,主要是你在网页源码解析数据时候的部分繁琐一点,我给大家看看这几个信息都是怎么定位的。

谷歌浏览器打开网站 ----> F12 查看网站源码 ----> 找到你想抓取的信息,右键“检查” ----> ctrl+f 查找 ----> bs4来定位。
就拿date信息举例,其他信息一样操作:

1、打开网站:
image.png

2、F12 查看网站源码
image.png

3、找到你想抓取的信息,右键“检查”
image.png

4、ctrl+f 查找
image.png

5、bs4来定位
image.png
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容