写在前面
待解决
1.请求头中设置不压缩
最近在某博客上看到一篇基于python与阿里云的短信发送脚本,觉得有意思就试着复现出来。
整体思路如下
获取气象网API数据→urllib包→json数据格式更便于操作
↓
阿里云设置→aliyun_SDK→python版本统一
↓
每日定时执行→通过Linux脚本语言完成
抓取天气
找了老半天,找到了不仅显示实时天气,还有预测功能的稳定免费的气象API接口(疯狂打call中...)。
由于该API支持json与xml两种格式,利用urllib
包可以轻松获取对应天气数据。
# -*- coding:utf-8 -*-
import urllib
import json
city = u'北碚' #待查询城市
city = urllib.parse.quote(city) #这一句很关键....坑太大
weather_url = 'http://www.sojson.com/open/api/weather/json.shtml?city=%s' %city
#抓取网页信息
req = urllib.request.urlopen(weather_url)
rs = req.read().decode() #采用utf-8解码
#获取当天数据,格式如下
#{"date":"04日星期四","sunrise":"07:50","high":"高温 7.0℃","low":"低温 5.0℃",
#"sunset":"18:08","aqi":24.0,"fx":"无持续风向","fl":"<3级","type":"小雨",
#"notice":"下雨了不要紧,撑伞挡挡就行"}
weather_info = json.loads(rs)['forecast']
短短几行代码完成的工作,中间碰到的坑不少。
1.API接口重要性
原始博客提供的API接口已经过时,对应数据已不再更新,于是就在度娘上找了另一个相对比较全面的API。但是在执行到倒数第二步时,解码失败,错误代码
'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte
百度一圈发现,在提交到服务器的request header中有Accept Encoding : gzip, deflate
这一选项,这条信息代表本地可以接收压缩格式的数据,而服务器在处理时就将大文件压缩再发回客户端。即,本地接收的不是完整的json格式,而是压缩后的gzip格式,这一点可以通过request.getheaders
查询响应头信息得到。
然而如何处理请求头,让它不接受压缩格式,一直没弄明白。
最终,通过查找另一个比较合适的API绕过了这个问题。
2.url汉字编码
该url输入的城市名通过汉字输入。然而,都知道汉字是不能作为url输入的,需要对其进行编码。
在原API文档中作者采用utf-8编码(其实是基于url的utf-8编码),于是就将汉字转码为utf-8后再附上url地址,出现访问失败。
提取对应汉字编码显示如下
汉字:北碚
utf-8:\xe5\x8c\x97\xe7\xa2\x9a
url : %e5%8c%97%e7%a2%9a
可以发现,url将utf-8中的\x
替换为%,这是因为url中不允许出现诸如\
,这样的字符。更加详细的url转码文档参考阮一峰的博客
博客简述
1.url中汉字若为路径,则为对应utf-8编码相关位置替换为%
2.url汉字若为搜索关键字,则用的是操作系统的默认编码
3.GET和POST方法的编码,用的是网页的编码
4.其余过于复杂,略过
3. python2.7 vs python3
由于python版本不向下兼容,2.7版本python语法与3以后语法有很大差别。考虑后续阿里云API采用2.6版本,因而需要对这里urllib模块进行转换为2.6格式。
由于全文采用的只有urllib
模块,因而只需小规模修改即可。
urllib在python2与python3区别
修改后代码如下
# -*- coding:utf-8 -*-
__author__ = 'lumo_wang'
import urllib
import urllib2
import json
city = '北碚'
city_encode = urllib.quote(city)
weather_url = 'http://www.sojson.com/open/api/weather/json.shtml?city=%s' %city_encode
request = urllib2.urlopen(weather_url)
rs = request.read().decode('utf-8')
weather_info = json.loads(rs)['data']['forecast'][0]
#数据提取,主要用于删除温度中的汉字
def s2t(string):
switch=False
temp=''
for s in string:
if switch==True:
temp+=s
if s==u' ':
switch=True
return temp
#信息分解
time = weather_info['date'] #日期——04日星期四
temp_l = weather_info['low'] #低温——低温 5.0℃
low=s2t(temp_l)
temp_h = weather_info['high'] #高温——高温 7.0℃
high-s2t(temp_h)
aqi = weather_info['aqi'] #aqi指数——23.0
weather= weather_info['type'] #天气——小雨
阿里云SDK配置
这一段...由于实验室主机最近没网,等弄好了整个代码跑通了再写。