https://www.usa.gov/developer 这个网站里面有很多数据集
第二章 引言
要下载一个英文版的PDF,这样好复制代码.
P20提到IPython,书中有建议代码都IPython中过一遍,而Pycharm下面的python console就是IPython;
P21提到了bit.ly的1.usa.gov的数据,书中的URL地址已经失效,根据github上的描述,这个项目已经停了:https://github.com/usagov/1.USA.gov-Data.现在可以从两个地方获取到该数据,一个是作者的项目地址: https://github.com/wesm/pydata-book/tree/2nd-edition/datasets/bitly_usagov ,还有一个是http://1usagov.measuredvoice.com/ 这个网站保存的2011/12/13的数据.
pycharm中的IPython不支持中文路径,可能需要设置一下,但是这不影响写代码,把数据文件放到d盘根目录下就可以了.
path = 'D:\usagov_bitly_data2013-05-17-1368832207'; records = [json.loads(line) for line in open(path)] 后面一行代码还需要多看一下.
time_zones = [rec['tz'] for rec in records if 'tz' in rec] 这行代码也需要多看一下.
print(records[0]) {u'a': u'Mozilla/5.0} 单引号前面的u表示的unicode编码.
即是通过各种方法将数据展示出来