研究了两天pandas文档,大致搞明白了:to_csv(), read_csv();to_json(),read_json()的用法和区别。上节课中疑惑的很多问题都迎刃而解。对于pandas最主要的就是索引的应用,尤其是涉及日期的DataFrame,需要将索引转换为日期。其中主要包括两个步骤:
1、从yahoo读取的数据,第一列为日期,存储为json格式时,默认将第一列作为索引。如果不传递任何参数,使用默认参数,pandas是按照列名称为关键字,以索引为次级关键字存储数据为一个字典,并且会将日期按照时间戳的形式存储为整数,时间默认的最小单元是毫秒级。如下图所示:
如果想存储为2017-1-2这种形式可使用to_json(date_format='iso')这种方式,同样默认最小时间单元为毫秒,如果想变换最小单元,可使用date_unit='us'(微妙)来改变。如果想存储数据结构为别的形式,请见文档。
而存储为csv格式时,默认是按照ISO8601存储,类似2017-1-4;
2、读取数据时:json格式需要对日期进行转换,如果不指定任何有关时期的参数,会原封不动按照索引来重构数据,索引为日期时,自动按照存储时的日期格式反向解析日期,只要指定任何有关日期的参数,均会自动转换日期,文档中有关的参数有convert_dates,keep_default_dates,均为布尔值,默认为True(一般不动);date_unit,也就是最小日期单元。我们利用最小日期单元,指定其跟写入时的相同,就可以自行转换。需要注意的是如果指定不同单元将不会正确解析,仍然是整数索引。
而csv格式读取时,按照指定解析方式解析,默认会解析为以纳秒为最小单元。
3、只要使用日期的可视化,最好都用日期为索引,只要将其正确解析,不管是csv方式还是json方式最后形成的数据列都是Series,每列数据相当于一个列表,可以用列表的方式轻松读取列中的任何数据。并且成图时,直接用pandas自带的df.plot()方式就可以轻松实现。需要注意的是,利用json读取数据,列的顺序会改变,但跟索引对应的数据并不会改变。行不会变,列会变。
结果如下:
代码如下:
# !/usr/bin/env python
# -*- encoding: utf-8 -*-
import os
import pandas as pd
import matplotlib.pyplot as plt
from pandas_datareader import data
if os.path.exists('./google.csv'):
d_g = pd.read_json('./google.csv')
else:
d_g = data.get_data_yahoo('GOOG', '2017-1-1', '2018-1-1')
try:
with open('./google.csv', 'w') as f:
f.write(d_g.to_json())
except IOError:
print('Please check your code, dedicate space.')
else:
d_g.head()
def s_change(d_close):
"""
Analyse the increment ratio of the stock
:param d_close:
:return:
"""
o_close = d_close.Close[0]
l_close = d_close.Close[-1]
rao = '%.2f%%' % (round(((l_close - o_close) / o_close), ndigits=4) * 100)
return rao
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
plt.rcParams['axes.unicode_minus'] = False
fig = plt.figure(dpi=128, figsize=(12, 6))
d_g['Close'].plot(label='Google' + '^' + str(s_change(d_g)))
plt.title('2017年Google股票涨势', fontsize=20)
plt.xlabel('日 期', fontsize=16)
plt.ylabel('股票价格', fontsize=16)
plt.tick_params(axis='both', labelsize=12, which='major')
plt.legend(loc='best')
plt.grid(True)
plt.show()