C13-3 通过json操作文件实现Google的股价趋势

研究了两天pandas文档,大致搞明白了:to_csv(), read_csv();to_json(),read_json()的用法和区别。上节课中疑惑的很多问题都迎刃而解。对于pandas最主要的就是索引的应用,尤其是涉及日期的DataFrame,需要将索引转换为日期。其中主要包括两个步骤:
1、从yahoo读取的数据,第一列为日期,存储为json格式时,默认将第一列作为索引。如果不传递任何参数,使用默认参数,pandas是按照列名称为关键字,以索引为次级关键字存储数据为一个字典,并且会将日期按照时间戳的形式存储为整数,时间默认的最小单元是毫秒级。如下图所示:


ms级的时间戳.png

如果想存储为2017-1-2这种形式可使用to_json(date_format='iso')这种方式,同样默认最小时间单元为毫秒,如果想变换最小单元,可使用date_unit='us'(微妙)来改变。如果想存储数据结构为别的形式,请见文档。
而存储为csv格式时,默认是按照ISO8601存储,类似2017-1-4;


csv格式存为真正的csv文件.png

2、读取数据时:json格式需要对日期进行转换,如果不指定任何有关时期的参数,会原封不动按照索引来重构数据,索引为日期时,自动按照存储时的日期格式反向解析日期,只要指定任何有关日期的参数,均会自动转换日期,文档中有关的参数有convert_dates,keep_default_dates,均为布尔值,默认为True(一般不动);date_unit,也就是最小日期单元。我们利用最小日期单元,指定其跟写入时的相同,就可以自行转换。需要注意的是如果指定不同单元将不会正确解析,仍然是整数索引。
而csv格式读取时,按照指定解析方式解析,默认会解析为以纳秒为最小单元。
日期为索引读取文件.png

3、只要使用日期的可视化,最好都用日期为索引,只要将其正确解析,不管是csv方式还是json方式最后形成的数据列都是Series,每列数据相当于一个列表,可以用列表的方式轻松读取列中的任何数据。并且成图时,直接用pandas自带的df.plot()方式就可以轻松实现。需要注意的是,利用json读取数据,列的顺序会改变,但跟索引对应的数据并不会改变。行不会变,列会变。
结果如下:


Google

代码如下:
  # !/usr/bin/env python      
  # -*- encoding: utf-8 -*-      

  import os      
  import pandas as pd      
  import matplotlib.pyplot as plt      
  from pandas_datareader import data      

  if os.path.exists('./google.csv'):      
      d_g = pd.read_json('./google.csv')      

  else:      
      d_g = data.get_data_yahoo('GOOG', '2017-1-1', '2018-1-1')      
      try:      
          with open('./google.csv', 'w') as f:      
              f.write(d_g.to_json())      
      except IOError:      
          print('Please check your code, dedicate space.')      
      else:      
          d_g.head()      


  def s_change(d_close):      
      """      
      Analyse the increment ratio of the stock      
      :param d_close:      
      :return:      
      """      
      o_close = d_close.Close[0]      
      l_close = d_close.Close[-1]      

      rao = '%.2f%%' % (round(((l_close - o_close) / o_close), ndigits=4) * 100)      
      return rao      

  plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']      
  plt.rcParams['axes.unicode_minus'] = False      

  fig = plt.figure(dpi=128, figsize=(12, 6))      
  d_g['Close'].plot(label='Google' + '^' + str(s_change(d_g)))      
  plt.title('2017年Google股票涨势', fontsize=20)      
  plt.xlabel('日  期', fontsize=16)      
  plt.ylabel('股票价格', fontsize=16)      
  plt.tick_params(axis='both', labelsize=12, which='major')      
  plt.legend(loc='best')      
  plt.grid(True)      

  plt.show()      
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容