之前研究过使用 matplotlib.finance 中的 candlestick_ohlc() 方法绘制k线图,但是有个很无语的问题,绘制出来的k线不是连续的——周末两天没有被去掉,因此总是留下一个空档。更不要说遇上春节这样的节假日,k线将留下很大一段无用的空白。非常影响观察k线走势。
google查询了一阵,零零散散看到一些解决思路,某些代码可用;另外一些不知是因为当时使用的开源包和现在有所差异还是什么的,总之把大段代码复制过来测试,得到的只是一堆报错信息。不过,总归解决思路还是明确了。
解决思路
由于candlestick_ohlc() 方法内部是将一个连续的日期作为x轴的刻度送到matplotlib的绘图引擎中的,如果不是采用修改 candlestick_ohlc() 的源码,那么比较合理方法就是不要将日期数据送到 candlestick_ohlc() 方法中,并且重新自定义 x 轴的刻度。
股票数据重构
matplotlib 官方给出的candlestick_ohlc() 的推荐使用方式是这样:
mpf.candlestick_ochl(ax,data_mat,colordown='#53c156', colorup='#ff1717',width=0.3,alpha=1)
其中 ax 是绘制图形的 axis 对象,data_mat 是所有的股票数据。股票数据是一个二维矩阵,每一行都是按照 date,open,close,high,low,volume 的顺序排列的。这里 date 的值并不是 string,也不是 datetime,而是 pandas.TimeStamp。其实TimeStamp就是一个整型数字,类似于unix 系统中的 timestamp。
所以在构建股票数据时,date 这个位置我们可以将它赋值为从0开始的连续自然数,这样 candlestick_ochl() 方法绘图时,就不会把 date 转化为一个连续的日期(还包含周末那种)。所以,重构后的股票数据大致应该是这样:
[
(0, 16.14, 16.24, 16.36, 16.14, 481999.28),
(1, 16.24, 16.32, 16.38, 16.2, 424100.84),
(2, 16.32, 16.33, 16.39, 16.32, 276957.25),
(3, 16.3, 16.17, 16.38, 16.16, 277753.09)
]
每一行都是一个元组,元组里分别是 date, open, close, high, close 数据。
这样一来,绘制的图形就变成了:
可以看到,k线图形变得连贯了。但是x轴的刻度却变成了自然数,而非日期。所以,x 轴的刻度需要单独处理一下。
x轴刻度设定
假定所有的日期字符串都在 data['date'] 中,简单把所有日期数据甩给matplotlib,x轴的刻度就会密密麻麻的挤在一起。
ax.set_xticks(range(len(date_tickers)))
ax.set_xticklabels(date_tickers)
那么如何让 matplotlib 在绘图时只保留主要刻度呢?
如果只是这样:
ax.set_xticklabels(date_tickers)
乍一看,问题解决了!但是仔细一看,刻度不对!最后一个日期居然还是 2017-1-12 日,而k线已经是60天的数据了。
正确的姿势应该是用:
import matplotlib.ticker as ticker
# 先设定一个日期转换方法
def format_date(x,pos=None):
# 由于前面股票数据在 date 这个位置传入的都是int
# 因此 x=0,1,2,...
# date_tickers 是所有日期的字符串形式列表
if x<0 or x>len(date_tickers)-1:
return ''
return date_tickers[int(x)]
# 用 set_major_formatter() 方法来修改主刻度的文字格式化方式
ax.xaxis.set_major_formatter(ticker.FuncFormatter(format_date))
这样一来,就变成我想要的效果了:
但是,还有一点不满意,matplotlib自动生成的主刻度的间距,我认为太宽了。那么,我还可以用:
ax.xaxis.set_major_locator(ticker.MultipleLocator(6))
来强制指定每隔6个刻度,设定一个主刻度。图形效果就变成了这样:
完整的代码
import matplotlib.pyplot as plt
import matplotlib.finance as mpf
import numpy as np
import pandas as pd
from matplotlib.pylab import date2num
import matplotlib.ticker as ticker
import time
data=pd.read_csv(u'assets/兴业银行.csv',usecols=['date','open','close','high','low','volume'])
data[data['volume']==0]=np.nan
data=data.dropna()
data.sort_values(by='date',ascending=True,inplace=True)
# 原始的csv 读入进来 DataFrame 的 columns 顺序不符合candlestick_ochl 要求的顺序
# columns 的顺序一定是 date, open, close, high, low, volume
# 这样才符合 candlestick_ochl 绘图要求的数据结构
# 下面这个是改变列顺序最优雅的方法
data=data[['date','open','close','high','low','volume']]
data=data.head(62)
# 生成横轴的刻度名字
date_tickers=data.date.values
weekday_quotes=[tuple([i]+list(quote[1:])) for i,quote in enumerate(data.values)]
# print weekday_quotes
fig,ax=plt.subplots(figsize=(1200/72,480/72))
def format_date(x,pos=None):
if x<0 or x>len(date_tickers)-1:
return ''
return date_tickers[int(x)]
ax.xaxis.set_major_locator(ticker.MultipleLocator(6))
ax.xaxis.set_major_formatter(ticker.FuncFormatter(format_date))
ax.grid(True)
# fig.autofmt_xdate()
mpf.candlestick_ochl(ax,weekday_quotes,colordown='#53c156', colorup='#ff1717',width=0.2)
plt.show()