关键词
Pandas Sqlite3
GitHub
思路
当前只计算某只股票最多一年的指标,常见的5天,10天,20天和一年的指标。
从数据库中拿到某只股票一年的K线数据,振幅指标只需要自己的数据,贝塔系数需要对比大盘的数据,上海交易所的股票就用上证指数计算,深圳交易所的股票就用深成指来计算。
读数据库
从数据库中读取某只股票的K线数据,上一篇有说到 pandas.to_sql() 方法存数据不太好用,但是pandas.read_sql()方法可以比较方便的读取数据,而且返回数据结构就是DataFrame,便于我们计算。
- 读取上证指数
from sqlalchemy import create_engine
import pandas as pd
import datetime
db = create_engine('sqlite:///mystock.db')
sql_cmd = "SELECT * FROM stock_day_k where code='sh.000001' order by date desc limit 0,251"
datash = pd.read_sql(sql=sql_cmd, con=db)
这里我们用251天的原因是一年的交易天数大概是251天。用date倒序取251行就大概是一年的K线数据。
- 读取股票K线
读取单只股票K线数据和读取上证指数是一样的,只是有些股票可能会存在停盘的情况,所以判断如果十个交易日都是非交易状态,这个股票就先不计算了。
想拿到交易状态,数据中有一列列名是 'tradestatus',用dataframe['columnname']就可以拿到一整列数据。
sql_cmd = "SELECT * FROM stock_day_k where code='" + ticker+"' order by date desc limit 0,251"
daily = pd.read_sql(sql=sql_cmd, con=db)
if tradestatus == 0:
count = 0
canSkip = False
for tradestatus2 in daily['tradestatus']:
if tradestatus2 == 1:
break
count += 1
if count ==10:
canSkip = True
break
if canSkip:
continue
- 数据处理
从数据库中拿到的数据,是根据日期倒序排列的,这里需要升序排序,并把索引重置。
daily = daily.sort_values(by='date', ascending=True)
daily = daily.reset_index(drop = True)
给数据加一列,计算所有日期和第一天的相对价格,close就是某日的收盘价格。
daily['relaprice'] = daily['close']/daily['close'][0]
- 计算贝塔系数
找了一些计算贝塔系数的方法,Scipy里scipy.stats.linregress函数可以直接计算。 取一段时间内大盘的相对数据和某只股票的相对数据来计算,考虑到有些股票可能没有比较新,时间不够一年或者一个月,如果想计算的日期数比股票的数据还多的话,最后取时间区间为股票的时间。
用 array[-N:] 来获取数组的最后N个数据。
#relaticker = daily['relaprice']
#relash = datash['relaprice']
from scipy import stats
def cal_alpha_beta(relash, relaticker, dayNumber=0):
if dayNumber > relaticker.shape[0]:
return np.nan,np.nan,np.nan
if dayNumber == 0:
dayNumber = relaticker.shape[0]
beta,alpha,r_value,p_value,std_err=stats.linregress(relash[-dayNumber:], relaticker[-dayNumber:])
return alpha,beta,r_value**2
- 计算相关系数
相关系数是另一个股票与大盘的对比指标。Pandas有提供现成的方法pandas.DataFrame.pct_change,需要将股票数据和大盘数据组合在一起
# 用sh.000001和sh.000002为例,将第二个数据的close列连接到sh.000001数据
price = DataFrame({'date': datash['date'], 'sh.000001':datash['close']})
pp = DataFrame({'sh.000002':daily['close']})
#拼接
price2 = pd.concat([price, pp], axis=1)
#按照date升序排列
price2 = price2.sort_values(by='date', ascending=True)
#把date列去掉,因为计算的时候不需要这一列了
price2 = price2.drop(['date'], axis=1)
#去除索引
price2 = price2.reset_index(drop = True)
corr, cov = cal_correlation(price2, pp.shape[0])
def cal_correlation(price, length, dayNumber=0):
if dayNumber >length:
return np.nan,np.nan
if dayNumber == 0:
dayNumber = length
#获取后N个数据
pricelastN = price.tail(dayNumber)
returns = pricelastN.pct_change()
corr=returns.corr()
cov=returns.cov()
return corr.iloc[1][0],cov.iloc[1][0]
- 计算振幅
振幅这个比较简单,计算起来也比较简单
#dayK 就是股票的K线数据
def cal_amplitude(dayK,dayNumber=0):
if dayNumber > dayK.shape[0]:
return np.nan
if dayNumber == 0:
dayNumber = dayK.shape[0]
dailylastN = dayK.tail(dayNumber)
maxhigh = dailylastN['high'].max()
minlow = dailylastN['low'].min()
amplitude = (maxhigh - minlow)/dailylastN['preclose'].iloc[0]
return amplitude
- 其他指标
后续再想想。。。