背景
毕设主题是肌电信号处理,数据是传感器采集的且具有非平稳随机特点。作为一个python菜鸟,边学边做一些记录,希望看到的大佬们能给我提一些更好的思路、方法及技巧,鄙人不胜感激。
计划写两篇:第一部分是预处理,第二部分是时间序列处理
环境及工具
Anaconda 3.6 jupyter
数据来源
鄙人认为,数据的来源不同,预处理的方式一般不大相同。本方案目前采用的是传感器连接arduino,arduino通过串口向数据处理端(本机)发送数据,之后本机通过串口调试助手保存数据为txt文件(在后期准备完成实时监控系统的时候会再考虑数据的传输存储方式,比如使用wifi,以什么方式存入数据库,制定一些数据接收存储的规则)。
读取文件
方式1:直接使用numpy的loadtxt方法 data_s=np.loadtxt(dir_name+file_name)
方式2:使用readlines()将txt读成一个字符串list,对字符串list进行后续操作
方式1在txt比较理想的时候直接用这个非常方便,直接就得到数值array,但在处理某txt的时候出现错误:ValueError: could not convert string to float: b'18?180' txt中有一行是18?180,这时loadtxt会报错。另外,串口传输有时会因为缓存溢出(我猜的,应该和c语言打印烫是一个道理)出现奇怪的文字,打开文件有时会出现如UnicodeDecodeError: 'gbk' codec can't decode byte 0xb6 in position 210: illegal multibyte sequence这样的解码错误,网上搜了可以open加“rb”参数打开,我用的是open加上errors='ignore',这样读到的列表里就没有奇怪的东西了
f=open(dir_name+filename,"r",errors='ignore')
datas=f.readlines()
f.close()
读出来的样子大概是如下这个样子的
下一步就是去掉‘\n’,将正常的数值字符串转换成int类型,去掉类似于'18?180'的问题数据
预处理
除了上述提到的格式不合法的数据,串口传输还有一个问题就是有时\n会漏掉,两个数值就出现在了一行,形成一个六位数或者五位数,无法判断,这时出现的大于1023的数据是不合法的,需要去掉(因为arduino模拟输入接收的数值范围是0-1023)。
方案:用strip()去掉末尾的'\n',isdigit()判断是否是数值字符串,转换成数值型,判断是否小于1023,满足条件的数据append进列表。
def predeal4(datas):
ddata=[]
for line in datas:
d_line=line.strip() #去掉末尾\n
# print(d_line)
if d_line.isdigit():
t=int(d_line)
if t<=1023:
ddata.append(int(d_line))
return ddata
ps:中间还遇到一个问题,jupyter的“IOPub data rate exceeded....”问题
解决:去C盘user目录下.jupyter里的jupyter_notebook_config.py文件,打开搜iopub_data_rate_limit,把注释去掉,在后面多加很多个0,保存重启jupyter就可以了。
画图
其实就数据处理,得到需要的数据list就够了,但是为了增加成就感,画个图看看数据到底是个什么蛇皮样。()
def draw(datas):
x=np.linspace(0,(len(datas)-1),len(datas))
plt.figure(figsize=(12, 6))
plt.plot(x,datas)
plt.show()
感受下个别蛇皮数据
这个格式实在是有点迷,第一次用简书的富文本编辑,下次开始用markdown。可能写的过于细节了有点,实践中调整。