主要用到的函数
np.loadtxt 读取txt
array = np.loadtxt(filename,dtype=str,delimiter='\t',skiprows=11)
dtype 读取数据格式,skiprows 跳过行数,delimiter分隔符
glob.glob读取文件夹下所有文件
代码
#文件夹txt读取
import glob # 引用glob
import numpy as np # 引用numpy
from openpyxl import load_workbook # 引用openpyxl的load_workbook
#glob.glob 返回所有匹配的文件路径列表,只包含参数pathname,定义了文件路径匹配规则
#三个匹配符:‘**’匹配0个或多个字符,'?'匹配单个字符,'[]'匹配指定范围内字符
pathname='D:\MYData\\0518data\data2\Ex2_**_[1-2].txt'
flist = glob.glob(pathname,recursive=False) # 读取当前文件夹所有txt,并存入列表
wb = load_workbook('D:\MYData\data2.xlsx') # 打开要保存数据的excel
sheet = wb['Sheet1'] # 打开要保存数据的sheet
# i = 1 # 序数,用来将从txt提取的数据存储到excel的不同列
print(flist);
a=1
for filename in flist: # 利用for循环逐个读取txt文件
print(filename);
array = np.loadtxt(filename,dtype=str,delimiter='\t',skiprows=11) # 将当前读取的txt文件数据存储矩阵
############################
#读取被试的条件信息
with open(filename, "r") as f:
b=1
for line in f.readlines():
line = line.strip('\n') # 去掉列表中每一个元素的换行符
if b==6:
sub=line[4]
if b==7:
gender=line[7]
if b==8:
group=line[6]
if b==9:
Mat=line[14]
b=b+1
number_row = array.shape[0] # 获取数据矩阵行数
number_col = array.shape[1]
for j in range(number_row):
for i in range(number_col):#需要存储不同类型的数据
if i in [0,1,5,6,7,8]:
sheet.cell(j+1+(a-1)*120, i+1).value = int(array[j][i]) # 将需要用的第五列数据存储在excel中
if i in [2,3,4]:
sheet.cell(j+1+(a-1)*120, i+1).value = str(array[j][i])
if i in [9]:
sheet.cell(j+1+(a-1)*120, i+1).value = float(array[j][i])
sheet.cell(j+1+(a-1)*120, 11).value = sub#被试号
sheet.cell(j+1+(a-1) * 120, 12).value = gender
sheet.cell(j+1+(a-1) * 120, 13).value = group
sheet.cell(j+1+(a-1) * 120, 14).value = Mat
a=a+1
wb.save('D:\MYData\data2.xlsx') # 保存excel文件并退出
问题
上面代码存在sub可能超过10位数的情况,调整一下sub 的读取方式
if b==6:
if line[5] is None:
sub = line[4]
else:
sub=line[4]+line[5]
参考
(16条消息) 使用python批量提取txt中的数据并写入excel_python_plotly的博客-CSDN博客_python读取txt写入excel
(16条消息) numpy.loadtxt() 详细用法_枫城雪的博客-CSDN博客_np.loadtxt()的用法
glob.glob()函数 - 百度文库 (baidu.com)
(16条消息) Glob通配符_zhuchuji的博客-CSDN博客_glob通配符