筛选数据
读取文件
import pandas as pd
pd.read_csv( "Lung.txt" ,header=None)
字符匹配
data[0].str.contains(a_r) #选择第0列的数据,看每行数据是否包含字符串a_r。返回布尔值
data1=data[data[0].str.contains(a_r)] #筛选出布尔值为TRUE的数据块给data1,data数据块不变
写入文件
bol.to_csv('data_new_1.csv',mode='a',header=0) #将数据bol写成csv文件,文件自动创建,mode参数默认为w,每次写入会覆盖整个文 #件,设置为a,在文件后追加数据
去重复数据
DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)
#subset :用来指定特定的列,默认所有列 如subset=[0,1,2]
#keep : {‘first’, ‘last’, False}, default ‘first’ 删除重复项并保留第一次出现的项
#inplace :default False 是直接在原来数据上修改还是保留一个副本
例子
import pandas as pd
import numpy as np
#读取两个文件
data1 = pd.read_csv("Lung.txt",header=None)
data = pd.read_csv("data_new.csv",header=None)
#将data1的第零列转化为列表a
a=list(data1[0])
print(a)
#循环读取每一列到数据中去查找
for a_r in a:
print(a_r)
bol=data[data[0].str.contains(a_r)] #得到数据第零列包含特定类名的数据块
#写入csv文件
bol.to_csv('data_new_1.csv',mode='a',header=0)