【Python】Pandas使用

pandas是处理excel与csv文件的利器,这次我来聚集一下自己所使用到的方法。

读取文件

  • 常用
df_= pd.DataFrame(pd.read_excel("路径"))  # csv文件使用read_csv
# read_csv的参数skip_blank_lines=True会忽略注释行和空行
# header默认情况下,对有表头的数据识别第一行作为header(即header=0)
# 对无表头的数据,则需设置header=None,否则第一行数据被作为表头,也可以指定行为表头,例如:header=4
# 同时呢,还有encodeing = "", 对文件进行转码读取(需要转码,可能是你的环境有问题)
# converters = {u'账号信息':str},利用converters 可以使得账号前缀 0不会缺失(字符串)
# 下同
  • 打开一个ecxel文件里的多张表
    df_count = pd.ExcelWriter("路径")        
    df_yue = pd.DataFrame(pd.read_excel("路径",sheet_name="sheet1"))
    df_liushui = pd.DataFrame(pd.read_excel("路径",sheet_name="sheet2"))

处理pandas对象

  • 常用
# read_html(网页文本)   读取网页html的table表格标签
pd. read_html(text)
# shape[0] 读取excel表格行数,shape[1]读取列数;
  df.shape[0]
# 获取表头列表
  columns_list = list(df)
  print(columns_list)
# 更改表头
  df.columns = ['A','B','C','D']
# excel文件的sheet名称列表
  df_sheetnames = pd.ExcelFile(excel_path)
  sheetnames = df_sheetnames.sheet_names
# iloc[0,0] 获取excel表格的指定数据
  data = df.iloc[i,j]  # 行,列
  # 同时,也是可以更改数据 df.iloc[i,j] = ''
# 查看是否有重复行
  re_row = df.duplicated()
  print(re_row)
# 查看去除重复行的数据
  no_re_row = df.drop_duplicates()
  print(no_re_row)
# 查看基于[物品]列去除重复行的数据
  wp = df.drop_duplicates(['物品'])
  print(wp)
#整行添加数据
  df.loc[a] = ['', '', '', '', '', '']   # a行数(int),或者也可以填index指定行(str)
# 读取行
  df.loc[a]  # a行数(int),或者也可以填index指定行(str)
# 读取列
  df.loc[:,'A']
# 合并
  df1.append(df2):将df2中的行添加到df1的尾部
  df.concat([df1, df2],axis=1):将df2中的列添加到df1的尾部
  df1.join(df2,on=col1,how='inner'):对df1的列和df2的列执行SQL形式的join
# 修改字段类型
  df[['two', 'three']] = df[['two', 'three']].astype(float)
# 在excel中的长数据串前面加入单引号('),可解决数据变成科学计数格式!
  • 使用
 # 合并文件,列合并
lst = [df1, df2]
result = pd.concat(lst,axis=1)   axis=1列索引,axis=0行索引
writer = pd.ExcelWriter(filename)
result.to_excel(writer,index=False)
writer.save()
  • 不常用
# 数据统计
df.describe():查看数据值列的汇总统计
df.mean():返回所有列的均值
df.corr():返回列与列之间的相关系数
df.count():返回每一列中的非空值的个数
df.max():返回每一列的最大值
df.min():返回每一列的最小值
df.median():返回每一列的中位数
df.std():返回每一列的标准差

# 数据处理
df[df[col] > 0.5]:选择col列的值大于0.5的行
df.sort_values(col1):按照列col1排序数据,默认升序排列
df.sort_values(col2, ascending=False):按照列col1降序排列数据
df.sort_values([col1,col2], ascending=[True,False]):先按列col1升序排列,后按col2降序排列数据
df.groupby(col):返回一个按列col进行分组的Groupby对象
df.groupby([col1,col2]):返回一个按多列进行分组的Groupby对象
df.groupby(col1)[col2]:返回按列col1进行分组后,列col2的均值
df.pivot_table(index=col1, values=[col2,col3], aggfunc=max):创建一个按列col1进行分组,并计算col2和col3的最大值的数据透视表
df.groupby(col1).agg(np.mean):返回按列col1分组的所有列的均值
data.apply(np.mean):对DataFrame中的每一列应用函数np.mean
data.apply(np.max,axis=1):对DataFrame中的每一行应用函数np.max

# 数据清理
df[df[col] > 0.5]:选择col列的值大于0.5的行
df.sort_values(col1):按照列col1排序数据,默认升序排列
df.sort_values(col2, ascending=False):按照列col1降序排列数据
df.sort_values([col1,col2], ascending=[True,False]):先按列col1升序排列,后按col2降序排列数据
df.groupby(col):返回一个按列col进行分组的Groupby对象
df.groupby([col1,col2]):返回一个按多列进行分组的Groupby对象
df.groupby(col1)[col2]:返回按列col1进行分组后,列col2的均值
df.pivot_table(index=col1, values=[col2,col3], aggfunc=max):创建一个按列col1进行分组,并计算col2和col3的最大值的数据透视表
df.groupby(col1).agg(np.mean):返回按列col1分组的所有列的均值
data.apply(np.mean):对DataFrame中的每一列应用函数np.mean
data.apply(np.max,axis=1):对DataFrame中的每一行应用函数np.max

写入文件

  • 常用
  df.to_excel("路径",index=None)    # csv文件使用to_csv
  • 在同一个文件写入多张表
     writer = pd.ExcelWriter("路径")
     df_yue.to_excel(writer, sheet_name='sheet1',index=None)    
     df_liushui.to_excel(writer,'sheet2',index=None)
     writer.save()


小操作

# 分割字符串
    text_data = text.split('/')
# 去除字符串空格
    str.strip()
# re提取字符串中的数字 
     text = re.sub("\D","",text_data[1])
    print(text)
# 在字符串里插入字符      
   '#prdList__ct{}_accList__ctl0_accNam'.format('11')
# 昨天日期
    yesterday = (datetime.date.today() + datetime.timedelta(days = -1)).strftime("%Y-%m-%d")

os操作
os.path.isfile()和os.path.isdir()函数分别检验给出的路径是一个文件还是目录。
os.path.exists()函数用来检验给出的路径是否真地存在
 os.path.exists(path):文件或文件夹是否存在,返回True 或 False。
os.path.basename(path):返回文件名
os.mkdir(path):创建文件夹
os.remove(path)函数用来删除一个文件。
os.listdir(path)返回指定目录下的所有文件和目录名。
os.path.getsize(name):获得文件大小,如果name是目录返回0L
os.path.abspath(name):获得绝对路径
os.path.normpath(path):规范path字符串形式
os.path.split(path) :将path分割成目录和文件名二元组返回。
os.path.splitext():分离文件名与扩展名
os.path.join(path,name):连接目录与文件名或目录;使用“\”连接
os.path.dirname(path):返回文件路径

========================================================================================

os.sep可以取代操作系统特定的路径分隔符。windows下为 “\\”

os.name字符串指示你正在使用的平台。比如对于Windows,它是'nt',而对于Linux/Unix用户,它是'posix'。

os.getcwd()函数得到当前工作目录,即当前Python脚本工作的目录路径。

os.getenv()获取一个环境变量,如果没有返回none

os.putenv(key, value)设置一个环境变量值

os.listdir(path)返回指定目录下的所有文件和目录名。

os.remove(path)函数用来删除一个文件。

os.system(command)函数用来运行shell命令。

os.linesep字符串给出当前平台使用的行终止符。例如,Windows使用'\r\n',Linux使用'\n'而Mac使用'\r'。
os.curdir:返回当前目录('.')
os.chdir(dirname):改变工作目录到dirname
========================================================================================

glob.glob同时获取所有的匹配路径
for im in glob.glob(folder + '/*.jpg'): 


迷惑青年
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,185评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,445评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,684评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,564评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,681评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,874评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,025评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,761评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,217评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,545评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,694评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,351评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,988评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,778评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,007评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,427评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,580评论 2 349