1.引言
昨天家人给我发消息,问我有没有办法用excel根据部门的名称将一个表拆分成若干个表,我首先就想到用excel自带的宏来实现,结果发现自己并不会,哈哈,只好放弃,转而用python去实现,实现的功能很简单,但是因为没有接触过python自动化办公方面,所以花了点时间去搜索,去找方法。
我刚开始的想法是先将整张表读到数据库里,然后用group by去分类提取到数组,然后根据名称去数据库匹配,最后输出到excel表。但是这个方法貌似有点蠢了。
经过了解,我把目光聚集到pandas这个库上,实现上简单方便。
2.pandas简介
- Pandas是Python的一个数据分析包,该工具为解决数据分析任务而创建。它纳入大量库和标准数据模型,不仅提供高效的操作数据集所需的工具,还提供大量能使我们快速便捷地处理数据的函数和方法。
- Pandas是字典形式,基于NumPy创建,让NumPy为中心的应用变得更加简单。
具体的方法在这里不介绍(网上都可以查到),主要介绍一下我的方法和思路
3.实现思路
- 因为用pandas实现所以必须首先导入
import pandas as pd
- 考虑到读取excel表需要具体路径,所以为了适用性,选择用python自带的os模块
import os
data_path = os.path.join(os.getcwd(),"原表.xlsx") # 获取以‘原表.xlsx’为名字的文件路径
- 接着读取excel表
data = pd.read_excel(data_path)
rows = data.shape[0] #获取行数
#shape[1]获取列数
department_list = [] #创建个空列表用来存放分类标准,即部门名称
- 使用循环将部门名称添加到空列表
for i in range(rows):
temp = data["部门名称"][i]
if temp not in department_list:
department_list.append(temp) #将部门的分类存在一个列表中
- 接着再使用循环获取每一行的数据,并且进行用部门名称列表匹配原表,提取数据
for department in department_list:
new_df = pd.DataFrame()
for i in range (0, rows):
if data["部门名称"][i] == department:
new_df = pd.concat([new_df, data.iloc[[i],:]], axis = 0, ignore_index = True)
- 最后将每个部门存成一个新的表格
new_df.to_excel(str(department)+".xlsx", sheet_name=str(department), index = False)
4.注意:
有几点bug:
(1)要处理的表必须以“原表.xlsx”为名字和格式。(当然这个可以自行修改)
(2)需要分类的标准应该以“部门名称”为名字的那一列。(也可以修改)
(3)拆分完的表格命名为各部门名称。ps:因为家人电脑里并没有python环境,所以我选择用pyinstaller将脚本打包成exe文件,所以产生上述bug,自家使用,随用随改,哈哈哈