转载请注明:陈熹 chenx6542@foxmail.com (简书号:半为花间酒)
若公众号内转载请联系公众号:早起Python
这篇文章能学到的主要内容:
openpyxl
综合操作glob
进行批处理- 对 Excel 样式进行调整
需求描述
你是一个公司小职员,兴高采烈整理完了 200 份婴儿产品的电商数据(本文以 30 份为例),每个表格格式相同如下所示:
结果给上级一看,上级说了句:表头不太合适,得改成中文的。然后购买数超过 100 的是潜在重点客户,要把他的消息在表格中标出来!
解释成落地的语言就是:
- 所有表的表头修改为【用户ID,商店ID,货物ID,购买数,日期】
- 将购买数超过 100 用户的整条信息标红、加粗、加边框
虽然此时你可能有诸多不满,但事情终归要做。如果一个一个表格打开修改表头,并且通过筛选修改样式,工作量实在太大,故你想到了用 Python 实现办公自动化
逻辑梳理
这种类似问题的批量操作有一个原则:对多个表格的批处理操作建议首先尝试在一个表格上完成,当我们打开示例的 电商婴儿数据.xlsx
后,留给我们的问题就变成了:
- 获取第一行,将 5 个单元格内的数据改为【用户ID,商店ID,货物ID,购买数,日期】
- 遍历所有行,当购买数超过 100 时,记录这一行的行号至一个列表
- 重新遍历列表种记录行号的特定行,对每个单元格进行样式修改
上面的步骤第 2 步和第 3 步有点繁琐,是由于 openpyxl
无法支持遍历到符合要求的行同时修改其样式,同时单元格是最小的操作单位,因此采用了以上策略
理论存在,实践开始
代码实现
打开一份 Excel 文件用 load_workbook
,如果是创建新的 Excel 用 Workbook
from openpyxl import load_workbook
# 数据所在的文件夹目录
path = 'C:\xxxxxxx'
workbook = load_workbook(path + r'\电商婴儿数据.xlsx')
sheet = workbook.active
表头是第 1 行,提到获取多个单元格的数值可以复习之前的知识点:
因此表头用一行简单代码 heading = sheet[1]
就可以获取。这是一个元祖,可以通过下标获取每一个元素并修改为期望的内容:
heading = sheet[1]
heading[0].value = '用户ID'
heading[1].value = '商店ID'
heading[2].value = '货物ID'
heading[3].value = '购买数'
heading[4].value = '日期'
另外一个思路是需要修改的数据所在的单元格分别是 A1/B1/C1/D1/E1,
可以直接通过 sheet[单元格].value = xxx
修改:
sheet[A1].value = '用户ID'
sheet[B1].value = '商店ID'
sheet[C1].value = '货物ID'
sheet[D1].value = '购买数'
sheet[E1].value = '日期'
完成了第一步小需求,接下来我们看看怎么筛选出购买数相关的行。先看代码:
buy_amount = sheet['D']
row_lst = []
for cell in buy_amount:
if isinstance(cell.value, int) and cell.value > 100:
row_lst.append(cell.row)
print(row_lst )
通过观察我们可以发现,“购买数”在表格的第 D 列,通过 buy_amount = sheet['D']
可以获取。接下来创建一个新列表,如果数值超过 100 就将其行号放入一个空列表中,间接完成了筛出符合条件的行。
这里如果运行会报错,因为可能有的单元格 cell 的值 value 不是数值类型,因此需要用 isinstance()
进行判断:
运行后就成功弄到了购买数超过 100 的行号。这里要求的修改样式有围绕字体的标红、加粗,也有针对单元格的边框,因此需要导入 Font
, Side
, Border
三个方法,并进行设置:
from openpyxl.styles import Font, Side, Border
# 先设置后边的样式,包括粗细和颜色
side = Side(style='thin', color='FF000000')
# 再选择加边框的方向,这里选择上下左右都加
border = Border(left=side, right=side, top=side, bottom=side)
# 设置字体为加粗、颜色为红色
font = Font(bold=True, color='FF0000')
样式预设好了以后重新根据行号遍历并设置样式:
for row in row_lst:
for cell in sheet[row]:
cell.font = font
cell.border = border
workbook.save(path + r'\电商婴儿数据_修改.xlsx')
现在我们就完成了一个表格的修改:
接下来只需要通过 glob
建立批处理框架就能够完成批量文件修改,添加的代码不过几行:
import glob
path = r'C:\xxxx'
for file in glob.glob(path + r'\*.xlsx'):
pass
加上批处理后完整代码如下:
from openpyxl import load_workbook
from openpyxl.styles import Font, Side, Border
import glob
path = r'C:\xxx'
for file in glob.glob(path + r'\*.xlsx'):
workbook = load_workbook(file)
sheet = workbook.active
heading = sheet[1]
heading[0].value = '用户ID'
heading[1].value = '商店ID'
heading[2].value = '货物ID'
heading[3].value = '购买数'
heading[4].value = '日期'
buy_mount = sheet['D']
row_lst = []
for cell in buy_mount:
if isinstance(cell.value, int) and cell.value > 100:
row_lst.append(cell.row)
print(row_lst)
side = Side(style='thin', color='FF000000')
border = Border(left=side, right=side, top=side, bottom=side)
font = Font(bold=True, color='FF0000')
for row in row_lst:
for cell in sheet[row]:
cell.font = font
cell.border = border
workbook.save(file)