[Python] 自动化办公 批量生成多份合同

转载请注明:陈熹 chenx6542@foxmail.com (简书号:半为花间酒)
若公众号内转载请联系公众号:早起Python

本例可以学到的知识点:

  1. openpyxl模块的综合运用
  2. Word文档的两种遍历逻辑

练习数据:链接:https://pan.baidu.com/s/1QwtuUZwW5kShqqymKY0xNg 提取码:npxd

一、需求描述:

你是乙方建筑公司,手上有一份 空白合同的Word文件,如下图:

另外还有一份Excel表格合同信息表,其中是所有甲方(发包人)在合同中需要填写的内容:

可见一行为一个公司的全部信息,现在需要把相应公司的信息填入空白合同模板中,生成各公司的合同

最终结果如下:

这个需求的实现可以帮助我们解决很多问题,让我们一起来分析一下

二、步骤分析

原本我们需要将Excel汇总表中每一行的信息填进word模板中,生成相应的合同。现在我们需要交给python来实现,就引出了一个问题:程序如何知道要将某个信息填到哪个下划线?为了解决这个问题,我们需要对模板进行修改,即将下划线改成某种标识,让程序可以“看到标识就明白此处应该放什么信息”

这里采取的策略是:将需要填写的下划线改成汇总表中的列名,即

这样程序就可以识别需要填写什么内容了。所谓的识别在这里可以换一个特别简单的词,即文本替换,只要检索到#xxxx#(excel中的列名),把这个替换成具体的信息就可以了。出于这种策略,列名就需要用#xxxx#的格式,否则正常的无关文本中的信息也会被替换,就破坏了原有的需求了

最后模板被修改成如下:

通过Excel表我们可以看到,一行为一个公司的信息,而每一列的列名就存在于模板中,用各个公司的实际信息替换到模板中的列名(程序识别和文本替换的依据)就可以完成这个需求。整个大需求的实现可以按照下面的步骤:

分析后的步骤:

  1. 将 空白合同 调整成 合同模板,需要填写的下划线改成专属的列名
  2. 打开Excel表,按行循环,然后按单元格逐个循环各个信息,每个信息都找到模板中存在的对应列名并将其替换(如果不理解下文还有解释)
  3. 每次循环完一行的全部单元格后保存合同,生存各个公司单独的合同

分析清楚后逻辑就非常简单了,但有一个隐含的知识点没有提到,让我们边写代码边说

三、代码实现

  • 导入模块,设置路径,建立文件夹

本例中涉及Excel表的打开和Word的创建,因此需要从openpyxl导入load_workbook,而Word无论打开还是创建,用docx模块的Document均可

from docx import Document
from openpyxl import load_workbook
# 利用os模块建立文件夹,用于存放生成的合同
import os

# 给定合同模板和汇总表所在的文件夹路径,方便复用
path = r'C:\Users\chenx\Desktop\合同'

# 结合路径判断生成文件夹,规避程序报错而终止的风险
if not os.path.exists(path + '/' + '全部合同'):
    os.mkdir(path + '/' + '全部合同')
  • 打开Excel文件
workbook = load_workbook(path + '/' + '合同信息表.xlsx')
sheet = workbook.active
  • 遍历Excel,生成合同

前面也反复提到,Excel的每一行是一份特定合同的信息,因此docx针对Word文件的实例化和保存一定是在循环体里的,而不像Excel的实例化是在循环体外面

# 有效信息行是从第二行开始的,第二行是表头,包含列名,也是文本替换的依据
for table_row in range(2, sheet.max_row + 1):
    # 每循环一行实例化一个新的word文件
    wordfile = Document(path + '/' + '合同模板.docx')
    # 单元格需要逐个遍历,每一个都包含着有用的信息
    for table_col in range(1, sheet.max_column + 1):
        # 旧的文本也就是列名,已经在模板里填好了,用于文本替换,将row限定在第一行后就是列名
        old_text = str(sheet.cell(row=1, column=table_col).value)
        # 新的文本就是实际的信息,table_col循环到某个数值时,实际的单元格和列名就确定了
        new_text = str(sheet.cell(row=table_row, column=table_col).value)
        # 加上这个判断是因为日期信息读进程序是“日期 时间”格式的,如果要保留日期信息可以用字符串方法或者用time/datetime模块处理
        if ' ' in new_text:
            new_text = new_text.split()[0]

通过下图进一步理解这个替换:

例如程序已经进入第3个循环(循环到第3个公司),针对单元格的循环进入第4个循环,那么此时获取的实际值是“建设C公园”,对应的列名是“#工程内容#”,此时就明确了需要被替换的内容了,那么只要在模板中找到“#工程内容#”把它替换为“建设C公园”即可

了解了这个替换后,下一步要做的就是遍历Word模板,找到对应列名替换

熟悉docx模块的读者应该知道,Word文本存在文档Document - 段落Paragraph - 文字块Run的三级结构,需要遍历文本可以用以下代码:

all_paragraphs = wordfile.paragraphs
for paragraph in all_paragraphs:
    print(paragraph.text)
    for run in paragraph.runs:
        print(run.text)

针对段落和文字块均可用.text获取到文字信息

本需求隐含的陷阱就在这里,注意一下合同最后需要填写的内容:

这部分内容如果用上述代码是遍历不到的。为什么?因为这是Word文档中的表格,遍历表格需要有专门的遍历逻辑:文档Document - 表格Table - 行Row/列Column - 单元格Cell

遍历表格中文本的代码如下:

all_tables = wordfile.tables
for table in all_tables:
    # 也可按列遍历
    for row in table.rows:
        for cell in row.cells:
            print(cell.text)

有了这些补充的知识我们就可以完成最核心的代码了:

for table_row in range(2, sheet.max_row + 1):
    wordfile = Document(path + '/' + '合同模板.docx')
    for table_col in range(1, sheet.max_column + 1):
        old_text = str(sheet.cell(row=1, column=table_col).value)
        new_text = str(sheet.cell(row=table_row, column=table_col).value)
        if ' ' in new_text:
            new_text = new_text.split()[0]
        
        # 文档Document - 段落Paragraph - 文字块Run
        all_paragraphs = wordfile.paragraphs
        for paragraph in all_paragraphs:
            for run in paragraph.runs:
                run.text = run.text.replace(old_text, new_text)

        # 文档Document - 表格Table - 行Row/列Column - 单元格Cell
        all_tables = wordfile.tables
        for table in all_tables:
            for row in table.rows:
                for cell in row.cells:
                    cell.text = cell.text.replace(old_text, new_text)

    # 获取公司名用以生成合同的名称
    company = str(sheet.cell(row=table_row, column=1).value)
    wordfile.save(path + '/' + f'全部合同/{company}合同.docx')

写在最后

本次的需求可以延伸成为:将一份信息汇总表Excel中的每一个单独信息(每一行或者每一列为个人、公司或者其他的信息)填写到指定的模板Eord中,生成单独的文档,因此需要理解内涵
如果你有正在烦恼的办公需求,欢迎在 早起Python 公众号后台留言

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,080评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,422评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,630评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,554评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,662评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,856评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,014评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,752评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,212评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,541评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,687评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,347评论 4 331
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,973评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,777评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,006评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,406评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,576评论 2 349