盘点一个Python自动化办公的实战案例(word文件处理)

大家好,我是Python进阶者。

一、前言

前几天在Python铂金交流群【Jethro Shen】问了一个Python自动化办公的问题,提问截图如下:

代码运行后的结果:

他预期的效果是选项和答案部分也需要显示出来,目前看上去还是没有显示出来。

他的原始代码如下:

import re

black_char = re.compile("[\s\u3000\xa0]+")

chinese_nums_rule = re.compile("[一二三四]、(.+?)\(")
title_rule = re.compile("\d+.")
option_rule = re.compile("\([ABCDEF]\)")
option_rule_search = re.compile("\([ABCDEF]\)[^(]+")
answer_rule = re.compile("\([ABCDEF]\)")

# 从word文档的“一、单项选择题”开始遍历数据
for paragraph in doc.paragraphs[1:100]:
    #  去除空白字符,将全角字符转半角字符,并给括号之间调整为中间二个空格
    line = black_char.sub("", paragraph.text).replace(
        "(", "(").replace(")", ")").replace(".", ".").replace("()", "(  )").replace("【", "").replace("】", "")
    # 对于空白行就直接跳过
    if not line:
        continue
    if title_rule.search(line):
        print("题目", line)
    elif option_rule.search(line):
        print("选项", option_rule_search.findall(line))
    elif answer_rule.search(line):
        print("答案",answer_rule.findall(line))
    else:
        chinese_nums_match = chinese_nums_rule.search(line)
        if chinese_nums_match:
            print("题目", chinese_nums_match.group(1))

二、实现过程

这里【瑜亮老师】指出是正则表达式的问题,没匹配到,自然就出不来结果。后来【不上班能干啥!】给了一份代码,如下所示:

import re

black_char = re.compile("[\s\u3000\xa0]+")

chinese_nums_rule = re.compile("[一二三四]、(.+?)\(")
title_rule = re.compile("\d+.")
option_rule = re.compile("([A-F]\..+?)\s")
# option_rule_search = re.compile("\([A-F]\)[^(]+")
answer_rule = re.compile("【答案】([A-F])")

# 从word文档的“一、单项选择题”开始遍历数据
for paragraph in doc.paragraphs[1:100]:
    #  去除空白字符,将全角字符转半角字符,并给括号之间调整为中间二个空格
    line = black_char.sub(" ", paragraph.text).replace(
        "(", "(").replace(")", ")").replace(".", ".").replace("()", "(  )") + " "
    # 对于空白行就直接跳过
    if not line:
        continue
    if title_rule.match(line):
        print("题目", line)
    elif option_rule.match(line):
        print("选项", option_rule.findall(line))
        if '【答案】' in line and answer_rule.search(line):
            print("答案",answer_rule.findall(line))
    elif answer_rule.match(line):
        print("答案",answer_rule.findall(line))
    else:
        chinese_nums_match = chinese_nums_rule.match(line)
        if chinese_nums_match:
            print("题目", chinese_nums_match.group(1))

运行之后,可以得到预期发效果:

归根结底,还是正则表达式的问题。

后来【甯同学】使用 openpyxl库,也给了一份代码,如下所示:

from docx import Document
import openpyxl
wb = openpyxl.Workbook()
ws = wb.active
ws.append(['题目','选项1','选项2','选项3','选项4','答案'])
doc = Document("题库.docx")
all_runs = doc.paragraphs 
rows = []
for run in all_runs[1:]:
    print([run.text])
    if '【答案】' in run.text:
        text_list= run.text.replace('\n    ','\t\t').replace('【答案】','').split('\t\t')
        rows += text_list 
        ws.append(rows)
        rows = []
        continue
    text_list= run.text.replace('\n    ','\t\t').split('\t\t')
    rows += text_list 
wb.save('1.xlsx')

可以得到预期的效果,如下图所示:

效果还是不错的!

后来【不上班能干啥!】还结合Pandas给了一份代码,如下所示:

import re
import pandas as pd
from docx import Document

doc = Document("题库.docx")
text = re.sub(r'<.*?>', '', doc.part.blob.decode('utf-8'), flags=re.S)

a = pd.DataFrame(re.findall(r'(\d+\..*?)(A\..*?)(B\..*?)(C\..*?)(D\..*?)【答案】([A-Z])', text), 
                 columns=['题目', '选项一', '选项二', '选项三', '选项四', '答案'])
a.replace([r'^\s+', '\s+$'], '', regex=True, inplace=True)
a.to_excel('题库.xlsx', index=False)

这个Pandas功力已经到炉火纯青的地步了!

三、总结

大家好,我是皮皮。这篇文章主要盘点了一个Python自动化办公的问题,文中针对该问题,给出了具体的解析和代码实现,帮助粉丝顺利解决了问题。

最后感谢粉丝【WYM】提问,感谢【dcpeng】、【瑜亮老师】、【不上班能干啥!】、【甯同学】给出的思路和代码解析,感谢【水方人子】、【D I Y】、【冫马讠成】、【猫药师Kelly】等人参与学习交流。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,752评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,100评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,244评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,099评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,210评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,307评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,346评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,133评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,546评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,849评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,019评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,702评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,331评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,030评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,260评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,871评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,898评论 2 351

推荐阅读更多精彩内容