惊呆同事的自动化小工具来了!python批量将pdf转word

无论在日常工作还是学习中,大家都会遇到一个问题 " 将pdf中的内容(文本和图片)转化为word的格式 " ,也可以说从只读变成可编辑的格式。当然网上有很多工具可以实现,但大多都是收费的。那我今天的分享,就是通过 python 实现批量将pdf转换成word,做成一个桌面小工具。好处是一方面python有免费的开源库可供我们使用;另一方面可以根据我们需求灵活定制功能;最后工具可以重复使用,即使你的同事电脑没有 pyhton 开发环境,也可以使用。

一、实现效果

二、环境准备

1、pdf 转 word

实现这个功能,主要使用的是pdf2docx这个库,也是最推荐的。只要是标准PDF文档,里面的图片和表格都可以保留格式。要注意的是python版本必须是3.6或以上,本文我使用的是python3.8。安装命令如下:

pip install pdf2docx
2、绘制图形用户界面

Python有许多GUI工具包可供选择,本文使用 PySimpleGUI ,使用起来简单,对于我们这个需求足够用 。想要深入的伙伴可移步:PySimpleGUI 文档,有非常多的示例,本文不做过多拓展。使用之前也需要安装一下,注意大小写问题。

pip install PySimpleGUI 
3、py 程序打包 exe

pyinstaller 是一个非常简单的打包 python 的 py 文件的库,一条命令即可实现打包。官方文档:pyinstaller

pip install pyinstaller

三、代码实现

1、pdf 转 word 函数
from pdf2docx import Converter
import PySimpleGUI as sg


def pdf2word(file_path):
    file_name = file_path.split('.')[0]
    doc_file = f'{file_name}.docx'
    p2w = Converter(file_path)
    p2w.convert(doc_file, start=0, end=None)
    p2w.close()
    return doc_file
2、设计图形用户界面
def main():
    # 选择主题
    sg.theme('LightBlue5')
    # 设置窗口
    layout = [
        [sg.Text('pdfToword', font=('微软雅黑', 12)),
         sg.Text('', key='filename', size=(50, 1), font=('微软雅黑', 10), text_color='blue')],
        [sg.Output(size=(80, 10), font=('微软雅黑', 10))],
        [sg.FilesBrowse('选择文件', key='file', target='filename'), sg.Button('开始转换'), sg.Button('退出')]]
    # 创建窗口
    window = sg.Window("Python与数据分析_青青", layout, font=("微软雅黑", 15), default_element_size=(50, 1))
3、实现单个文件和批量文件操作
 # 事件循环
    while True:
        # 窗口的读取,有两个返回值(1.事件;2.值)
        event, values = window.read()
        print(event, values)

        if event == "开始转换":
            # 单个文件
            if values['file'] and values['file'].split('.')[1] == 'pdf':
                filename = pdf2word(values['file'])
                print('文件个数 :1')
                print('\n' + '转换成功!' + '\n')
                print('文件保存位置:', filename)
            # 多个文件
            elif values['file'] and values['file'].split(';')[0].split('.')[1] == 'pdf':
                print('文件个数 :{}'.format(len(values['file'].split(';'))))
                for f in values['file'].split(';'):
                    filename = pdf2word(f)
                    print('\n' + '转换成功!' + '\n')
                    print('文件保存位置:', filename)
            else:
                print('请选择pdf格式的文件哦!')
        if event in (None, '退出'):
            break

    window.close()

4、调用主要功能函数
main()

四、打包代码

1、打开DOS窗口并切换到demo.py(这里我新建了文件夹,放到了D盘)文件所在的目录,注意路径中不要有中文:
pyinstaller指令的常见可选参数
-i 给应用程序添加图标
-F 指定打包后只生成一个exe格式的文件
-D –onedir 创建一个目录,包含exe文件,但会依赖很多文件(默认选项)
-c –console, –nowindowed 使用控制台,无界面(默认)
-w –windowed, –noconsole 使用窗口,无控制台
-p 添加搜索路径

在当前的目录下,将会生成两个文件夹:build和dist。dist里面就是所有可执行exe文件,发送快捷方式到桌面,点击 exe 就能运行了。

五、解决exe文件过大问题【可略】

1、如果生成exe之后,你发现你的程序异常的慢,请检查你的导包代码,尽量不要出现以下写法,否则每次启动程序,都会导入大量函数占用大量时间。

 from ··· import * 
 改成 import 包名 

2、搭建干净的python虚拟环境
详情见我的历史文章:太强了!Python 开发桌面小工具,让代码替我们干重复的工作, 里面介绍了什么是虚拟环境,以及如何搭建。

到这里,分享就结束了。主要为大家提高工作效率,办公自动化提供一种思路。欢迎大家在评论区一起交流讨论~ 记得点赞呀

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,948评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,371评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,490评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,521评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,627评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,842评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,997评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,741评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,203评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,534评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,673评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,339评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,955评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,770评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,000评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,394评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,562评论 2 349

推荐阅读更多精彩内容