学习 python大法好，word, pdf变身html没烦恼

【README.md】

Hi 我是栗子君，一枚身在美帝的小程序员。

我工作的公司加上老板一共有五个人：老板迈叔，维持着一切事物让业务不至于垮掉的产品经理田田，颜值担当吉米还有吐槽担当的我，还有刚刚加入的酷炫小哥DJ。

就像银魂里的万事屋，我们经常会接到各种客户奇奇怪怪的委托，每天都要面对不一样的技术问题。生活在充满挑战的环境里的我决定开通这个专栏，来记录每一个挑战，每一次尝试，每一种解决方案，希望能够帮到遇到同样问题的你（围笑）。

正确打开方式：

【太长不看】--> 没时间或者没兴趣阅读全文的话也没关系，只要看【太长不看】标签就可以 get到要点。

【参考链接】--> 研究问题的时候参考的材料链接。

【请讲人话】--> 会对一些术语做出尽量通俗的解释，如果有另外需要解释的术语请在评论区留言～我会在文中更新

欢迎转发！欢迎点赞！转载请联系专栏作者授权。

【序】

最近公司一个客户大大购买了一堆医疗健康方面的科普文章，希望能放到我们正在开发的健康档案管理软件上。客户大大说，要智能推送！要掌握节奏！要深度学习！要让用户留恋网站无法自拔！

话说符合以上特点的我也只能联想到某榴了。

当然，万里长征的第一步是把文章导入我们的数据库。项目使用的是AWS的dynamoDB，是非关系型数据库，所有内容都是以json的形式储存的。而客户大大购买来的文章，一共600多篇，要么是word要么是Adobe indesign的indd。找了一圈，没有发现合适的应用可以把word或indd转化成干净的html。所以我只能自己造轮子啦～听说python很擅长文本处理，所以就是你了，python！这是我第一次用python写项目，不符合规范的地方欢迎大神提点。

【太长不看】

用逆天的python 模块mammoth和docx 处理你的word文件

把indd批量转化成pdf然后用layout_scanner转化成html

【word批量转化为html】

建立文件结构并批量读取文件

在根目录下创建几个文件夹，用来放不同格式的文件，我把所有要处理的word文件放在docfiles 这个子目录里。word.py里写转化程序。

├── docfiles

├── imgs

├── inddfiles

├── output

└── pdfs

└── word.py

2.引入模块和申明文件路径

import mammoth
import mammoth.transforms
import os
from docx import Document
from bson import json_util
import zipfile
import json
import unidecode
import requests

guidUrl = "https://my.phrplus.com/REST/guid"
inputPath = '/Users/admin/cwell/parser/docfiles/'
imgPath = "/Users/admin/cwell/parser/imgs/"
outputFile = '/Users/admin/cwell/parser/output/output.json'

mammoth: 核心组件，用来做转化工作

docx: 另一个做转化工作的模块，用来补充mammoth

os: 用来在系统中读取写入文件

zipfile: 用来解压word文档以提取图片

json: 用来把数据转化成json

bson: 用来配置写入json文件

unicode：用来处理字符

requests：用来调用api

3.转换单个文件

styleMap = """
p[style-name='Title'] => h1.hide
p[style-name='Subhead 1'] => h3
p[style-name='List Bullet'] => ul.first > li:fresh
p[style-name='List Bullet 2'] => ul.second > li:fresh
p[style-name='Hyperlink']=>a.link
"""
def convert_image(image):
    return {
        "src":""
    }

def parseFile(f):
    document = Document(inputPath+f)
    article = {"Title":document.core_properties.title,"Content":""}
    with open(inputPath+f,"rb") as docFile:
        html = mammoth.convert_to_html(docFile,style_map=styleMap,convert_image=mammoth.images.img_element(convert_image))
        decoded = unidecode.unidecode(html.value)

    
    if not article["Title"]:
        for para in document.paragraphs:
            if para.style.name == 'Title':
                if para.text:
                    article["Title"] = para.text

    article["Content"]=decoded
    return article

parseFile就是核心功能了。传递进来的参数f是文件名，和文件路径合在一起能够帮我们准确定位要转化的文件。首先用docx找到文档的标题，并创建一个dictionary，里面包含标题和内容。然后用mammoth转化整个文件。注意命令中要用到style_map和convert_image。前者用来规定转化规则：'style-name'是word里的式样名称，用word打开文档，点击任意一个元素可以查看其式样名称；这里规定标题转化为h1，副标题转化为h2等等。关于列表的转化规则这里就不详细叙述了，具体可以参考下面的文章：

【参考链接】

Converting docx to clean HTML: handling the XML structure mismatch

‘convert_image‘ 是用来规定图片的转化方式的，由于我准备之后批处理所有文档中的图片，在这里就告诉程序不储存任何图片信息。但是于此同时保留图片的img tag以便标注图片在文档中的位置。如果不规定任何转化方式，生成的html里面会包含一大长串base64的图片信息。

mammoth转化出来的html是含有unicode的，不知道为什么python里跑一直报错，就用unicode解码了一下。（评论区知乎用户东升提醒python3 就不用unicode解码了）

这之后，如果前面的程序没有抓取到文档标题，用docx换个姿势再抓取一下。

最后返回article这个dictionary。

4.抓取图片

def extractImage(f):
    ziped = zipfile.ZipFile(inputPath+f)
    allFiles = ziped.namelist()
    imgs = filter(lambda x: x.startswith('word/media/'), allFiles)
    imgNameArr = []
    for img in imgs:
        res = requests.post(guidUrl)
        if res.status_code is 200:
            guid = res.text
            data = ziped.read(img,imgPath)
            idxStr = os.path.basename(img).split(".")[0][-1:]
            imgDict = {}
            imgDict["index"] = int(idxStr)-1
            imgDict["fileName"] = guid+".jpg"
            imgNameArr.append(imgDict)
            targetPath = os.path.join(imgPath,guid+".jpg")
            target = open(targetPath,"wb")
            target.write(data)
            target.close()
    ziped.close()
    return imgNameArr

没想到word文档其实是一个压缩文件吧？如果直接把word文档的后缀名改成zip然后再用解压软件查看，会看到一个media文件夹，里面就包含所有插入的图片。

用ziped读取文档，然后找到存放图片的media文件夹，每一个图片重新用guid命名，生成一个dictionary，里面包含的信息有“此图片在文档中出现的顺序”和文件名。话说media中的图片都被按照顺序重新命名为image1.png, image2.png，刚好为我们抓取顺序信息提供了方便。

（python也有生成guid的模块，我在这里调用api有点多此一举，但是为了和项目中其他图片需要用到的uuidv4保持一致还是用了）

之后就是把图片存在‘imgs’这个文件夹下。

5.生成json

def processDocs(path):
    result = []
    for f in os.listdir(path):
        if not f.startswith('.'):
            imgNameArr = extractImage(f)
            article = parseFile(f)
            fileName = os.path.basename(f)
            contentArr = article["Content"].split("<img")
            for idx, section in enumerate(contentArr):
                for info in imgNameArr:
                    if idx is info["index"]:
                        contentArr[idx] = section+"<img alt='"+info["fileName"]+"' data-fileName='"+info["fileName"]+"'"

            article["Content"] = ''.join(contentArr)
            result.append(article)


    with open(outputFile,'w+') as f:
        json.dump(result,f,default=json_util.default)

最后要用到的一个function就是写个循环挨个处理docfiles文件夹底下的文件了。针对每一个文件，记得把之前生成的图片信息的数组map到html里，然后在写入到json文件里就大功告成了！

【indd转化为html】

话说，到现在为止，我还没有找到一个完美的解决方案。我使用了相同的思路，把indd先批量生成为pdf（有一个indesign 脚本就是专门批量转化pdf的）,然后用了一个叫做layout_scanner的github项目抓取pdf信息并转化为html。最后生成的html包含了文字和图片，但是图标和排版就保存不下来了。客户大大表示不满意。我也很惆怅啊！机智的小伙伴们如果有更好的思路请务必告诉我！如果需要我详细说明一下这一块内容，我会更新在这篇文章中。

Python学习交流群：834179111，群里有很多的学习资料。欢迎欢迎各位前来交流学习。
欢迎小伙伴入群，加我好友，发你学习资料

最后编辑于：2018.08.11 22:54:19

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,591评论 6赞 501
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,448评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,823评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,204评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,228评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,190评论 1赞 299
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,078评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,923评论 0赞 274
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,334评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,550评论 2赞 333
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,727评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,428评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,022评论 3赞 326
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,672评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,826评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,734评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,619评论 2赞 354

学习 python大法好，word, pdf变身html没烦恼

2.引入模块和申明文件路径

3.转换单个文件

4.抓取图片

5.生成json

推荐阅读更多精彩内容