word文档处理 | 批量将doc/docx转化成txt

用python处理信息时经常需要面对doc/docx文档,这两者机制还不一样,偏偏拿到的文件既有doc格式又有docx的,很头疼。

python的第三方库python-docx适用于写入,但对于读取信息并不友好(python-docx会把每一行解析成一个Document对象,涉及到多行信息提取就无能为力)

最后想了想,把word文档统一转化成python可以直接处理的txt会方便很多。翻墙找了很久,终于找到一个免费干净的word文档转txt程序,如下:

软件界面
几千个文档几分钟便转化好了

下载地址:

http://www.multidoc-converter.com/en/download/index.html

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

友情链接更多精彩内容