1、python操作word(python-docx安装失败,待实操)
from docx import Document
doc_1 = Document() #新建空白文档
doc_1.add_heading('新建空白文档标题,级别为0',level = 0) #添加标题(0相当于文章的题目,默认级别是1,级别范围为0-9)
paragraph_1 = doc_1.add_paragraph('这是第一段文字的开始\n请多多关照!') #新建段落
doc_1.save('doc_1.docx') #保存文件
2、python操作pdf
提取pdf文字
import pdfplumber
主要用到 extract_text 这个函数提取pdf中的文字
pdf_filename.extract_text() #提取pdf_filename文件中的文字,注仅为纯文字
提取pdf中的表格
使用extract_table()函数提取pdf中表格的内容
tables_info = pdf_filename.extract_tables() #如果一页pdf_filename存在多个表格,则返回结果是一个三维表,获取对应表为tables_info[0][1:](获取第一个表的数据)
把获取的表数据转为dataframe:
df_table = pd.DataFrame(table_info[1:], columns=table_info[0]) #设置表格的第一行为表头,其余为数据