python-docx的安装
- pip install python-docx
读取word文本
import docx #只能处理docx文件
def getText(filepath):
doc=docx.Document(filepath)#打开文档
fulltext=[]
for para in doc.paragraphs: #遍历每一个段落
fulltext.append(para.text)
return fulltext
data=getText(r"C:\Users\ts\Desktop\Python正则表达式七种兵器.docx")
for line in data:
print(line)
import win32com
import win32com.client
word = win32com.client.Dispatch("Word.Application")
path = r"F:\school\graduation\xxx.docx"
doc = word.Documents.Open(path)
doc.SaveAs(r"F:\school\graduation\1.txt",2) 必须绝对路径 2代表txt
doc.Close()
word.Quit()
PyPDF2的安装
- pip install PyPDF2
- pip install PDFMiner3K
读取PDF文件
import PyPDF2
pdffile=open(r"C:\Users\Tsinghua-yincheng\Desktop\doc\2.pdf","rb")
pdfreader=PyPDF2.PdfFileReader(pdffile)#读取pdf文件
print(pdfreader.numPages) #显示8页
for i in range(pdfreader.numPages):
page=pdfreader.getPage(i)#抓取第i页
print(page.extractText())
读取网络PDF
#pip install PDFMiner3K
import urllib.request #打开网页
import pdfminer.pdfinterp #管理PDF资源
import pdfminer.converter #文本转换
import pdfminer.layout #处理pdf布局
import io #输入输出
def readpdf(pdffile):
rsmgr=pdfminer.pdfinterp.PDFResourceManager()#资源管理器
retstr=io.StringIO()#文本输出
lap=pdfminer.layout.LAParams()#处理布局
device= pdfminer.converter.TextConverter( rsmgr,retstr,laparams=lap)#文本提取工具
pdfminer.pdfinterp.process_pdf(rsmgr, device,pdffile)#根据文件进行解析
device.close()#关闭设备
content=retstr.getvalue()#抓取文本
retstr.close() #关闭文本输出
return content #返回文本
#打开一个网络文件
pdffile=urllib.request.urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf")
outputstring=readpdf(pdffile)#处理文本
print(outputstring) #输出文本
读取中文PDF
import urllib.request #打开网页
import pdfminer.pdfinterp #管理PDF资源
import pdfminer.converter #文本转换
import pdfminer.layout #处理pdf布局
import pdfminer.pdfparser
import io #输入输出
path=r"C:\Users\Tsinghua-yincheng\Desktop\day24down\xxx.pdf"
file=open(path,"rb")#打开文件
pdffile= pdfminer.pdfparser.PDFParser(file)#解析pdf文本
doc=pdfminer.pdfparser.PDFDocument()#创建pdf文档
pdffile.set_document(doc) #解析工具链接pdf文档
doc.set_parser(pdffile)
doc.initialize()#初始化 为空没有密码, 有密码"12233"
rsmgr=pdfminer.pdfinterp.PDFResourceManager()#资源管理器
lap = pdfminer.layout.LAParams() # 处理布局
device = pdfminer.converter.PDFPageAggregator(rsmgr, laparams=lap)#转换
interpreter=pdfminer.pdfinterp.PDFPageInterpreter(rsmgr,device)#抓页数
if not doc.is_extractable:
pass
else:
for page in doc.get_pages():#遍历每一个页面
interpreter.process_page(page)#抓取每一页
layout=device.get_result()
for x in layout:
text=x.get_text()
print(text)
openpyxl的安装
- pip install openpyxl
- pip install pyexcel_xls
读取Excel
# Author:Luo
from openpyxl.reader.excel import load_workbook
wb = load_workbook(filename=r"F:\school\graduation\副本.xlsx")
print(wb.get_sheet_names()) # 获取每个表格的名称
print(len(wb.get_sheet_names())) # 获取表格的长度
sheetNames = wb.get_sheet_names() # list,所有的表格,左下角的sheet
ws = wb.get_sheet_by_name(sheetNames[0]) # 第一个表格
print(ws.title) # 开头
print(ws.max_row) # 最大的行数
print(ws.max_column) # 列数
for rline in range(1, ws.max_row + 1):
for column in range(1,ws.max_column+1):
w1 = ws.cell(row=rline,column=column).value
print(w1,end=" ")
print()
from collections import OrderedDict # 不可变字典
from pyexcel_xls import get_data
from pyexcel_xls import save_data
def readxls():
path = r"F:\school\graduation 副本.xlsx"
xlsdata = get_data(path) # 抓取数据
print(xlsdata)
print(type(xlsdata)) # 数据类型
for sheet in xlsdata: # 读取每一个key对应的value
print(sheet, ":", xlsdata[sheet])
def writexls():
path = "myself.xls"
data = OrderedDict() # 字典
sheet_1 = []
row1 = ["A", "B", "C"]
row2 = [1, 2, 3]
sheet_1.append(row1)
sheet_1.append(row2)
data.update({"ABC": sheet_1}) # ABC为sheet名,sheet_1为数据
save_data(path, data)
# readxls()
writexls()
word自动化
# Author:Luo
import win32com
import win32com.client
def makeword(name):
print(name)
#操作word,
word=win32com.client.Dispatch("Word.Application")
doc=word.Documents.Add() #插入文档
word.Visible=True #可见
rng=doc.Range(0,0)#开始位置
rng.InsertAfter(u"尊敬的%s先生\n"%name)#匹配字符串
rng.InsertAfter(u" 我是xxx,定于2017.10.1与ccc大婚,诚邀来参加婚礼,先准备好分子钱")
filename="C:\\Users\\Administrator\\Desktop\\"+name+".doc"
doc.SaveAs(filename)#保存
doc.Close(True)#关闭
word.Application.Quit()#退出
names=["李鑫","申羚锐","何丰城","孙雨"]
for name in names:
makeword(name)
Excel自动化
import win32com
import win32com.client
def makeexcel(name):
print(name)
#操作word,
ex=win32com.client.Dispatch("Excel.Application")
wk=ex.Workbooks.Add()#加一张表格
nowwk=wk.ActiveSheet #当前的焦点表格
ex.Visible=True#显示
for i in range(1,10):
nowwk.Cells(i,i).value=name+str(i)#插入数据Cells方法参数为横坐标和纵坐标
filename = "C:\\Users\\Administrator\\Desktop\\" + name + ".xls"
wk.SaveAs(filename) #保存
wk.Close(True)#关闭
ex.Application.Quit()#退出
names=["xxx","ccc","vvv","bbb"]
for name in names:
makeexcel(name)
Outlook自动化(管理邮箱的,自己配置一下安全)
import win32com
import win32com.client
def makemail(name):
outlook=win32com.client.Dispatch("Outlook.Application")
mail=outlook.createItem(0)#第一封邮件
mail.Recipients.Add("%s@microsoft.com"%name) # 发送的
mail.Subject=u"尊敬的亲爱的伟大的%s"%name # 标题
mailtext= (u"尊敬的亲爱的伟大的%s"%name)
# 营销文本
mailtext+=u"我公司有硅胶娃娃,价格便宜,长的好看,欢迎真人一般的体验"
# 写入到正文中
mail.Body=mailtext #正文
mail.Send()#发送
outlook.Quit()
names=["xxx","ccc","vvv","bbb"]
for name in names:
makemail(name)
PPT自动化()
import win32com
import win32com.client
def makeppt(name):
try:
ppt=win32com.client.Dispatch("PowerPoint.Application")
pres=ppt.Presentations.Add()#增加一个页面
ppt.Visible=True
s1=pres.Slides.Add(1,1) #增加一个页面
s1_0=s1.Shapes[0].TextFrame.TextRange #找到第一个文本
s1_0.Text="尊敬的%s"%name
s1_1 = s1.Shapes[1].TextFrame.TextRange # 找到第2个文本
s1_1.Text = "hello world"
filename = "C:\\Users\\ts\\Desktop\\" + name + ".ppt"
pres.SaveAs(filename) # 保存
pres.Close() # 关闭
ppt.Application.Quit() # 退出
except AttributeError:
pass
names=["xxx","ccc","vvv","bbb"]
for name in names:
makeppt(name)