把pdf转化为txt的方法:
1.使用pdfminer3k包,优点是可以写程序直接定义路径,缺点是在识别图片的时候容易卡死和报错(一般情况下是20秒转化一个50-60M的pdf)
2.使用https://pdftotext.com/zh/在线转化功能,优点是识别比较智能、速度快,缺点是一次只能上传20个文件,不能实现批量
3.新增图片型pdf转txt方法(需扫码关注公众号):https://xpdf.net/
将年报文字转化为txt的方法:
1.先下载pdf,再将pdf转为txt
2.直接获取年报公告所在链接,使用bs.get_text()获取文字,存入txt文件
一般情况下2比1快,但2的速度取决于网页结构,不适用于网页结构复杂的情况