大数据心得

把pdf转化为txt的方法:

1.使用pdfminer3k包,优点是可以写程序直接定义路径,缺点是在识别图片的时候容易卡死和报错(一般情况下是20秒转化一个50-60M的pdf)

2.使用https://pdftotext.com/zh/在线转化功能,优点是识别比较智能、速度快,缺点是一次只能上传20个文件,不能实现批量

3.新增图片型pdf转txt方法(需扫码关注公众号):https://xpdf.net/

将年报文字转化为txt的方法:

1.先下载pdf,再将pdf转为txt

2.直接获取年报公告所在链接,使用bs.get_text()获取文字,存入txt文件

一般情况下2比1快,但2的速度取决于网页结构,不适用于网页结构复杂的情况

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。