爬虫脚本--pdf处理思路

pdf处理思路

1 抽取文本数据

2 抽取图片数据

3 抽取表格数据

==》  人名  地名  年代

==》  行业  行业词库  行业编年史  行业人物  行业地点  行业事件

==》  地图数据  地名  范围

方案处理思路

文本处理  ---》    打标签  关系图  关联关系

自然语言处理包

表格处理    表格  --

pyxlrd  xml

图片处理    图片标题 -- 图片 --人物  关联

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容