2022-03-29 启动工具研究历程

在大数据领域工作和研究了一段时间,感觉数据对于智能非常重要,因此想研究一个能从各种数据源抓取数据的工具,例如从互联网的网页上抓取数据、从文档里抓取数据、从网络协议的数据包中抓去数据、从结构化的数据源抓去数据等,其中会涉及多种技术,从今天开始需要逐一研究和突破,期待通过5年的时间研究出工具产品(感觉时间有点久)。

主要需要突破的技术如下:

1、网页抓取

2、网页解析

3、前端配置

4、后端配置

5、NLP

后续会补充。


©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容