「自然语言处理(NLP)」一千多万公司企业注册数据集分享

来源: AINLPer 微信公众号(每日更新...
编辑: ShuYini
校稿: ShuYini
时间: 2020-03-08

引言

    最近在做一个关于公司企业名字匹配的项目,简单来说就是:根据一个人说的话,在识别其意图的基础上,尽可能收集这个人所说出的实体,这个实体就是公司企业名字,所以需要公司企业名字的数据集。费劲周折,终于找到了一份工商企业注册信息的数据集。可能是涉及到国内企业信息的原因,现在网上搜索到的链接打开基本都是404,个人觉得这份数据集还挺珍贵的,独乐不如众乐,给大家分享一下~

数据集介绍

    中国大陆 31 个省份 1978 年至 2019一千多万工商企业注册信息,包含企业名称、注册地址、统一社会信用代码、地区、注册日期、经营范围、法人代表、注册资金、企业类型。数据集部分截图如下:


数据集格式

    当前只有CSV 文件格式的数据(编码为 UTF-8), 如果确实需要 JSON 、XLS等其它格式,可以自己写个Python处理一下,如果写脚本有困难直接留下邮箱,作者抽时间处理好发给你们
Tip:通过excel打开可能显示是乱码的,可以通过记事本打开更改一下编码(ANSI)然后保存,打开就是正常的了。

数据使用须知

    本数据因涉及到国内所有公司的信息,请慎重使用! 请慎重使用!请慎重使用!!

数据获取方式

    下载链接:公司数据集

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容