来源: AINLPer 微信公众号(每日更新...)
编辑: ShuYini
校稿: ShuYini
时间: 2020-03-08
引言
最近在做一个关于公司企业名字匹配的项目,简单来说就是:根据一个人说的话,在识别其意图的基础上,尽可能收集这个人所说出的实体,这个实体就是公司企业名字,所以需要公司企业名字的数据集。费劲周折,终于找到了一份工商企业注册信息的数据集。可能是涉及到国内企业信息的原因,现在网上搜索到的链接打开基本都是404,个人觉得这份数据集还挺珍贵的,独乐不如众乐,给大家分享一下~
数据集介绍
中国大陆 31 个省份 1978 年至 2019 年一千多万工商企业注册信息,包含企业名称、注册地址、统一社会信用代码、地区、注册日期、经营范围、法人代表、注册资金、企业类型。数据集部分截图如下:
数据集格式
当前只有CSV 文件格式的数据(编码为 UTF-8), 如果确实需要 JSON 、XLS等其它格式,可以自己写个Python处理一下,如果写脚本有困难直接留下邮箱,作者抽时间处理好发给你们。
Tip:通过excel打开可能显示是乱码的,可以通过记事本打开更改一下编码(ANSI)然后保存,打开就是正常的了。
数据使用须知
本数据因涉及到国内所有公司的信息,请慎重使用! 请慎重使用!请慎重使用!!
数据获取方式
下载链接:公司数据集