就业数据处理
因为就业数据只给了就业单位的名称,不方便判断就业质量,所以打算将就业的公司分成‘中国互联网企业100强’,还有很多去了国企的,所以又添加了‘中国企业500强’,‘和世界企业500强’,都在demo数据库中的job2表上操作(好久没弄了忘记了job2是不是最终汇总的job表了)
备注:中国互联网协会、工业和信息化部信息中心在京联合发布2017年“中国互联网企业100强”榜单。
最终读取的是C:\Users\lenovo\Desktop\研究生院项目\2017年100强互联网企业\100.txt
备注:本排行榜覆盖范围包括在中国境内外上市的所有中国公司,所依据数据为上市公司在各证券交易所正式披露信息。
最终读取的是C:\Users\lenovo\Desktop\研究生院项目\2017年100强互联网企业\top500-new-replace
备注:《财富》世界500强排行榜一直是衡量全球大型公司的最著名、最权威的榜单,被誉为“终极榜单”,由《财富》杂志每年发布一次。
最终读取的是C:\Users\lenovo\Desktop\研究生院项目\2017年100强互联网企业\世界500强\500-world.txt
预计结果
将就业单位打上xx强的标签后,勉强可以区分出来就业质量好坏了,1052/2236人的就业单位带有xx强标签,可以通过聚类等分析行为因素
奇怪的地方
1.google不是世界500强。
2 很多大公司具有不同的名称
世界500强:阿里巴巴集团
中国500强:阿里巴巴集团控股
互联网企业100强:阿里巴巴集团
学生就业单位名称:阿里巴巴(中国)网络技术有限公司
因互联网100强中有简称‘阿里巴巴’,故100强标签命中率比较高,世界和中国500因没有简称,命中率低,可加简称到存储文档中