MySQL-每周练习(2017-10-20)

MySQL
每周练习

本周我们来一道数据处理的练习题。

数据背景

不知道大家学会爬虫了没,拉勾网的数据大家会爬取了吗?这道题和拉勾网有关哦。
假设你已经学会爬取数据了,可以将数据爬取下来,数据可能是这个样子(demo库中的tm_lagou_data表):

CREATE TABLE `tm_lagou_data` (
  `city` varchar(20) DEFAULT NULL COMMENT '城市',
  `company_short_name` varchar(100) DEFAULT NULL COMMENT '公司简称',
  `company_full_name` varchar(200) DEFAULT NULL COMMENT '公司全称',
  `company_industry` varchar(100) DEFAULT NULL COMMENT '所属行业',
  `company_location` varchar(100) DEFAULT NULL COMMENT '工作地点',
  `position_advantage` varchar(100) DEFAULT NULL COMMENT '岗位特点',
  `position_salary` varchar(20) DEFAULT NULL COMMENT '薪资',
  `position_workyear` varchar(20) DEFAULT NULL COMMENT '工作经验',
  `position_name` varchar(50) DEFAULT NULL COMMENT '职位名称',
  `position_first_type` varchar(100) DEFAULT NULL COMMENT '岗位类型-大类',
  `position_second_type` varchar(100) DEFAULT NULL COMMENT '岗位类型-小类',
  `position_lables` varchar(100) DEFAULT NULL COMMENT '岗位标签',
  `position_id` varchar(20) DEFAULT NULL COMMENT '岗位ID',
  `create_time` datetime DEFAULT NULL COMMENT '发布时间',
  `job_desc` text comment '岗位描述'
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='拉勾网-数据分析数据';

在Python中,我们没有过多的处理,数据是这个样子的


这一次呢,我们只需要关注一个字段即可company_industry,这是公司所属行业
这个行业呢,一般会有多个,像上海的这个挖财网,就是互联网+金融,有2个标签,中间是逗号分隔符

问题描述

原始数据:

tm_lagou_data表中,company_industry(所属行业)字段可能会有多个值,并用逗号分隔


我们的目的是把这个字段拆分,变成下面这样的数据

处理后数据:

知识点

为了解决上面的问题,我们需要掌握的知识点如下:

有了拆分后的数据,我们就可以看数据分析师的行业分布,哪个行业招的数据分析师最多,哪个行业招的最少了。


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容