经验笔记|SQL数据分析入门

SQL作为流行的数据库语言,有着很广泛的用途,而数据分析这部分的应用是可以较快上手实操的,因此决定写下此篇经验总结,希望可以帮助到想快速了解SQL在数据分析中应用的小伙伴们。

既然想好要跨入SQL的大门了,那么先看看它的定义:
结构化查询语言(Structured Query Language)简称SQL,是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统。

从上面的定义可以看出SQL有两大特点:
1.它是一个管理数据库的工具,这说明它的使用是需要与对应的方法配合的;
2.它还是一个程序语言,这说明它的书写需要符合制定的语法规范。
实际工作中也是先确定要使用SQL达到什么效果,然后按照语法规范写出代码,即编程设计。

接下来就从这2大特点入手,介绍SQL是怎么辅助数据分析的。

数据分析中的SQL

数据分析流程大致分为5步,如下图所示:


数据分析流程图

其中,在第2,3,4步才需要用到SQL操作数据库。上图也说明了在使用SQL之前需要做好一些准备:
1)安装SQL好环境,连接好要分析的数据库;
2)明确本次分析目标,根据目标确定需要的字段。
接下来介绍这3个步骤的目标以及用到的SQL功能:

数据探索与收集

这一步目标是了解数据表字段名对应的数据,并收集本次分析需要字段的数据,主要使用SQL的查询功能,依次是:数据字典查询 和 字段查询。

1.使用数据字典查询,了解数据表字段名
数据字典相当于数据库的花名册,可以通过它了解字段名及其对应的数据含义,以便确定要收集的字段名。这个操作有固定的SQL代码:

DESC 数据表名 ;  #一次一个数据表名

2.使用字段查询,收集字段的数据
确定了要查询的字段名后,就可以开始数据收集了,这个操作对应的SQL语句是:

SELECT 字段名 FROM 数据表名 ;  #查询多个字段名时用逗号隔开


数据清洗与整理

这一步的目标是定位异常数据,并进行处理,获得更为干净的数据,主要使用SQL的字段统计,数据删除、更新,以及数据筛选功能。

1.使用字段值去重计数,定位异常数据
这个方法适合有明确答案数量的字段,通过count函数去重计数可以快速了解字段是否存在异常值,例如是否毕业这样的字段,这明确是2种答案,是和否,可如果去重计数得到3,则说明肯定存在一个异常值,这个操作对应的SQL语句是:

SELECT COUNT(DISTINCT 字段名) FROM 数据表名 ;​  #括号里的DISTINCT表示去重

2.数据清洗
找到异常数据后,根据出错的数据占比,如果超过了90%,则说明这个字段的数据无参考价值,可用delete函数进行删除处理,这个操作对应的SQL语句是:

DELETE FROM 表名 WHERE 筛选条件 ;  #筛选条件用于定位删除的区域,例如字段名='异常值'

如果是知道某个异常数据的正确的数据是多少,可以使用update更新数据,这个操作对应的SQL语句是:

UPDATE 表名 SET 字段名='正确值' WHERE 字段名='异常值' ;

3.数据筛选
说明两个示例代码里,都有用到where来筛选数据,这是经常与其他函数配合使用的语句,筛选条件通常是锁定范围的表达式,例如 字段名='异常值' 。

数据分析与可视化

这一步的目标,是进一步分析数据之间的关联,得出一些决策建议并用可视化图表展示出来,由于SQL语言没有可视化的功能,所以这一步主要使用到SQL的数据表拼接、数据统计和筛选排序等功能。

1.数据表拼接
如果要同时查询来自两个不同数据表的字段对比,就需要用到join来拼接数据表,例如查询用户中已经注册会员的人数占比,则需要以用户ID为基准拼接用户注册表和会员注册表。这个操作对应的SQL语句是:

SELECT 字段1 FROM 表a JOIN 表b ON 表a.字段2=表b.字段2 ;#字段2就是拼接的基准字段

2.数据统计
关于数据统计,SQL有3个函数:count用于记录数求和,sum用于字段数值求和,avg用于字段数值求平均数。这3个操作的代码格式是一样的,仅函数名不同,其中count记录数求和对应的SQL语句是:

SELECT COUNT(DISTINCT 字段名) FROM 数据表名 ;​  #括号里的DISTINCT表示重复记录不计数

3.数据排序
得出统计结果后,往往还需要使用order by来进行数据排序,以便后续决策。使用后,指定字段默认是升序排列的,需要降序的话,需要在字段名右边加上desc。这个操作对应的SQL语句是:

SELECT 函数(字段名) FROM 表名 GROUP BY 字段名 DESC ;​​​​


更多探索

由上面的代码示例们可以看到,SQL的语言结构是比较简单的,通常是:语句关键词 + 对象名称/条件语句 的结构。而且每个函数都有明确的使用规则,这些都可以通过相关网站查询到。

SQL的本质是工具,对着目标进行针对性练习的话,提升效果会比较好,最后推荐几个好用的SQL网站:
1.SQL代码词典:https://www.runoob.com/mysql/mysql-tutorial.html
2.SQL练习题库:https://sqlzoo.net/

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,616评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,020评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,078评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,040评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,154评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,265评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,298评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,072评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,491评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,795评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,970评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,654评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,272评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,985评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,815评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,852评论 2 351