Excel是一个强大的工具,各行各业的人员都会用到它,如果想要对Excel进行系统的学习,需要从不同行业的角度切入。数据分析师在进行数据分析时所用Excel的功能、函数与财务人员所用的不尽相同。还未进入数据分析行业的人总是很惊讶:“用Excel也可以进行数据分析吗?数据分析不是要用Python吗?”诚然,Python功能强大,不仅可以用于数据分析,还可用于软件开发、人工智能等领域。从这个角度来看,Python和Excel很像——都可以用在不同的领域,数据分析只是其中一个领域。
数据和我们形影不离,不管你在什么行业,不管你做什么工作,一定都会接触到数据。很多刚入行的小伙伴最大的问题是:“我现在所在的行业或所从事的工作没有数据可供我分析。”其实数据分析是一项技能,它并非一个特定的行业。就像信息技术(Information Technology,IT),互联网行业有IT,金融行业也有IT,农业里面也有IT,IT是一项技能。数据分析也是,它与行业、业务息息相关。
1、关于数据分析
从字面意思上看,数据分析是指运用数据对业务进行分析,那么“运用什么数据、进行何种分析”才是理解数据分析的关键。大数据时代,每家企业都产生了大量的、不同类型的数据,将这些数据收集起来,进行汇总、整理和加工,通过构建数据分析的方法论模型,运用数理统计的方法发现问题、解决问题,并预测可能出现的问题,给企业提供科学有效的决策依据,这就是数据分析。比如:
(1)通信行业通过大数据分析挽留用户:通过分析用户的通话记录,如该用户给谁打过电话、打电话的频率等指标构建社交网络图谱,将用户划分为“联网型”“桥梁型”“领导型”和“跟随型”4个大类,针对不同类型的用户采取不同的营销策略,这种分析将大幅提升用户流失预警模型的准确率;
(2)沃尔玛“啤酒与尿布”的购物篮分析:20世纪90年代,美国沃尔玛超市发现年轻的父亲在购买尿布时通常也会买啤酒,于是超市将啤酒和尿布两个看起来毫不相关的商品放在一起促销,结果提升了销售额。这就是购物篮分析:通过分析顾客购物篮中商品之间的关联程度,挖掘顾客的消费习惯,从而为卖方的营销做出决策支撑;
(3)电商平台的推荐功能:比如在某电商App上购买过奶粉以后,就会接连收到奶嘴、尿布等相关婴儿用品的推荐。买过X商品后,购物网站会相应地推荐与之相关的Y商品,这个功能看似简单,实际上实现起来却相当复杂。简单地说,网站会对获取到的用户行为数据,如浏览的商品、停留时长、搜索的关键词等进行分析,从而得到用户可能感兴趣的商品,并向其推送,这是基于数据分析的新的运营模式;
从以上3个案例中应该可以感受到数据分析的重要性。在企业运营中,数据无处不在,数据分析也时时刻刻都在发生,及时进行现状分析、原因分析和预测分析,对企业的生产和决策都是有很大帮助的。
2、数据分析岗主要是做什么
随着移动互联网、云计算和大数据等新一代信息技术的迅速发展,企业每时每刻都在获取多且种类繁复的数据,管理和运用这些数据并使其为企业助力成为业务发展不可或缺的手段。越来越多的企业开始设置数据分析师这个岗位,而大数据分析师更是被媒体称为“未来最具发展潜力的职业之一”。“让数据创造价值”,是对这个岗位最好的阐述。总的来说,数据分析师这个岗位可以分为归属开发类的和归属业务类的。这两条线要求的技能前期有交集,后期就完全不同了,因此也需要进行不同的职业规划:
*归属开发类的数据分析师需要用Python、R等编程语言搭建算法模型,进行预测、分类、聚类等分析,类似的岗位有算法工程师、数据挖掘师、数据科学家等。企业里往往也会有数据仓库、数据提取、数据中台、数据运营等一整套的流程作支撑。
*归属业务类的数据分析师大多偏向业务分析、行业研究,能够运用恰当的思维和工具来分析数据、原因和现状等,并进行可视化展现、撰写数据报告。这类岗位对开发类技能要求较少,主要是对业务的理解,类似的岗位有数据产品经理、数据运营、商务分析等,有些小公司会让产品运营人员兼任。
不管是开发类还是业务类,用Excel进行数据分析都是基础,并且是其它技术工具导入数据的来源之一,只有打好基础,后续才能顺利开展工作,包括但不限于数据监测、数据排除、报表维护、为市场的拓展提供决策、对产品的上线进行影响评估、建立用户画像进行全面分析、搭建客户流失预警模型等。
3、数据分析主要流程
(1)明确目的和思路
如同乙方拿到一个项目,要以甲方的需求为导向一样,数据分析师拿到一堆数据,也要以目的为导向。数据分析是为了提出问题、发现问题、解决问题,为管理决策提供数据依据,为业务提供市场情报。比如日常运营一个微信公众号,在发文之前,先统计一下不同主题的历史阅读量、增长人数、净增长人数、阅读渠道分布等,然后分析一下订阅数为什么会增长、用户为什么会取消关注、什么时候发文阅读量高、用户都是从哪些渠道过来的等问题,还可以构建一个用户画像,这样才能更好地运营微信公众号。
只知道分析的目的还不够,还要知道怎么分析、从哪入手。这就需要我们不断培养分析的思维,并逐渐养成分析数据的习惯,用数据分析的思维去思考问题,将数据分析的思维运用到一些现有的模型当中,能够让我们快速地找到问题的关键。刻意练习用数据分析的思维看待生活中的问题,相信你的数据分析思维会有很大的提升。
(2)获取数据
要进行数据分析,首先得有数据才行,那么数据一般从哪里获取呢?对于公司员工,数据的来源自然是企业内部;对于没有从事数据分析但又想要学习的爱好者来说,可以从网上获取数据,其方式多种多样。总的来说,数据源有两种,分别是内部数据和外部数据:
1)内部数据:如果你是为了公司运营而进行数据分析,那么就会有公司提供的内部数据,比如各种产品、订单、用户的数据。这类数据一般存储在数据库中,由从数据库中取数的专业人员取数。取好的数会被存储为一张表,数据分析师可以用Excel打开,直接进行分析。
2)外部数据:对于爱好者来说,想要获得企业的内部数据来做练习是不太容易的,这时可以从外部数据入手。外部数据包括互联网上搜索到的政府、行业、企业公开的数据集和通过市场调查获得的数据,如通过搜索引擎找到国家统计局网站上的国民经济统计数据、旅游行业的出行数据、阿里巴巴网购价格指数数据、中指的百强房企排名数据等。阿里天池大赛也会发放一些脱敏的企业数据,还可以去一些专业的论坛下载公开的数据。
大部分情况下,获取到的数据都是.xlsx、.xls、.csv格式。对于获取到的数据如何用Excel读写,数据导入、导出后如何存储,以什么格式、编码存储数据等问题,都是在这一步骤中需要学习和解决的。
(3)数据处理
处理数据是整个数据分析流程中花费时间最长的一步,同时也是最重要的一步。如果前期数据都处理不好,后期又如何分析呢?数据处理的一般步骤如下:
1)明确字段:拿到数据后,首先要明确数据中各个字段的含义,思考这个字段是如何得到的。如果是企业内部数据库中的数据,则要明确负责维护这个字段的人是谁,最好能和他/她沟通一下取数逻辑和字段的含义。要注意观察每个字段的数据类型,有的是小数、整数,还有的是字符、日期,要注意区分开来。如果是数值型字段,要观察它是如何表示的,有无单位,如流量的单位是MB/s,利润的单位是元(有些还可能是万元)。还有些字符型的字段被表示成了数值型,如“是”和“否”、“男”和“女”这种字符型的字段,为了表达方便有时会以1和0来表示。如果字段当中出现空值,要明确这个空值是什么意思,是人为错漏还是本身就为空。这些都是在明确字段这一步骤需要注意的,这些工作很基础,也很重要。
2)规范化:要对数据进行规范化处理,例如数值型的数据就不要以字符型显示,日期类型的数据要统一格式,让数据变成我们希望看到的样子,如避免合并单元格、避免插入空行等,以及数据类型间的转换,如文本转数字和数字转文本等。
3)清洗数据:就是要清洗掉“脏”数据,保留有价值的数据。这一步骤包括对重复值、缺失值、异常值及不规范数据的识别和处理。要能够找到重复值、缺失值、异常值和不规范的数据值,并知道这些值该如何处理,是直接删除还是寻找替代值。用Excel里的很多功能都可以定位重复/缺失/异常值,如函数、条件格式、数据透视表和高级筛选等,不同的功能有不同的效果,适用于不同的场合。
4)抽取:指对个别值的查找引用和对字段的拆分。合并字段是简单的,拆分却困难得多,因此,在数据处理环节就将字段处理为最简单的状态是最好的。
5)合并:数据的获取可能会有多个渠道,因此会有多个数据源表。当数据清洗过后,就需要对两张或多张表进行关联,这就是数据的合并。对于纵向的字段进行横向连接,对于横向的字段进行纵向连接,考察的是Excel函数运用的能力。
6)计算:数据计算包括字段间的计算和数据标准化的操作。字段计算包括简单的对数据进行加、减、乘、除的计算,还有复杂一些的运用函数进行的求和、累加和逻辑运算等,这里面涉及很多Excel函数的操作。而数据标准化则是数据规范化的加强版,,如将不同单位的数据全部缩放在0和1之间,这样便可以进行比较了。
(4)分析数据
先要明确怎么分析,接着才是用什么工具来分析。
怎么分析呢?有很多分析的模型、思路和方法可供参考。其实这一步和流程当中的第一步“明确目的和思路”有些相似,只不过此处就要确定从哪几个方面来分析,并具体到每一步应如何分析。
从大的框架来说,可以多阅读企业(例如极光、艾瑞等)公开的数据分析报告,学习别人是如何分析一个问题的。细说开来,常用的数据分析模型,如SWOT、PEST、5W2H、逻辑树等模型,在做宏观分析、背景调查时很管用;思路方面,如对比、平均、交叉、分组、综合指标、RFM分析等数据分析的思路是运用较多的。我们每时每刻都会用到思路,重点在于分析问题的时候能不能想到这个思路。
至于分析的工具,在Excel中首推数据透视表。数据透视表是对量大、规范、需要汇总且需随时变更的数据进行操作的“利器”。数据透视表入门很简单,但要对其进行编辑和计算就是另一回事了,如切片器的功能、透视表函数的功能等;更进一步地,还可以将SQL语句写入数据透视表中,从而避免了做辅助列,并能更快速地筛选、查询、透视数据。数据透视表的意义不仅体现在本身功能强大上,若对透视表理解透彻了,还能方便我们学习SQL、Python等其他数据分析工具。
除了数据透视表,还有哪些分析工具呢?分类汇总、排序筛选及分析工具库都是Excel中用来分析数据的工具,能够帮助我们把数据分析透彻、理解到位。
(5)展示数据
分析过后,还需要将分析的结果展示出来。分析是数据分析师自己理解的过程,而展示是告诉别人你分析了什么。分析结果可视化同分析一样重要,甚至比分析还重要。
用Excel进行可视化,无非就是对几个基本的图表和一堆以基本图表为基础的变体图表的使用,了解什么样的数据需要哪种类型的图表,并在会用的基础上,学习图表美化的技巧,如怎么搭配颜色可使图表更美观、怎么做出“别人家”报告中那样高大上的图表。Excel动态交互图表功能可以帮助我们进行多元可视化展示,以及是如何实现的。数据分析切忌重分析、轻展示。