最近看了秦路关于数据分析学习的文章,感觉很实用,整理总结一下,供大家参考。
一、Excel学习掌握
Excel函数不需要学全,重要的是学会搜索。掌握vlookup和数据透视表足够,是最具性价比的两个技巧。
学会vlookup,SQL中的join,Python中的merge很容易理解。
学会数据透视表,SQL中的group,Python中的pivot_table也是同理。
了解函数和参数,当进阶为编程型的数据分析师时,会让你更快的掌握。
二、数据可视化
数据可视化是数据分析的主要方向之一。数据分析的最终都是要表达自己的观点和结论的。表达的最好方式就是做出观点清晰数据详实的PPT。
首先要了解常用的图表:
其次掌握BI,下图是微软的BI。
BI(商业智能)和图表的区别在于BI擅长交互和报表,更擅长解释已经发生和正在发生的数据。
最后需要学习可视化和信息图的制作。
这是最终展现出的成果,虽然更多的是美工,但是学好了绝对比其他人有更大的优势,值得花一点时间去学习。
数据可视化的学习就是三个过程,了解数据(图表),整合数据(BI),展示数据(信息化)。
三、分析思维的训练
好的数据分析首先要有结构化的思维,思维导图是必备的工具。
之后再了解SMART、5W2H、SWOT、4P理论、六顶思考帽等框架。
优秀的数据分析师会拷问别人的数据,而他本身的分析也是经得起拷问,这就是分析思维能力。
四、数据库学习
Excel对十万条以内的数据处理起来没有问题,但是产品只要有一点规模,数据都是百万起。这时候就需要学习数据库。
SQL是数据分析的核心技能之一。
主要了解where,group by,order by,having,like,count,sum,min,max,distinct,if,join,left join,limit,and和or的逻辑,时间转换函数等。如果想要跟进一步,可以学习row_number,substr,convert,contact等。再有点追求,就去了解Explain优化,了解SQL的工作原理,了解数据类型,了解IO。
五、统计知识学习
统计知识是数据分析的基础。我们需要掌握描述性统计,包括均值、中位数、标准差、方差、概率、假设检验、显著性、总体和抽样等概念。不需要学习更高阶的统计知识。
六、业务知识(用户行为、产品、运营)
对于数据分析师来说,业务的了解比数据方法论更重要。对业务市场的了解是数据分析在工作经验上最大的优势之一。在互联网行业,有几个宽泛的业务数据需要了解。
产品数据分析,以经典的AAARR框架学习,了解活跃留存的指标和概念。并且数据分析师需要知道如何用SQL计算。因为在实际的分析过程中,留存只是一个指标,通过userId 关联和拆分才是常见的分析策略。
网站数据分析,可以抽象出一个哲学问题:用户从哪里来(SEO/SEM),用户到哪里去(访问路径),用户是谁(用户画像/用户行为路径)。
用户数据分析,这是数据化运营的一种应用。在产品早期,可以通过埋点计算转化率,利用AB测试达到快速迭代的目的,在积累到用户量的后期,利用埋点去分析用户行为,并且以此建立用户分层用户画像等。
除了业务知识,业务层面的沟通也很重要。良好的业务沟通能力是数据分析的基础能力。
七、Python/R 学习
是否具备编程能力,是初级数据分析和高级数据分析的风水岭。数据挖掘,爬虫,可视化报表都需要用到编程能力。
R的优点是统计学家编写的,缺点也是统计学家编写。如果是各类统计函数的调用,绘图,分析的前验性论证,R无疑有优势。但是大数据量的处理力有不逮,学习曲线比较陡峭。
Python则是万能的胶水语言,适用性强,可以将各类分析的过程脚本化。
学习R,需要了解数据结构(matrix,array,data.frame,list等)、数据读取,图形绘制( ggplot2)、数据操作、统计函数(mean,median,sd,var,scale等)。
学习Python有很多分支,我们专注数据分析这块。需要了解调用包、函数、数据类型(list,tuple,dict),条件判断,迭代等。高阶的Numpy和Pandas在有精力的情况下涉及。
把上面七项巩固和融会贯通,就是数据分析的开始。