大数据课程网上有很多资料,小编整理了一些有关数据分析师的一些基本工作内容,同时推荐了一份择业指南,科多大数据和你一起来看看吧。
大数据课堂:数据分析师都干啥
数据分析师,简单切词为“数据”,“分析”,“师”。因此,获取必要的数据,分析这些数据,然后从数据中发现一些问题提出自己的想法,这就是一个数据分析师的基本工作内容。
自己做了数据分析师,真的觉得古语说的对,“功夫在诗外”。一名好的数据分析师,接到一个需求时,会更多考虑这个需求本身,包括要做的东西是什么,为什么这么做,还可以怎么做,怎么去做,关键点是什么。都想清楚了,才去动手做。建议任何一名数据分析人员,都能在做以前把问题想清楚,确认清楚,不要等到做完才发现自己做错了,那样会很浪费时间。自己这方面曾犯过N多错误。
下面简单谈下做一名数据分析师要经历的几个步骤:
(1)获取数据
获取相关的数据,是数据分析的前提。每个企业,都有自己的一套存储机制。比如淘宝,所有的数据都在HADOOP上,很多数据都要经过HADOOP,hive来获取。因此,基础的SQL语言是必须的。具备基本SQL基础,再学习下HIVE的细节的语法,基本就可以通过HIVE拿到很多数据了。每个需求明确以后,都要根据需要,把相关的数据获取到,做基础数据。
(2)数据处理
获取数据,把数据处理成自己想要的东西,是一个关键点。很多时候,有了数据不是完成,而是分析的开始。数据分析师最重要的工作就是把数据根据需求处理好,只有数据跟需求结合起来,才能发挥数据的价值,看到需求的问题和本质所在。如果连数据都没处理好,何谈从数据中发现问题呢?
对于数据的处理,有两种形式:
a>如果初步提取的数据是在LINUX上,建议学一门脚本语言,比如AWK,或者PYTHON。如果掌握一门脚本语言,不仅可以在LINUX系统上写很多自动脚本来运行,会大大节省自己的时间,而且可以通过脚本语言把基础数据处理成自己想要的任何形式,直接可以使用。
b>如果数据没有在LINUX上,那可以download,然后通过其他统计软件来处理。个人推荐SAS或者R语言。SAS的强大,不必多说。没有SAS解决不了的问题,而且SAS也有SQL,处理起来也方便。R语言最近也很火,而且免费,packages越来越多,画图也简单,类似Matlab。如果前期数据处理的好,后续只需要通过R或者SAS画一些图就可以了。在数据分析师的世界,按照价值排序,图>表>文字。
大数据研究常用软件工具与应用场景
如今,大数据日益成为研究行业的重要研究目标。面对其高数据量、多维度与异构化的特点,以及分析方法思路的扩展,传统统计工具已经难以应对。
工欲善其事,必先利其器。众多新的软件分析工具作为深入大数据洞察研究的重要助力,也成为数据科学家所必须掌握的知识技能。
然而,现实情况的复杂性决定了并不存在解决一切问题的终极工具。实际研究过程中,需要根据实际情况灵活选择最合适的工具(甚至多种工具组合使用),才能更好的完成研究探索。
为此,本文针对研究人员(非技术人员)的实际情况,介绍当前大数据研究涉及的一些主要工具软件(因为相关软件众多,只介绍常用的),并进一步阐述其应用特点和适合的场景,以便于研究人员能有的放矢的学习和使用。
【基础篇】
传统分析/商业统计
Excel、SPSS、SAS 这三者对于研究人员而言并不陌生。
◆ Excel 作为电子表格软件,适合简单统计(分组/求和等)需求,由于其方便好用,功能也能满足很多场景需要,所以实际成为研究人员最常用的软件工具。其缺点在于功能单一,且可处理数据规模小(这一点让很多研究人员尤为头疼)。这两年Excel在大数据方面(如地理可视化和网络关系分析)上也作出了一些增强,但应用能力有限。
SPSS(SPSS Statistics)和SAS作为商业统计软件,提供研究常用的经典统计分析(如回归、方差、因子、多变量分析等)处理。
◆ SPSS 轻量、易于使用,但功能相对较少,适合常规基本统计分析
◆ SAS 功能丰富而强大(包括绘图能力),且支持编程扩展其分析能力,适合复杂与高要求的统计性分析。
上述三个软件在面对大数据环境出现了各种不适,具体不再赘述。但这并不代表其没有使用价值。如果使用传统研究方法论分析大数据时,海量原始数据资源经过前期处理(如降维和统计汇总等)得到的中间研究结果,就很适合使用它们进行进一步研究。
数据行业从业者到底能挣多少钱
随着大数据时代的到来,数据分析与探勘成为科技显学,各行各业对于大数据的浓厚兴趣也直接反映在大数据人才的丰厚薪资中。
根据美国大数据及商业智能软体公司 SiSense 调查研究指出1,资讯分析相关人才起薪约为年薪 5.5 万美元,换句话说,相较美国大学毕业生平均年薪为 4.76 万美元,高出 7400 美元,而最高薪的数据科学家,平均年薪为 13.2 万美元,打败一大票科技公司的高阶工程师,而且这个差距还在继续拉大中。
以下根据 Payscale 所提供的职位基本年薪做参考,为大家整理了四个最常见的大数据人才工作内容以及薪资范围。
数据分析师
这个职位大概是最常见的,「数据分析师」指的是不同行业中,专门从事行业内数据蒐集、整理、分析,并依据这些数据做出研究、评估的专业人员。
这类职缺通常要求应徵者有数学、统计、或是电脑科学等的相关学位跟背景,最常见的工作技能要求是 SQL、R、SAS、SPSS、Excel,以及随着需要处理的数据量日渐庞大,Hadoop 也被许多公司列为必备的基本条件之一。
美国地区数据科学家的年薪大约在 $36,139 到 $77,696 美元之间(约等于年薪台币 110 万到 240 万),中间值大约是 $51,224 美元(台币 160 万)。拥有统计分析、数据建模(Data modeling)以及 SAS 等技能的应徵者一般来说更有机会得到高薪。
数据科学家
被《哈佛商业评论》誉为「21 世纪最性感工作」的数据科学家可以说是数据分析师的进化版。
两者的分别可以从职称的不同看出端倪:数据「分析师」统计分析数据作为评估基准来设计行销方案时,数据「科学家」则是把心力放在设计分析数据的演算法,提出不同的理论来测试这些结论,最后建立统计模型来判断消费者行为、找出最关键的行为诱发因子。
因此数据科学家需要具备程式开发的能力,例如 Java 或 Python,而且对机器学习(Machine Learning)领域有所了解。
美国地区的数据科学家年薪大约落在 $63,192 到 $142,118 美元间,中间值是 $96,579 美元,几乎是数据分析师的两倍。
数据架构师
数据架构师要负责建立和维持公司数据储存的技术基准,策划硬体和软体的结构,确保数据储存系统可以支持未来的数据量和分析需求。
数据架构师通常拥有电脑科学学位,并且精通数据库相关知识,像是关联式数据库(Relational database)、数据仓储(Data warehouse)、以及分散式数据系统(Distributed storage system)等等。
美国地区数据架构师的薪资范围是 $65,928 到 $147,868 美元,中间值为 $105,581 美元,以目前的趋势来看,比起 SQL ,擅长 OracleDB 的人才较容易得到高薪。
数据分析师的择业指南
数据分析师这个职业现在越来越火爆。本文面向那些准备投身于这个行当的年轻人,在选择怎样的公司上给出了三条参考标准。它们分别是:第一点:去供职于那些利用数据分析来做市场战略定位的公司;第二点:去为一个拥有着伟大想法的公司工作;第三点,去选择给一家即将进入空白市场的公司
现在确实是属于数据分析师的天下了。如果你有能力,有经验,充满好奇心以及永不倦怠的热情,作为数据分析师的你可谓前景广阔,有一大批公司乖乖站在你家门前挂着牌子等着你的挑选。但是在评估到底去哪家公司的平台上施展你的才华的时候,却是有着很多考量的。即便是一个从业多年的老手也不可能在各种大小规模不一,发展阶段不同,拥有各自的企业文化的公司待过。他们也不可能横跨多个领域,掌握多种技术。但是,在本文中却给出所有有志于从事数据分析师这个职业的年轻人一些经验。大体上总结一下就三点内容,凭借这三点内容,你可以非常理性、客观地分析出来眼前的这家公司到底是否值得去。
第一点:去供职于那些利用数据分析来做市场战略定位的公司
公司想要在市场上拥有特殊的竞争优势,从而实现与众不同的市场地位,其实途径方法都有很多种。有一些利用价格来区分自己,比如靠低价来获取市场竞争优势;还有一些公司愿意通过更加优质的产品来达到鹤立鸡群的效果;更有一些人通过订单处理进程的快慢赢得顾客的认可与忠诚,更快的配送上门服务就是很好的例证。
一个数据分析师应该选的这家公司,应该凭借数据学来做到自己与其他竞争对手之间的「切割」。请注意,有可能数据学可以用来支持更低的价格,更优质的产品,更快的配送速度,但是它绝对不是实现这些优势的主要原因。直接,且主要的原因通常情况下是规模经济造成了更低的价格,专利和品牌带来了更加优质的产品,自动化的技术使得配送速度提升。如果公司核心竞争力是构建在数据和分析工具上,那么它会迅速跟其他竞争者拉开几个身位。
一旦这种优势得以建立,整个公司都会瞄准数据学发力,所有的资源都是围绕着数据分析投入。它会更加愿意投资,获得数据领域最顶尖的人才,打造最优秀的底层系统,不断地将最前沿的算法和计算技术推向极致,开发各种不可思议的工程产品来展现数据学的魔力。
在做市场上战略区分的时候,「足够好」这个词是绝对不能出现的。公司和数据分析师双方都应有着足够强烈的意愿,推动技术再往前发展一点点,永无止境地去摸索极限,并愿意承担更多的风险。你每天早上起床睁眼的时候,你一想到这个公司,就能兴奋的一个鲤鱼打挺立刻翻身下床,精神抖擞,迫不及待的开展全新一天的工作,它是一个能够拉动提升你,让你成为这个世界最优秀人才的平台。