市面上有海量的有关数据分析的课程,但数据分析师的工作究竟是什么样的,谁也没说清。刚刚我看谷歌的首席决策分析师卡西-科泽尔科夫(Cassie Kozyrkov)的专栏讲专业数据分析师与爱好者的差别,觉得这系列文章特别有价值,我突然明白了为什么好的数据分析师不可取代,他们又为什么被评定为“好”。希望也能给大家带来一定的灵感。
语境让数据有意义
看到这样一个矩阵,你心里是什么感觉?感觉烦躁到想直接关掉这个页面?或者大吼:“只有程序员才会喜欢看这么无聊的玩意儿!”事实上,程序员也不爱看这玩意儿。这段数据对谁来说都没有意义。但是,它可以变得有趣,你需要语境。语境可以分为两大类:
1.使这些数字有用的上下文。
2.使这些数字变得熟悉的背景。
第一类是把你的需求和数据连接起来得具体问题,也就是增加与数据互动的好处。如果我告诉你这组数字里,包含着你想要的答案,比如一个免费冰箱的兑换码,你可能会觉得它变得面目亲切起来了。
第二类是减少你的使用成本。即使它真的很枯燥,但我们可以让它变得更容易接受一些。比如我们用一些超级机密的,博士专用图像处理软件来绘制它来试试吧......
没错,在MS Paint的帮助下,我们了解到这个数据集只是作者家木地板的照片。通过使用软件,我们降低了与这个数据集互动的成本——我们看懂它,就像观看一张照片一样简单。更重要的是,你已经在做一个数据分析师做的事了。刚刚我们做的是,在专业术语里叫做“数据可视化”,它是数据分析师核心技能的一部分。除此之外还有数据转换(比如把相册里前任的照片裁剪掉)和数据总结(比如抱怨他一下午给你拍了300张照片,一张都不能看的)。
你有资格成为数据分析师
我想如果有人对你说你不够资格,你已经能无视这条建议了。
可能你会想,我把抽象的数据转化成照片,这样算作弊吗?其实电子照片是合规的数据集——它们以一种对你的大脑不友好的形式存储,但如果用正确的工具进行分析,就会充满意义。你早在你没意识到的时候就已经在做数据分析师在做的工作了,比如你在网上搜索感兴趣的话题、用地图寻找目的地、查询未来的天气……
你毫无障碍地使用这些工具,因为你早就学到了如何使用数据处理软件。从美图秀秀到百度地图,再到网易云音乐,所有的这些都是分析软件。现代世界充满了奇迹,而你已经是它的一部分了。
那么这是否意味着,你已经准备好做个专业的数据分析师了?当然,你还需要一些准备,下面我会介绍业余分析师和专业分析师之间的差别。
区别#1:软件技能
与大多数业余爱好者不同,专业人员知道如何使用软件(如Python和R),使他们能分析更多种格式的数据。MS Paint只适用于图像,但其他分析软件可以处理图像、表格、声音、文本和……以及厨房水槽。
下面是用Python打开同一张图片时的情况。
这是用R查看的同一张图片。
区别#2:轻松处理大量数据
第二个区别是,专业人员可以处理数量惊人的数据。即使我已经玩了二十多年的数据,我仍然喜欢在浏览器甚至MS Paint中打开一张照片,而不是在R或Python中。那么,除了能够打开很多不同数据类型的灵活性,学习分析专业工具的卖点是什么呢?好吧,如果你想让一百万张照片变得有意义呢?
你可以尝试用MS Paint来理解它们,但以每张图片1秒钟的速度,即使你把这当做一项全职工作,那也要至少花费一个月。但专业人士可以再几分钟内解决这个问题,也就是使用代码来处理和总结大量的数据。
前面提到的R和Python都是免费的。如果你想要开始学习,在网络搜索一下你想实现的结果,就可以开始学习。说真的,你不需报班。你只需挑战自己,在你打开数据后,想出一个让你心动的问题,并尝试使用工具来获得答案。从小事做起,随着时间的推移,你会变得更加雄心勃勃。没有什么能阻止你。玩得开心点!
区别#3:对数据科学偏见的免疫力
在我看来,学习工具是容易的部分。困难的部分是采用分析心态,这也是接下来的差异的全部内容。有人觉得一个热爱数学的人会在数据科学里得到奖赏,但事实上两个人可以使用相同的数据,得出不同但完全有效的统计结论。数据科学不会复现数学的纯粹性,在数据科学里,你得到的不是正确答案,充其量是其中一个正确答案。
统计学先驱之一爱德华兹-戴明(W. Edwards Deming)有句名言:“没有数据支持时,你就是一个有偏见的人。”但不幸的是,“即使有了数据支持,你依旧是一个有偏见的人。”特别是当你的假设掩盖了现实。
在实践中,最常见的错误之一便是对可疑的数据进行细致的分析。即使你有一个充满详细数字的表格,也不能保证你能从得出任何有用的信息。宇宙并不会因为你掌握了一些数字,就欠你一个坚实的结论。和没有结论比起来,被数据打扮成证据的观点更有杀伤力。
数据科学是一门让数据变得有用的学科。它的三个子领域涉及挖掘大量信息以获得灵感(分析),根据有限的信息做出明智的决定(统计),以及利用数据中的模式来自动完成任务(机器学习/人工智能)。所有的数据科学都可以归结为:信息就是力量。
新手会觉得强调“数据”可以体现权威性,但更多专业人士对此敬而远之,因为他们知道数据只是一些人类决定以电子形式写下来的东西。有的人在一些故事里撒上一些数字,让它显得更加“科学”。这样会应得一些业余爱好者的信任,但专家们明白:数据的优势在于记忆,而不是质量,所以他们对数据集持怀疑态度。
想要步入专业队列,你也需要建立同样的免疫力,不要再把数据当做高大上的东西。就像你看到一张照片时可能怀疑是P的。将数据等同于真理,就等于你在了解作者背景前,就相信文中的每一句话。如果你能保持清醒的头脑,并保持健康的怀疑态度,你就能很好地掌握良好的分析方法。
区别#4:了解这个职业
与大多数爱好者不同,专业的数据分析师是主动选择这个职业的,作为对比的是很多人在外因下选择了自己的职业。数据分析是一门很有门槛的专业,早在他们成为职业分析师之前,他们就已经规划了自己的出路。太多有关“分析师”的工作内容描述,让人觉得工具是工作中最重要的部分。其实不然。
专业的分析师明白,不是你的工作头衔让你成为分析师,也不是你使用的工具和技术。市场上有很多课程贩卖焦虑,说你必须转行做数据分析师才能有出路,但他们的课程里只剩下教你怎么使用工具。工具并不代表专业。重要的是你用它们做什么。
正如前面所言,数据科学有三个子分类,他们使用着同样的工具和公式,但他们使用它们的方式有着天壤之别。你永远不会听到一个专业分析师说统计意味着围绕统计方法,如回归分析或t检验。
区别#5:拒绝做数据骗子
专业分析师明白,他们靠着探索和灵感方面的专长,才成为的分析师。而让他们辱没专业头衔的方法即是在不了解原因的情况下,通过泛泛的分析和统计来赚取快钱。专业人士称之为“数据骗子”。
数据骗子的第一个特征是,不理解分析和统计是非常不同的学科。分析帮助你形成假设,提高问题的质量。统计学帮助你测试假设,提高你答案的质量。没有规定说你不能同时学习这样两个学科,但前提是你不能把它们搞混。当专业分析师对这两方面都很熟练时,他们知道什么时候该摘下分析师的帽子,戴上统计师的头衔。
区别#6:抵制确认性偏见
确认性偏见意味着我们都可以看到同一个数字,并对其有不同的看法。即使你接触到与你的观点不一致的信息,你也可能不接受它;你可能会记错它;你可能会找到一个理由来忽略它;你会继续挖掘,直到你看到的数字是你想看到的。人心就是这么有趣。
换句话说,确认偏差是数据驱动决策的克星,因为它意味着一个事实不再只是一个事实,无论你用多少数据和科学来立住它。许多人只是利用数据来为他们已经做出的决定感到更满意。专业分析师对自己有更高的要求。
蝙蝠?蝴蝶?还是只是一块墨迹?这是罗夏-心理投射测试中十张卡片的第一张,创建于1921年。
当你保持开放的心态,确认性偏见就很难扎根。虽然业余爱好者以在他们的数据中挖掘出一个强有力的、令人信服的故事为荣,但专家级的分析师们对此太犀利了。他们知道,复杂的数据集本质上是罗夏克测试——对数据集进行切分的方法越多,它们实际上就越能让你在其中找到虚假的意义。这就是为什么专家分析师已经学会了保持谦逊、怀疑主义和强烈的好奇心的融合。他们太擅长分析数据了,所以不会轻易下结论。
专家级分析师从从折磨数据发现故事,再推销给你。相反,他们在谈论他们的发现时,会使用软化的语言,而且他们对每件事都有多种解释。如果你怀疑某位分析大师的水平,你可以让他们为你解释一些数据。他们产生多种解释的速度越快,产生的替代方案越多,他们就越专业。如果他们只停留在一个解释上,他们仍然处于业余阶段。
区别#7:对数据的现实预期
如果你是一个专业的分析师,你会知道数据并不欠你什么。可能花费了时间和心力,却什么也得不出来。不幸的是,如果你曾经上过与数据有关的课程,你可能被灌输了相反的观点。学生们期待每一次对数据的分析,都能产生有意义的结论,就像每一次作业都埋藏着宝藏。
很少有教授会布置开放性的作业,让你自己准备数据。所以当你作为学生时,没有足够多的机会去接触更现实的情况。优秀的老师希望你对数据职业感到兴奋,所以他们会付出额外的努力,为你寻找有趣的数据来分析。
作者在前面展示了一个数据集,分析之后得出是作者无聊的木地板的照片。当然作者可以提供其他数据集,并且会显得更有吸引力,但她决定用这种方式提醒你:对数据的探索并不总能来带真理。有时候结论有意义,有时候没意义,这就是工作的一部分。专业人士从痛苦中领悟:数据并不欠你什么,甚至不为你的辛劳提供体面的解释。
更糟糕的是,分析师的工作性质意味着你更有可能被要求探索二级数据——也叫继承数据——而不是一级数据。如果你直接从现实世界中收集观察结果,你就在使用原始数据。换句话说,你可以控制这些测量结果的记录和存储方式。相反,继承的(二级)数据是指你从别人那里获得的数据。
统计学家和机器学习工程师,之所以能享受到使用定制的初级数据集的幸福,是因为分析师已经做了探索性的工作,弄清楚哪些问题值得创建数据。为了让点击数据科学的投资有回报,组织要么需要确定你已经有了正确的问题,要么你需要一个宽而浅的方法来寻找一个问题。这正是分析学的作用。
分析师是如何做到这一点的?通过在各种混乱的数据中漫游。这些数据的设计并没有考虑到他们的需求。专业分析师经常发现自己在与老旧数据、记录不全的公共数据、混乱的供应商数据、错误百出的表格、他们的老板收集的名称为temp1.xlsx的邪恶电子表格以及混合数据作斗争。
当然,分析师也分析原始数据。他们当然会这样做。但这并不占用他们的时间。如果你自己做了数据,分析它就会快得多,因为你知道大约要从它那里得到什么……这意味着不久之后你就可以自由地回到分析二级数据的混乱中去了。这就是为什么分析师的大部分时间可能是花在继承的数据上。
虽然所有的数据专业人员都知道,坏的数据不会带来好的结果——垃圾进垃圾出(GIGO)——但分析师们痛苦地意识到,你往往需要从坏的数据开始,以弄清如何制造更好的数据。专业人士知道:一个充满数字的电子表格,并不能保证你能从中得到任何有用的东西。但他们会站出来,帮助你设计一个方法,以便下次做得更好。
区别#8 - 知道如何增加价值
人们一直把“了解业务”作为分析师职责的一部分,但很少有人明确解释这与他们的价值有什么关系。分析是为决策服务的,但它是一个独立的职位。
在一个典型的分析学101课程中会发生什么?你通常会学习一些分析软件的基础知识(用R-Python-SQL-SAS-Stata-MATLAB-BigQuery-Tableau-Excel-Looker-Whatever),如何将数据加载到该软件中,以及如何进行可视化总结。但这样的通常缺少一个关键的组成部分——与决策者的关系。
教数据新闻学比较容易,所以你更容易听到强调讲故事的发言。能够讲故事是分析师需要具备的技能,但他们的工作是另一回事。数据分析不是营销。其中区别在于,一个是扩大决策者的视野,而另一个则是缩小视野。
作为一名数据分析师,我不应该向你推销任何东西。我是来做你的眼睛,并尽可能在每分钟内为你获得更多的灵感。你之所以需要一个分析师,首先是因为你没有时间去打探数据,但你仍然希望成为发号施令的人。在这种情况下,我可能比你有更多的领域专业知识......但这并不一定意味着你会同意我为你做决策。你雇用我是为了让你开阔眼界,我有责任尊重这一点。这就是数据分析与决策和营销的区别所在。
如果我采取营销或讲故事的方法,我就会让你眼花缭乱,使你对可能性空间的看法变得贫乏。一个好的分析师则恰恰相反,他能让你迅速接触到丰富多样的观点。理想情况下,有时候你会“不知道自己不知道”,而我会帮助你吸收所有你会寻找的信息。
世界里有大量的信息,分析师的工作就是找到这些信息,对其进行检查,并为你进行过滤,然后让你尽可能快地吸收更多的最有潜力的东西。无论我使用R、SQL、C++、图书管理员还是搜索引擎来浮现信息,这都是分析工具,只是达到目的的一种手段。如果你对数据的概念仅限于电子表格和数据库,那么你的思维就不够广泛。
一个专业的分析师是认真对待速度的美德的。这不仅仅是在查找东西时有很高的手速,并且应该努力不浪费你的时间。面对无穷的选择,我会为你切分和呈现数据。我对数据和你的需求了解得越多,我就越能帮助你吸收和理解什么是可行的,这样你就能迅速得到启发。作为一个分析师,我在这里不是为了把你引向我的意见。我是来帮助你形成你自己的观点。
我见过新手分析师,因面对海量的选择而感到恐慌。他们在数据中打探,但没有发现任何看起来像明显的宝石的东西。于是他们把数据绘制得尽可能漂亮,用曲折的故事来弥补。这并不能解决根本问题。不要试图擦亮一块垃圾!这是一种浪费。
书归前文,分析师为他们的决策者服务;决策者为他们的业务服务。作为一个决策者,定义如何增加价值,设定优先级,并抓住机会优化业务是你的直接责任。而分析师会在决策者没有时间自己处理、探索和总结所有可能有用的信息时出现。换句话说,分析师就像决策者的一种感觉器官。决策者的工作是将信息转化为更好的行动,如果他们不能获得很多信息,这就没有希望。这就是分析师存在的意义。
要成为有价值的人,分析师必须学会有效地为他们的决策者服务。分析师为决策者服务的一个基本方式是作为他们的搜索引擎。决策者想知道一些关于业务的事实,你就为他们查找。这是反应式分析,我们倾向于认为这是分析学中的初级工作——专家的工作是主动的:它是关于从数据中提取灵感的。分析师在模糊性中茁壮成长。他们的天赋是探索,这使他们特别擅长预见和应对危机。
分析师能做出的最有价值的贡献,是激发决策者考虑他们不知道需要考虑的行动方案。换句话说,成功地猎取值得了解的未知的未知因素。努力成为真正的创新者的商业领袖会投资于分析师。在好的时候,我们称这种工作为“推动创新” 和“寻找新的机会来利用”。当情况变得艰难时,我们开始谈论“识别威胁”和 “防患于未然”。在困难时期,看似不错的创新助推器变成了必须的安全网,但两者都是一枚硬币的两面。
如果你不了解决策者如何使用信息来选择他们的行动,你就不能产生一个可操作的洞察力。虽然从技术上讲,洞察力的可操作性不是分析员的责任,而是决策者的责任,但在实践中,随着时间的推移,这个界限变得模糊不清。这就是为什么在三种数据科学专业人员中,分析师是最有可能继承决策宝座的人。
总结这一点,业余爱好者往往忽略了分析学的意义,对其价值的来源缺乏连贯的理解。专业的分析人员是这样理解的:
如果你是一个决策者的混合体,你的价值是由你的决策质量和你采取的行动来判断的。你的分析技能是实现这一目的的手段——分析只是你的武器库中的众多武器之一。
如果你是一个纯粹的分析师,你的价值与你为决策者服务的能力息息相关,包括反应性的(通过查找数据来回答他们的具体问题)和主动性的(通过探索数据来激发他们考虑新的方向,使他们更具创新性和防备威胁)。除了决策者的需求和优先事项之外,从任何地方开始都必然会使你误入歧途。
(后面作者还没更新,等她更新了我再翻译出来)