副标题:预期急着去雇用新的数据科学家,不如考虑下培训你原来的数据科学家。
译者注:挑选这篇文章做翻译,其实也是看中里边关注到的:传统数据分析向新型数据分析转变所需要关注的点(包括认知和知识储备上)。然而只是泛谈并没有实际操作啊~原文作者是大数据科学家培训师,这篇文章就是他的培训班宣传文字~Anyway,看看也好。
大数据和数据科学很流行,以至于我们常常忘记在它变得时髦之前是有大量的专业分析数据作为铺垫的。
这被认为是分析1.0和分析2.0的分水岭——数据分析师、金融分析师、统计分析师、精算师这种传统角色所做的是分析1.0,而分析2.0以数据科学家和大数据为特点。很多吵着要招聘数据科学天赋者的公司开始意识到有潜力的数据分析所带来的财富就在他们指尖——只消一些训练,有天赋的分析师就能成为数据科学家。换句话说,分析1.0和2.0之间并非你想象中那么远。
分析1.0专家来自很多行业,包括财务、健康、政府和科技。但他们都有围绕科学计算和统计相关的相同的核心技能,他们成为加以训练后追上数据科学家的理想候选人。除了具有数据科学技能,这些受雇者还更理解行业需求——可谓是老司机。当然,这些优势也是他们的挑战,根据我的经验,这三个主要挑战是:学习新的计算机技术,新的统计技术和新的思维模式。接下来我们逐个谈论。
学习新的计算机技术
分析2.0是由绝对数量和数据多样的可用性来定义的。数据科学家需要过硬的计算机技能以处理不断增长的数据体量和计算复杂度。这重要的新技能是并行计算和分布式计算——分解从计算机网络下载的大量信息。但是成功地促进并行需要理解:对于是否能并行计算的任务,怎样把分配计算机资源或强加限制。处理绝对规模数据是分析2.0的必要部分。
数据类型的多样化也是个主要挑战。数据1.0利用了数据集的规整、结构化和单向来源。相反,数据2.0是关注于数据集的混乱、非结构化、多向来源并且需要从业者能利用良好的软件工程能力去清洗、结构化并整合多来源数据。
学习新的统计分析技术
没经验的人经常对大数据有误解,说大数据就是基于很多数据做相同的分析。这在两个方面有误:
首先,相对大量的数据允许我们去启用对小量数据集无用的更强大的技术。理解高度微妙的客户偏好相对狭窄段是完全建立在足够数据之上的,这能完整统计到对小客户群的细微影响因素。
对小数据集使用深度神经网络是个灾难(虽然也难以避免经理要求这么做)。
其次,即使你还在运行相同的分析算法,数据的绝对规模也使你面临新的挑战。如果你不能把数据都塞进你的笔记本,你怎样求平均?如果要花掉24小时分析24小时不间断的数据,你怎样分析?在多台机器上进行平行计算是很昂贵的,并且只在特定情况下起作用。理解怎样在统计严密性和计算灵活性之间做合适的折衷是加入分析2.0的必须技能。
最后,跟分析1.0相反,很多新型分析2.0数据源收集后不是在手头分析的。数据分析副产品需要对数据的偏见有良好意识,这是数据科学家需要增加他们的数据知识的原因之一。
学习新的思维模式
技能之外,分析2.0需要全新的思维转换。分析1.0致力于搜集规整的数据以便着手分析。分析2.0围绕在挖掘表面上无尽繁琐的为第三方搜集的数据上,更常是为其他机构,并为你所在组织的新用户。比如,制药行业被迫从临床有效推到现实世界,跳出实验室。市场依赖于网络行为数据,实体零售商拥抱移动用户的定位数据来根据位置预测需求;农业利用卫星图片来获取土壤质量和作物产量信息———这些都只是分析2.0冰山的一角,但这也需要完全不一样的技能。
不像在同一类型数据上进行同一类的分析,新的分析专家必须探索与众不同的数据集并提升他们的创新力以赶上这些新的实用案例需求。他们不仅决定答案——他们还得决定问题。
原标题:Leveraging analytics 1.0 for the analytics 2.0 revolution
原作者:Michael Li
原文链接:https://www.oreilly.com/ideas/leveraging-analytics-1-0-for-the-analytics-2-0-revolution