外面有成千上万的大数据工具。它们都承诺可以为你节省时间和资金,并帮助发掘之前从来见过的业务洞察力。虽然确实如此,可是面对那么多的选择,想理清这么多的工具谈何容易。
哪一种工具适合你的技能组合?哪一种工具适合你的项目?
为了替你节省一点时间,并帮助你首次选对工具,我们列出了我们青睐的几款数据工具,涉及数据提取、存储、清理、挖掘、可视化、分析和整合等领域。
数据存储和管理
如果你准备处理大数据,就要考虑该如何存储大数据。大数据得到“大”这个名号,一方面在于,大数据太庞大了,传统系统处理不了。一家优秀的数据存储提供商应该可以为你提供一套基础设施,除了用来存储和查询数据外,你还可以在上面运行其他所有分析工具。
Hadoop
Hadoop这个名称已成为了大数据的代名词。它是一种开源软件框架,用于在计算机集群上分布式存储非常庞大的数据集。这一切意味着你可以扩大或缩小数据规模,没必要为硬件故障而担心。Hadoop为任何一种数据提供了海量存储空间、强大的处理能力以及处理几乎无限制的并发任务或作业这一功能。
Hadoop并不适合数据初学者。想真正发挥其功能,你其实需要知道Java。这可能需要一番投入,但是Hadoop无疑值得你付出努力――因为其他许多公司和技术运行在它的基础上或者与它整合起来。
Cloudera
说到Cloudera,它其实是Hadoop的一个品牌名,上面添加了一些额外服务。它可以帮助贵公司构建一个企业数据枢纽,让贵企业的人员可以更方便地访问所存储的数据。
虽然确实有开源组件,但Cloudera主要还是一款企业解决方案,帮助公司管理Hadoop生态系统。实际上,它可以替你处理管理Hadoop的大量繁重工作。它还提供了一定级别的数据安全性,如果你要存储任何敏感数据或私人数据,这至关重要。
MongoDB
MongoDB是新颖的现代数据库方法,可谓是后起之秀。它好比是关系数据库的替代技术。它适用于管理经常变化的数据或者非结构化或半结构化数据。
常见的使用场合包括:为移动应用程序、产品目录、实时个性化、内容管理以及跨多个系统提供单一视图的应用程序存储数据。MongoDB同样不适合数据新手。与任何数据库一样,你确实需要了解如何使用一种编程语言来查询它。
Talend
Talend是另一家出色的开源公司,它提供许多数据产品。我们在这里主要介绍其主数据管理(MDM)产品,该产品将实时数据、应用程序和流程整合与嵌入式数据质量及监管结合起来。
由于是开源产品,Talend完全免费,因而是个不错的选择,无论贵公司处于哪个发展阶段。而且,它让你没必要构建和维护自己的数据管理系统――这是一项非常复杂而困难的任务。
开始入门
如果你对大数据完全一无所知,数据库可能不是最适合入手的方面。它们比较复杂,确实需要具备一定的编程知识才能上手(这不像下面提到的其他许多工具)。
然而,如果你确实想要从事或处理大数据,那知道数据库的基本知识、聊起数据库头头是道必不可少。你可以全面了解推动大数据的技术,包括数据库和存储发展史、关系数据库和文档数据库的区别、大数据的挑战以及必不可少的工具,还有Hadoop简要介绍。
数据清理
在你真正挖掘数据、获取洞察力之前,需要清理数据。尽管创建一个整洁、结构清晰的数据集总是好做法,但有时这并非始终行得通。数据集可能形状和大小不一(有些好的,有些不太好!),尤其是你从网上获取数据时。下列公司可以帮助你完善和重组数据,处理成实用的数据集。
OpenRefine
OpenRefine(以前叫GoogleRefine)是一种开源工具,专门用于清理凌乱的数据。你可以轻松快速地浏览庞大的数据集,即便数据有点非结构化。
就数据软件而言,OpenRefine很易于使用。不过,熟悉数据清理原则肯定有所帮助。OpenRefine好就好在,它有一个庞大社区,拥有众多贡献者,这意味着这款软件在不断变得完善。要是遇到了难题,你可以向社区提问。可以查看其Github代码库
DataCleaner
DataCleaner认识到数据处理是一项冗长乏味的任务。数据可视化工具只能读取结构条理化、“干净”的数据集。DataCleaner可以替你干脏活,将凌乱的半结构化数据集转换成干净的、可读取的数据集,那样所有可视化公司都能读取。
数据挖掘
别将数据挖掘与后面介绍的数据提取混为一谈,数据挖掘是指发现数据库里面的洞察力,而不是从网页提取数据、然后放入到数据库。数据挖掘旨在对你手头的数据进行预测和决策。
RapidMiner
RapidMiner拥有一大批客户,包括贝宝、德勤、电子港湾和思科等,这是一款用于预测分析的出色工具。它功能强大、易于使用,还有一个优秀的开源社区。通过API,你甚至可以将自己的专用算法整合到RapidMiner中。
图形化界面意味着,你不需要知道如何编程或不需要有博士学位,就可以使用其四款分析产品中的任何一款。
IBM SPSS Modeler
IBM SPSS Modeler提供了一整套专门用于数据挖掘的解决方案。这包括文档分析、实体分析、决策管理和优化。其五款产品提供了一系列高级算法和技巧,包括文档分析、实体分析、决策管理和优化。
SPSS Modeler是一款功能强大的解决方案,很适合满足大公司的需要。它可以在几乎任何类型的数据库上运行,你可以将它与其他IBM SPSS产品整合起来,比如SPSS协作及部署服务和SPSS Analytic服务器。
甲骨文数据挖掘
数据挖掘领域的另一大巨头是甲骨文。作为其高级分析数据库(Advanced Analytics Database)选件的一部分,甲骨文数据挖掘让用户可以发掘洞察力、进行预测并利用甲骨文数据。你可以构建模型来发现客户行为、锁定最佳客户并开发配置文件。
甲骨文数据挖掘GUI让数据分析员、业务分析员和数据科学家能够使用一种相当优雅的拖放式解决方案,在数据库里面处理数据。它还能创建SQL和PL/SQL脚本,用于整个企业里面的自动化、调度和部署。
Teradata
Teradata认识到这个事实:虽然大数据很出色,但如果你其实不知道如何分析和使用大数据,它就毫无价值。设想一下:拥有成千上万个数据点,却没有查询这些数据点的技能。这时候,Teradata应运而生。它为数据仓库、大数据、分析及营销等应用提供了端到端解决方案和服务。这一切意味着,你可以真正成为一家数据驱动型公司。
Teradata还提供一整套服务,包括实施、业务咨询、培训和支持。
FramedData
如果你着眼于某一种类型的数据挖掘,有一批初创公司专门帮助公司利用数据解答难题。如果你担心用户流失,我们推荐FramedData,这家初创公司可以分析你的数据分析结果,告诉你哪些客户即将抛弃你的产品。
它是一款完全托管的解决方案,这意味着你没必要做任何事,只需等待洞察力呈现在面前。
Kaggle
Kaggle是世界上最庞大的数据科学社区。许多公司和研究人员发布数据,来自世界各地的统计人员和数据挖掘人员竞相制作最佳模型。
数据分析
数据挖掘旨在细查数据、寻找之前未发现的模式,数据分析则是对该数据进行分解,评估那些模式的影响。分析是指提出特定的问题,找到数据中的答案。你甚至可以提些关于将来会发生什么方面的问题!
Qubole
Qubole可针对存储在AWS、谷歌或Azure云上的数据,简化、加快和扩展大数据分析工作负载。它消除了管理基础设施方面的麻烦。一旦IT策略实施到位,众多数据分析员就可以随意地协作“点击查询”,享用Hive、Spark、Presto及其他众多数据处理引擎的功能。
Qubole是一款企业级解决方案。它提供免费试用服务,该软件的灵活性确实让它有别于其余解决方案,它还是所有平台中最易于访问的。
BigML
BigML试图简化机器学习。它提供一项功能强大的机器学习服务,拥有易于使用的界面,以便你导入数据,并从中进行预测。你甚至可以使用其模型用于预测分析。
如果你想从BigML获得最大的好处,深入了解模型无疑大有帮助,但并非必要条件。它有一款免费版工具,让你可以创建16MB以下的任务,还提供按需付费方案和虚拟私有云,可以满足企业级需求。
Statwing
Statwing将数据分析带到了新的水平,提供从漂亮视图到复杂分析的各种功能。它很易于使用,实际上在5分钟内就可以上手。
虽然不是免费使用,但价格方案相当优惠。基本套餐是每月50美元,你可以随时取消。这让你可以使用无限制的数据库(最多50MB)。还有其他的企业方案,让你能够上传更庞大的数据集。
数据可视化
数据可视化公司让你的数据栩栩如生。对任何数据科学家来说,挑战一方面在于,将来自数据的洞察力传达给贵公司的其余人员。对你的大多数同事来说,MySQL数据库和电子表格不管用。可视化是传达复杂数据洞察力的一种好方法。最棒的是,它们大多根本不需要编程!
Tableau
Tableau是一款数据可视化工具,主要侧重于商业智能。你可以创建图形、条形图、散点图及更多视图,不需要编程。它最近发布了一款Web连接件,让你可以连接到数据库或API,因而让你能够通过可视化呈现活动数据。
Tableau有五款产品,支持和功能程度不一。如果你是可视化方面的新手,我们推荐Tableau Public,这是其可视化工具的免费版。探究一番该工具,你应该会了解想要购买另外的哪款Tableau产品。
Silk
Silk是一款比Tableau简单得多的数据可视化和分析工具。它让你只要点击几下鼠标,即可创建交互式地图和图形,因而为你的数据赋予活力。Silk还让你可以与众多人协作处理可视化。
与本文介绍的许多可视化公司一样,Silk不需要你是编程高手。如果你是数据可视化方面的新手,可以从它入手,因为其最佳功能试图自动可视化数据,你没必要做事情。
CartoDB
CartoDB是一款数据可视化工具,专门用来绘制图形。它让你易于可视化位置数据,不需要任何编程。CartoDB可以管理众多的数据文件和类型,甚至还有供你捣鼓的示例数据集,以便逐渐了解。
如果你有位置数据,CartoDB绝对值得关注。它也许不是用起来最容易的系统,但一旦你掌握了用法,它功能异常强大。它提供了企业软件包,支持项目协作和受控制的访问。
Chartio
Chartio让你可以在浏览器里面合并数据源、执行查询。只要点击几下,你就可以创建强大的仪表板。Chartio的可视化查询语言让任何人都能从任何地方获取数据,没必要知道SQL或其他复杂的模型语言。它还让你可以调度安排PDF报告,那样你可以导出仪表板,并以PDF文件的格式通过邮件发给你想发送的任何人。
Chartio的另一个优点是,它常常不需要数据仓库。这意味着,可以更迅速地搭建并运行起来;实施成本会更低、更易于预测。
Plot.ly
如果你想制作图形,Plot.ly是不二的选择。这个使用方便的平台让你可以制作效果出众的2D和3D图形(你确实需要眼见为实!)。同样根本不需要编程知识。
免费版让你可以创建专有图形和无限制的公共图形,你还可以升级到企业软件包,制作无限制的专有和公共图形,另外还有这个选项:Vector导出和保存自定义主题。
Datawrapper
我们介绍的最后一款可视化工具是Datawrapper。它是一款开源工具,可在几分钟内创建嵌入式图形。由于是开源,它会不断完善,因为任何人都可以为它贡献代码。它有一个出色的图形库,你可以看看别人用Datawrapper能制作出什么样的图形。
类似这部分介绍的其他许多公司,它既有免费工具,也有收费工具,提供这一收费选项:预先安装、定制的Datawrapper软件包。
数据整合
数据整合平台如同每个程序之间的粘合剂。如果你想把使用Import.io提取的数据与推特整合起来,或者想在Facebook上自动共享之前用Tableau或Silk制作的可视化图形,那么下列整合服务正是你所需要的工具。
Blockspring
Blockspring是一种独特的程序,其独特之处在于,它可以利用Excel和Google Sheets等熟悉平台中的IFTTT和Zapier等服务的所有功能。你可以连接到一整批第三方程序,只要编写一个Google Sheet公式。你可以从电子表格发布推特消息,查看你的关注者在关注谁,并且连接到AWS、Import.io 和Tableau等。
Blockspring可免费使用,但也有企业软件包,让你可以创建和共享专有功能、添加自定义标记以便搜索和发现,并且为你的整个企业同时设置API令牌。。
Pentaho
Pentaho提供大数据整合功能,不需要编程知识。使用一个简单的拖放式用户界面,你就可以整合许多工具,基本上不需要编程。它还提供嵌入式分析和业务分析服务。
Pentaho是一款企业解决方案。你可以要求免费试用其数据整合产品,到期后需要付费。
数据语言
在你的数据职业生涯中,有时一款工具根本无济于事。虽然如今的工具变得功能更强大、更易于使用,但有时自行编程来得更好。即便你不是程序员,了解这些语言工作原理方面的基本知识还是让你更清楚地知道许多这些工具是如何工作的、如何才能最有效地使用它们。
R
R是一种面向统计计算和图形的语言。如果上述数据挖掘和统计软件无法处理你想处理的任务,学习R是出路。实际上,如果你打算成为数据科学家,那就需要熟悉R。
它可以在Linux、Windows和MacOS上运行,你可以在此页面(https://www.r-project.org)下载R。有一个庞大的社区,如今许多统计人员使用R,它的人气一直在飙升。
Python
在数据社区人气越来越旺的另一种语言就是Python。该语言于80年代问世,以《蒙提派森之飞行马戏团》(Monty Python’s Flying Circus)命名,它一向跻身于全球最受欢迎的十大编程语言榜单。如果数据收集工具未能获得所需的数据,许多新闻记者使用Python编写自定义抓取器。人们喜欢它,是由于它与英语很相似。它使用“if”和“in”之类的单词,这意味着脚本阅读起来很轻松。它提供了为不同类型的任务设计的一系列广泛的库
RegEx
RegEx(正则表达式)是一套可处理和更改数据的字符。它主要用于将模式与字符串匹配,或字符串匹配。在Import.io,你可以在提取数据的同时使用RegEx,删除字符串的一部分,或者保留字符串的某些部分。
处理数据提取工作时,它是一种很有用的工具,因为你在提取数据可以获得所需的那部分数据,这意味着你没必要依赖上述那些数据处理公司!
XPath
XPath是一种查询语言,用于从XML文档选择某些节点。RegEx处理和更改数据标记,而XPath会提取准备用于RegEx的原始数据。
XPath最常用于数据提取。每当你点击某个数据,Import.io实际上自动创建XPath――你根本看不到它们!还可以插入你自己的XPath,从下拉式菜单获取数据以及网页上标签页里面的数据。简而言之,XPath是个路径,它为网页HTML的某个部分指明了方向。
数据收集
在你存储、分析或可视化数据之前,你得收集一些数据。数据提取就是拿来结构化数据(比如网页),然后将它转换成结构化表。一旦你有了结构化数据,就能以各种方式来处理,使用我们提到的这些工具,找到洞察力。
Import.io
Import.io是用于提取数据的头号工具。使用很简单的点击式用户界面,我们拿来网页后,可以转换成易于使用的电子表格,然后可以分析、可视化和使用该电子表格,做出数据驱动的决策。
除了托管一款免费使用的工具外,Import.io还是数据提供商。我们为每个客户定制了数据集。随后,这些数据定期更新,这意味着贵公司始终获得的是最新数据。
结语
感谢您的观看,如有不足之处,欢迎批评指正。
为了帮助大家让学习变得轻松、高效,给大家免费分享一大批资料,帮助大家在成为大数据工程师,乃至架构师的路上披荆斩棘。在这里给大家推荐一个大数据学习交流圈:658558542 欢迎大家进群交流讨论,学习交流,共同进步。
当真正开始学习的时候难免不知道从哪入手,导致效率低下影响继续学习的信心。
但最重要的是不知道哪些技术需要重点掌握,学习时频繁踩坑,最终浪费大量时间,所以有有效资源还是很有必要的。
最后祝福所有遇到瓶疾且不知道怎么办的大数据程序员们,祝福大家在往后的工作与面试中一切顺利。