2017可谓是人工智能元年,在各类人工智能公司如雨后春笋般成立的今天,我们来聊一聊什么是人工智能?大数据与人工智能究竟有何关联?什么是大数据?如何赶上这个新风口?如何入门大数据呢?
1.什么是人工智能?大数据与人工智能究竟有何关联?
人工智能是它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学(定义来源:百度百科)归根到底人工智能是让机器去学习人类的思维方式,机器如何学习人类的思维方式呢?那必须是给予其海量的数据,所以人工智能的基础是大数据!有了海量数据后才是学习方法,现有的算法无一例外都是概率,根据现有的公式和数据去计算或推测。
2.什么是大数据?
大数据单从名字来看,大量的数据,单单从名字来看没有任何技术含量。现在大数据这三个字如此火,不得不说这三个字成为了很好的商业噱头,对于投资人和创业者而言,大数据是个热门的融资标签,各种原由直接成就了现在的大数据盛况,各家企业争先开展大数据业务,大数据人才空前稀缺,人才缺口高达150万。
那对于从业者来说大数据到底是什么呢?狭隘的来说无非就是大量的数据进行清洗处理成规则的数据来进行存储后,再进行系列的计算、建模等最后输出对企业有用的数据/预测来支撑企业的运营。
3.如何赶上这个新风口?大数据在企业中都有什么应用?
大数据平台在企业中扮演的角色是整个公司的数据中枢,最底层的是打通公司所有部门的数据、采集所有有意义的数据、建设统一的数据仓库,基础工作完成后就是建设BI及可视化平台。除此外还有运用数据带来运营的效果,例如大数据风控、大数据推荐、大数据精准运营等等。
我这里截了一张企业正在使用的大数据平台的管理页面的运行截图,最左侧列出的就是企业中常用的基本工具了。
可以看到的组件有:hive、hbase、kafka、zeppelin、sqoop、zookeeper等,这些就是组成企业大数据平台最基本的成员了~
4.如何入门大数据呢?大数据开发需要掌握的最基本技能有哪些?
1.linux基础和分布式集群的技术(基础知识:shell)
熟练使用Linux,熟练安装Linux上的软件,了解熟悉负载均衡、高可靠等集群相关概念,搭建互联网高并发、高可靠的服务架构。这个技能最基础最核心,是大数据开发从业者必备技能。(入门时长:建议3-5天,需简单掌握shell脚本编写。明天赵赵会整理一篇入门Linux的帖子~)
2.离线大数据处理必备技术(基础知识:java/python/scala都可)
1.掌握hadoop底层分布式文件系统HDFS的原理、操作和应用开发,建议先了解原理,在搭建原生集群来实践,具体搭建方法可以留言获取或等待后续更新哈~(入门时长:建议5天)
2.掌握MAPREDUCE分布式运算系统的工作原理和分布式分析应用开发,依然是先原理再代码实践(入门时长:根据语言基础而定,有java基础建议5天)
3.掌握Hive数据仓库工具的工作原理及应用开发,了解清楚数据仓库和普通数据库的工作原理的不同,熟练使用sql进行开发(入门时长:根据sql基础而定)
3.实时计算阶段的技术(基础知识:java/python/scala都可)
现在主流的实时计算开源框架有strom和sparkstreaming,新手建议学习strom+kafka。需要掌握Storm开发及底层原理、Kafka的开发及底层原理、Kafka与Storm集成使用。具备开发基于storm实时计算程序的技术能力。(入门时长:有语言基础建议10天)
以上是大数据技术实战以及平台框架都来自花虾金融「花虾为华夏信财互联网金融信息服务(上海)有限公司旗下的互联网金融服务平台。花虾采用移动互联网和大数据创新技术风控,以金融机构的风险管理标准实施运营管理。花虾始终旨在为有融资及投资需求的小微企业及个人建立起高效、透明、便捷的互联网金融服务平台。」
下集预告:企业大数据可视化平台框架zeppelin搭建及实战技术细节和实战场景整理发出哒,有兴趣关注一下呗~~