大数据架构、大数据开发与数据分析的区别
大数据产业
顾名思义大数据是一个以数据为核心的产业。大数据产业生成流程从数据的生命周期的传导和演变上可分为这几个部分:数据收集、数据储存、数据建模、数据分析、数据变现。
数据通过各种软件收集,通过云数据中心储存,通过数据科学家或行业专家建模和加工,最后数据分析找到大量看似不相关数据背后的因果关系,这些因果关系的意义会让人们在各个方面可以推测未来,减少试错成本,降低风险,解放生产力。
大数据人才方向
目前市场上人才需求观和部署企业自身大数据项目来看,大致分为3个方向:大数据架构、大数据开发、大数据分析。
大数据架构
大数据架构偏重基建和架构,更多注重的是Hadoop、Spark、Storm等大数据框架的实现原理、部署、调优和稳定性问题,以及它们与Flume、Kafka等数据流工具以及可视化工具结合技巧,再有就是一些工具的商业应用问题,如Hive、Cassandra、HBase、PrestoDB等。能够将这些概念理解清楚,并能够用辩证的技术观点进行组合使用,达到软/硬件资源利用的最大化,服务提供的稳定化,这是大数据架构人才的目标。
主要研究方向
架构理论:高并发、高可用、并行计算、MapReduce、Spark等
数据流应用:Flume、Fluentd、Kafka、ZeroMQ等
储存应用:HDFS、Ceph等
软件应用:Hive、HBase、Cassandra、PrestoDB等。
可视化应用:HightCharts、ECharts、D3、HTML5、CSS3等。
大数据架构师对可视化应用部分要求不高,只需大致了解即可,但其他架构层面、数据流层面、存储层面、软件应用层面等都需要做比较深入的理解和落地应用。至少在每一个层面中挑选一个完全纯属的应用产品。
【大数据开发学习资料领取方式】:加入大数据技术学习交流扣扣群522189307,私信管理员即可免费领取开发工具以及入门学习资料
大数据开发
大数据开发偏重应用实现,注重服务器端开发、数据库开发、呈现与可视化人机交互等衔接数据载体和数据加工各个单元以及用户的功能落地与实现。
主要研究方向
数据库开发:RDBMS、NoSQL、MySQL、Hive等。
数据流工具开发:Flume、Heka、Fluentd、Kafka、ZMQ等。
数据前端开发:HightCharts、ECharts、JavaScript、D3、HTML5、CSS3等。
数据获取开发:关键词有爬虫、分词、自然语言学习、文本分类等。
大数据开发和大数据架构方向很多关键词是重合的,但一个主要是“开发”,一个主要是“应用”。“应用”更多的是懂得这些这种技术能为人们提供什么功能,以及使用这种技术的优缺点,并擅长做取舍;“开发”更注重的是熟练掌握,快速实现。
大数据分析
大数据分析偏重于建模与分析,更多注重的是数据指标的建立,数据的统计,数据之间的联系,数据的深度挖掘和机器学习,并利用探索性数据分析的方式得到更多的规律、知识,或者对未来事物预测和预判的手段。
主要研究方向
数据库应用:RDBMS、NoSQL、MySQL、Hive、Cassandra等。
数据加工:ETL、Python等。
数据统计:统计、概率等。
数据分析:数据建模、数据挖掘、机器学习、回归分析、聚类、分类、协同过滤等。
大数据分析主要是数据统计和数据分析,要有较好的数学素养,一般来说都是数学专业出身。此外还有一方面就是业务知识的理解,每个行业和公司的业务形态都是千姿百态的,只有对这些业务形态和业务流程充分理解才能对数据有可能更正确的建模和解读。
关系
大数据架构师创建数据仓库,大数据工程师获取数据处理后存入数据仓库,大数据分析师提取数据,建立指标、数据挖掘和机器学习……