1.1 大数据的基本特征
Volume:数量大;Variety:种类和来源多样化;Velocity:及时性要求高;Value:价值密度低。
1.1.2 Hadoop特点
开放,全球生态;结构化、半结构化、非结构化;高性能、实时。
1.2 大数据理念变革
1.3 大数据与云计算、人工智能AI
1.4 企业级大数据关键技术
1.4.2 数据处理
批处理:适用于传统数据库或分布式数据库;支持结构化与非结构化数据的处理;大量数据的处理需求。适用于时效要求不高,同时数据处理规模较大的场景。
流处理:支持流式数据的处理与计算;处理时效性较高;处理过程数据不落地。针对数据处理结果需要高效的延迟的场景。
处理方式转变:库内计算到库外计算。
1.4.3 数据分析与挖掘
基于价值应用场景的大数据建模
1.4.4 数据应用
实时营销;实时监控及热力图;客户画像。
1.5 大数据主要存储技术介绍
1.5.1 HDFS
1.5.2 YARN
1.5.3 Mapreduce
1.5.4 Hive原理简介
1.5.6 HBase-Hadoop datebase
1.5.7 Spark
1.6 hadoop典型应用场景
离线统计分析;详单查询;云化ETL
2.1 数据挖掘
在数据中(半)自动发现隐含的,以前未知的和有价值的信息。
2.1.1 数据挖掘行业应用
美团实时推荐;爱奇艺票房预测。
2.1.2 数据挖掘应用面临的困难和挑战
使用门槛高;应用周期长;模型设计与优化缺乏辅助工具;缺乏实时分析能力。
2.1.3 常用挖掘软件
HUAWEI universe; SAS ;R语言 ; IBM Modeler
2.2 挖掘算法
有监督学习:regression(回归);classification(分类)
回归:连续变量预测
回归分析:指确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
典型应用:用户数预测;收入预测;目标制定;业务发展分析。
分类:离散变量预测
分类:使用类标签已知的样本建立一个分类函数或分类模型,应用分类模型,能把数据库中的类标签未知的数据进行归类。目前在商业上应用最多,分类是过程,预测是目的。
分类算法:决策树、随机森林、神经网络、支持向量机、贝叶斯分类、KNN(K近邻)
典型应用:流失预测、精确营销、客户获取、个性偏好、信用分析、欺诈预警
无监督学习:clustering(聚类);association(关联);recommendation(推荐)
聚类算法:根据物以类聚的原理,将本身没有类别的样本聚集成不同的组,这样的一组的数据对象的集合叫做簇,并且对这样一额簇进行描述的过程。
聚类算法:
划分法:K-MEAND算法、K-MEDOIDS算法、CLARANS算法;
层次法:BIRCH算法、CURE算法、CHAMELEON算法;
基于密度的方法:DBSCAN算法、OPTICS算法、DENCLUE算法
典型应用:客户细分、客户研究、市场细分、价值评估、精细营销。
关联分析:关联分析的目的是找出数据库中隐藏的关联关系。
关联算法:
无时序关系:apriori算法、FP-TREE算法
有时序关系:gsp算法、prefixspan算法。
典型应用:交叉销售、套餐设计、网页设计、目录设计
推荐算法:利用用户的一些行为,通过数学算法,推荐出用户可能喜欢的东西。
推荐算法:基于内容推荐、协同过滤推荐、基于规则推荐、基于知识推荐
典型应用:个性化营销