1. 大数据的特点
4V:大量(volume);高速(velocity);多样(variety);价值(value)
2. 大数据分析的核心要素
基于云计算的基础设施;分布式的大数据体系;数据分析方法与算法;行业应用知识与经验
3. R语言特点
- 共享性。可以免费下载和使用
- 分析方法丰富。
- 操作简便性和灵活性。用户既可以调用R的现成模型和算法解决一般性的数据挖掘问题,又可以自行编写程序解决特殊的数据挖掘问题
- 成长性。
4. 对数据挖掘的理解
- 数据挖掘是利用各种方法从海量有噪声的各类数据中提取潜在的、可理解的、有价值的信息的过程。
其中信息可以分为:(1)用于数据预测的信息;(2)用于揭示数据内在结构的信息 - 数据挖掘是涉及多任务、多学科的庞大的系统工程,涉及数据源建立和管理、数据提取、数据预处理、数据可视化、建立模型并评价、应用模型评估等环节。
- 数据挖掘的对象是大数据系统,因此重点和难点是如何高效合理地存储数据、保障数据的一致性。
5. 数据挖掘结果的呈现
- 数学模型
- 推理规则
- 图形
6. 数据挖掘结果的特点
- 潜在性:发现数据中隐含的变量相关性。数据挖掘通常采用“机械式”的反复搜索和优化计算归纳出存在于数据中的规律。
- 可理解性:分析结论具有符合研究问题的可解释性。如果当数据挖掘的结果表现出不可理解的相关性时,可能是由于其他干扰因素存在而导致的相关。
- 有价值性:数据挖掘的结果需要对决策具有指导意义。由于数据挖掘的对象是大数据系统,因此得到价值信息比小数据集更困难,因为数据挖掘采用的反复搜索和优化方法很可能只能得出表面信息,即海量数据自身某种无意义的随机性。
7. 数据挖掘方法和统计方法的区别
- 统计学主要利用推断统计方法,计算样本的特征在原假设下出现的概率,判断是否具有统计显著性。但数据挖掘方法所研究的大数据系统具有海量数据,而任何统计不显著的现象都可能随样本量增大被判别为显著。
- 统计学方法基于对研究问题的理解,依据经验或历史数据预设样本中存在某种关系,然后验证这种假定是否显著存在于当前数据中,总的来说是一种验证式思路,即“模式驱动”。而数据挖掘方法面对的数据量庞大,变量个数较多,采用归纳式的分析思路,通过反复搜索和优化计算归纳出存在于数据中的规律,即“数据驱动”。
- 数据挖掘的研究对象常常是总体而不是随机抽取的样本。
- 某些数据挖掘应用问题只能基于总体而非样本来研究。
8. 数据挖掘的应用
- 数据预测
- 分类预测问题:找到某些能将两类或多类分开的超平面,依据数据与超平面的位置关系预测数据的类别
- 回归预测问题
- 时间序列预测
利用数据挖掘方法解决以上问题时,需要注意:
- 数据挖掘方法得出的结论是否正确反映了总体而非部分样本之间的规律。常用的检验方法是从已有数据中随机抽取样本,检验该样本是否仍然满足结论(因此抽样方法仍然是有意义的)
- 用于预测的数学模型或规则是否具有较好的预测性能(泛化能力)
- 发现数据内在结构
- 发现关联性
- 模式诊断
9. 数据挖掘方法需要解决的问题
- 目标契合度不高的数据,如何进行建模。
一般数据中会包含很多与研究目标无关的混杂因素,常采用的方法是多元建模,考虑混杂因素的影响,将其加入模型中并进行控制。 - 海量、高维数据,如何筛选出有效的数据特征、提高分析效率
首先需要采用统计学方法进行特征选择,其次需要抛弃统计学中的模式驱动方法,采用数据驱动的研究方法。 - 对于复杂类型的关系数据,如何建模揭示数据特征