今天是9.10r。
晚上7点做了腾讯商业分析的笔试,总体感觉还不错,希望能突破上半年找暑期实习时笔试一轮游的魔咒。最近投了22家左右的公司,90%是互联网公司以及数据分析和数据挖掘岗位,最近自己也在准备中期论文答辩的事,老师让找一个大数据预测应用的问题写。
所以想厘清和整理清楚大数据和数据挖掘这一类概念之间的关系,为论文也为接下来找工作面试做准备吧。
1、大数据不用说是指有海量数据,围绕大数据概念有两个分支:
- (1)大数据的存储
存储涉及到关系型数据库(mysql,sql server, oracle,DB2等)、分布式存储(HDFS以及基于HDFS的hbase ,hive)、云存储
- (2)大数据的应用
大数据的应用分为:数据管理,统计分析,数据挖掘,并行计算,分布式计算等内容。
其中数据的管理和统计分析比较常规,而并行计算和分布式计算主要解决的是数据处理时量和速度的问题,所以这个分支里数据挖掘尤为重要。
2.数据挖掘
数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至违背直觉的信息和知识。
应用主要集中在以下几个方面:
- (1).关联:发现数据中项集之间的关联关系或者相关关系。
- (2).回归:确定两种或两种以上变量之间相互的定量关系。(用于预测连续的目标变量)
- (3).分类:已知有哪几类,再对现有数据进行分类。
- (4).聚类:不知道会有几类,会先聚类得到有哪几类,之后就可以对数据进行分类了。
- (5).预测:分定性和定量预测,定量预测分为:时间序列和因果关系分析,所以这里的预测特指的是基于因果关系的预测问题。
而更广泛的为了达到预测这个目的,回归,分类,聚类等都是可以实现达到预测的工具。
- (6).诊断:诊断的对象是离群点或者孤立点。