大数据科技将颠覆人们现有的做事逻辑。过去一般都是先想好目的,再去获取相应的信息;而到大数据科技的普及,思维方式则变成了先尽可能多地占有信息,遇到问题时再从海量信息中探索解决方案。
数据的应用起源于17世纪
17世纪时英国约克大学学者在鼠疫期间利用教区死亡人数推断出当时伦敦的总人口,数据分析的实质得以应用;
二战时,美国军方通过研究飞机的受损部位,发现飞机的油箱和驾驶员仓位才是真正致命的地方,通过改进大大提高了飞机的抗打击力量,数据分析在实战中发挥了作用;
1962年美国统计学家John W.Tukey在一篇文章《The Future of Data Analysis》中,正式提出了数据分析这一学科,数据分析成为一门科学;
步入21世纪,人类进入了互联网时代,同时也进入了大数据时代,以兆为单位的数据集大量涌现,数据分析的作用日益凸显。
传统行业,如销售(通过数据分析做销售规划和预测)、研发(用数据分析支撑各种论点)、财务(财务分析、预测)、金融(风控)、物流(优化供应链)等都越来越依赖数据分析。例如花旗银行就在其旗下的财富管理产品中搜集并研究用户点击情况,根据用户行为推荐特色化产品,大大提高了用户体验效率和购买率。
新兴的互联网领域中,美国硅谷的高科技公司早在上个世纪便开始设立数据分析的相关职位,研究企业各项数据的变化,为企业决策提供依据;国内互联网巨头也纷纷将大数据分析作为发展重点,例如字节跳动就利用从用户的行为数据提取几百个高维特征,并经过一系列处理包括降维、相似计算、聚类/分类、LDA分析等,最终实现5秒计算出用户兴趣,吸引了大量的用户,打破了传统的互联网媒体格局。
随着互联网行业竞争进入红海,越来越多的公司开始关注数据分析来挖掘前期爆发式增长所带来的剩余价值,这也是互联网行业这两年才出现的爆发式增长的需求。百度、阿里巴巴和腾讯(BAT)这样的大公司,都在不断囤积数据,为未来发展进行储备宝贵的资源。
大数据的特点
大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
多样化(Variety):大数据中,数据的种类和格式多种多样。
大量化(Volumn):数据的数量级大,通常难以用一般方法处理。
快速化(Velocity):数据存在时效性,需要在短时间内处理。
价值(Value):价值密度低,大量数据中有价值的数据少。
数据研究分析的三个方面
全球知名咨询公司麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产要素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费盈余浪潮的到来。”显而易见,数据分析行业将伴随着其他行业在未来中长期存在并不断发展。目前,我们通常从三个层面对数据进行研究和分析。
描述性分析(Descriptive Data Analysis,DDA) —— 发生了什么?
描述性分析指采取表格、图形或数值的形式汇总数据的统计方法,使得统计数据更加容易理解。描述性数据分析属于比较初级的数据分析,常见的分析方法包括对比分析法、平均分析法、交叉分析法等。描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形。例如,描述某行业去年各个季度销售额变化,描述某行业上市公司过去十年平均PE值变化等。
描述性统计量的基本分类
集中趋势的描述性统计量:均值、中位数以及众数
离散程度的描述性统计量:最大值和最小值、极差、方差和标准差
分布形态的描述性统计量:峰度以及偏度
探索性分析(Exploratory Data Analysis,EDA)—— 为什么发生?
探索性分析指通过查看数据的分布,比较数据之间的关系,对数据的分布形态与关系进行解读与阐释。探索性数据分析的步骤一般包括:提出假设、处理数据、选用模型、论证假设。 探索性分析中一般会需要以下的数据处理方法:数据检查(数据中是否有缺失值,是否有异常值,是否有重复值以及选择处理这些数据的方法)、变量研究(找出数据的平均值,中位数,众数,最小值,最大值,四分位数,标准差等统计学变量,并尝试直方图,箱线图等直观的分析数据)、分析数据间关系(相关系数,皮尔逊相关系数(线性关系),互信息(非线性关系)等)、选择建立模型(通常利用数学模型进行研究)。
探索性数据分析的三步方法
数据分类
当获取数据后,第一步则是对数据进行基本分类,然后针对不同类型的数据选择合适的方法。数据的类型分为结构化数据和非结构化数据,而非结构化数据又可分为定性数据和定量数据。
数据可视化
为了从数据中获取洞察,我们可以将数据进行可视化操作,从而更好地观察、分析数据的特点。常用的可视化方法包括饼图、曲线图、条形图、箱型图等。
洞察数据
通过数据的可视化分析,探寻数据之间的关系、重要性以及相互的影响。
探索性数据分析就是利用各种技术手段(大部分都是利用数据可视化)探索数据内部结构和规律的一种数据分析方法和理念。
预测性数据分析(Predictive Data Analysis,PDA)—— 未来会发生什么?
预测性分析主要是通过数据预测未来可能会发生的事情,随着计算机科学和大数据的发展,预测性数据分析更加依赖机器学习和时间序列等算法。 机器学习指专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能的学科。机器学习可以分为有监督学习、半监督学习和无监督学习。其中有监督学习又可以分为分类模型与回归模型。
无监督学习
主要模型:
1、k-平均算法
2、分层聚类分析法
3、主成分分析
解释:数据不被特别标识,学习模型是为了推断出数据的一些内在结构。
半监督学习
主要模型:
1、图论推理算法
2、拉普拉斯支持向量机
解释:输入数据部分被标识,部分没有被标识,这种学习模型可以用来进行预测,但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。
监督学习
主要模型:
1、K-近邻算法
2、线性回归
3、逻辑回归
4、支持向量机
5、决策树和随机森林
解释:每组训练数据有一个明确的标识,在建立预测模型的时候,监督式学习建立一个学习过程,将预测结果与“训练数据”的实际结果进行比较,不断的调整预测模型,直到模型的预测结果达到一个预期的准确率。