深入浅出学习大数据:核心篇之大数据分析!

今天接着之前的文章,继续带大家学习大数据。今天主要介绍大数据价值链的大数据分析部分,也是核心所在,新朋友可以翻阅我前面的文章,跟上学习大数据的步伐。希望大家持续学习,每天关注,我会连续更新文章,让大家系统学习和认识大数据。

阶段IV:大数据分析

大数据价值链最后也是最重要的阶段就是数据分析和处理,其目标是提取数据中隐藏的数据,提供有意义的建议以及辅助决策制定。

一、数据分析目的和分类

数据分析处理来自对某一兴趣现象的观察、测量或者实验的信息,数据分析目的是从和主题相关的数据中提取尽可能多的信息,主要目标包括:

•推测或解释数据并确定如何使用数据;

•检查数据是否合法;

•给决策制定合理建议;

•诊断或推断错误原因;

•预测未来将要发生的事情

由于统计数据的多样性,数据分析的方法大不相同,可以将数据根据下述标准分为几类:根据观察和测量得到的定性或定量数据,根据参数数量得到的一元或多元数据,此外,有些工作对领域相关的算法进行了总结,Manimom等对数据挖掘算法进行了分类,将其分为描述性(deive)、预测性和验证性(veryfying),Bhatt等则将多媒体分析方法划分为特征提取、变形、表示和统计数据挖掘,然而并没有对大数据处理方法进行分类的工作,Blackett等根据数据分析深度将数据分析分为三个层次:描述性(deive)分析,预测性分析和规则性(preive)分析。

•描述性分析

基于历史数据描述发生了什么,例如,利用回归技术从数据集中发现简单的趋势,可视化技术用于更有意义地表示数据,数据建模则以更有效的方式收集、存储和删减数据,描述性分析通常应用在商业智能和可见性系统。

•预测性分析

用于预测未来的概率和趋势,例如,预测性模型使用线性和对数回归等统计技术发现数据趋势,预测未来的输出结果,并使用数据挖掘技术提取数据模式(pattern)给出预见。

•规则性分析

解决决策制定和提高分析效率,例如,仿真用于分析复杂系统以了解系统行为并发现问题,而优化技术则在给定约束条件下给出最优解决方案。

二、应用演化

数据驱动的应用在过去几十年里已经出现,例如,20世纪90年代在商业领域出现的商业智能,21世纪初期出现的基于数据挖掘的web搜索引擎,接下来将介绍在不同时期典型大数据领域中具有高影响力的大数据分析应用的发展。

(1)商业应用演化

早期的商业数据是结构化的数据,由企业或公司收集并存储在关系数据库管理系统中,这些系统应用的数据分析技术通常是直观简单的,Gartner总结了商业智能应用的常用方法,包括报表(reporting)、仪表盘(dashboard)、即时查询(adhocquery)、基于搜索的商业智能、在线事务处理、交互可视化、计分卡、预测模型和数据挖掘。21世纪初期,互联网和web使得企业将其业务上线,并能和客户直接联系,大量的产品和客户信息如点击流数据日志和用户行为可以通过web收集,通过使用不同的文本和web挖掘技术,可以完成产品放置优化,客户事务分析,产品推荐和市场结构分析,据报道,2011年移动手机和平板电脑的数量首次超过了笔记本和PC机,移动手机和物联网构建了具有位置感知、个人为中心和上下文感知的革新性应用。

(2)网络应用演化

早期的网络提供电子邮件和网站服务,因此文本分析、数据挖掘和网页分析技术被用于挖掘邮件内容、创建搜索引擎,网络数据占据了全球数据的绝大部分,包含文本、图像、视频、照片和交互式内容等多种类型的数据,随后,用于半结构化和无结构数据的分析技术得到了发展,例如,图像分析技术可以从照片中提取有意义的信息,多媒体分析技术可以使商业或军事领域的视频监控系统自动化,2004年后,诸如论坛、博客、社交网站、多媒体分享站点等在线社交媒体的出现使得用户能够产生、上传和共享丰富的用户自主创造内容,从这些不同人们发布社交媒体内容中可以挖掘每天的热门事件和社会政治观点等,从而提供及时的反馈和意见。

(3)科学应用演化

科学研究的许多领域中高生产量的传感器和仪器将产生大量的数据,如天文学、海洋学、基因学和环境研究等学科领域,美国NSF宣布对BIGDATA项目进行立项,促进数据分享和分析,有些科学研究学科以前已开发出对海量数据的分析平台,并取得了有效地成果,例如在生物学科,iPlant利用信息基础设施,物理计算资源和支持互操作的分析软件等,向致力于丰富植物科学知识的研究者、教育者和学生提供数据服务,iPlant数据集是多样性的数据,包含权威的和供参考的数据、实验数据、仿真建模数据、观察数据和其他处理后的数据。

基于以上的分析,可以将数据分析的研究分为6个方向:结构化数据分析、文本分析、web数据分析、多媒体数据分析、社交网络数据分析和移动数据分析,结构化数据分析是指传统的数据分析,Web数据、多媒体数据、社交网络数据和移动数据,从数据形态上可能包括结构化数据的某些数据类型(如文本),但是在特定的应用领域里面,具有新的分析要求和特性。

三、常用分析方法

尽管目标和应用领域不同,一些常用的分析方法几乎对所有的数据处理都有用,下面将讨论三种类型的常用数据分析方法。

•数据可视化

与信息绘图学和信息可视化相关,数据可视化的目标是以图形方式清晰有效地展示信息38),一般来说,图表和地图可以帮助人们快速理解信息,但是,当数据量增大到大数据的级别,传统的电子表格等技术已无法处理海量数据,大数据的可视化已成为一个活跃的研究领域,因为它能够辅助算法设计和软件开发,Friedman和Frits分别从信息表示和计算机科学领域对数据可视化进行了探讨。Tabusvis则是一个轻型的可视化系统,提供对多维数据的灵活、可定制的数据可视化。

•统计分析

基于统计理论,是应用数学的一个分支,在统计理论中,随机性和不确定性由概率理论建模,统计分析技术可以分为描述性统计和推断性统计,描述性统计技术对数据集进行摘要(summarization)或描述,而推断性统计则能够对过程进行推断,更多的多元统计分析包括回归、因子分析、聚类和判别分析。

•数据挖掘

是发现大数据集中数据模式的计算过程,许多数据挖掘算法已经在人工智能、机器学习、模式识别、统计和数据库领域得到了应用。此外,一些其他的先进技术如神经网络和基因算法也被用于不同应用的数据挖据。有时候,几乎可以认为很多方法间的界线逐渐淡化,例如数据挖掘、机器学习、模式识别、甚至视觉信息处理、媒体信息处理等等,此处以“数据挖掘”作为一个通称。

今天介绍了大数据价值链的数据存储部分,后面会继续带你认识不一样的大数据。

如果您想长期获取科技信息的解读,记得关注我,我会每天更新,谢谢。同时如果您有什么意见和建议,欢迎评论。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,287评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,346评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,277评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,132评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,147评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,106评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,019评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,862评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,301评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,521评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,682评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,405评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,996评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,651评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,803评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,674评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,563评论 2 352

推荐阅读更多精彩内容