在工程师眼里,大数据计算与可视化究竟是怎样的?

数据计算

当对数据进行处理时,处理简单、结构化的数据集较为简单,算法复杂度也易于预测和评估,但是对于处理半结构化,非结构化数据时呈现多样化的问题,分析数据困难更大,算法复杂度超越了经典摩尔定量,整个算法性能也不易控制。在数据中心数据价值链中,为了挖掘数据的价值。需要根据不同的数据类型分类,采取不同的算法分析。

数据分类

1

 时序数据

基本描述:随着时间推移反复测量而得到的数值和事件序列。

数据举例:股票数据,交通数据。

主要数据结构:半结构化,非结构化数据。

算法举例:条件随机场,隐马尔可夫模型。

2

序列数据

基本描述:由带有或不带有时间概念的已经排序的要素或事件序列构成。 

数据举例:零售数据,基于数据

主要数据结构:半结构化,结构化数据。

算法举例:序列对比算法,隐马尔可夫模型。

3

图数据

基本描述:以图结构构成的数据集合,通常使用G=(V,E)表示一个图,其中V表示图中节点集合,E表示图中的边集合。

数据举例:社交网络数据,WWW数据,生物网络数据

主要数据结构:半结构化,非结构化数据。

算法举例:图挖掘算法,协同过滤算法,奇异值分解,网页排名。

4

流数据

基本描述:数据连续,持续流通,具有数据到达速度快,规模大和不确定性。

数据举例:电商交易数据,监控系统数据,互联网流量数据,传感网络数据,电信流量数据。

主要数据结构:非结构化数据。

算法举例:K-均值,高阶奇异值分解,支持向量机,平等树学习。

如果你对大数据开发感兴趣,想系统学习大数据的话,可以加入大数据技术学习交流扣扣群:数字5221数字89307,私信管理员即可免费领取开发工具以及入门学习资料

5

空间数据

基本描述:指在地理系中代表物理对象的数值信息。空间数据能够标识地球上任何物理对象位置,大小,形状。包含的属性,以及实体更多的信息。

数据举例:地图数据,医疗影响数据,远程传感数据,对地观测数据,轨迹数据。

主要数据结构:结构化数据,半结构化数据,非结构化数据。

算法举例:学习选择与空间数据特征关联。

6

多媒体数据

基本描述:由不同类型媒体综合组成的,通常包括文本,图形,图像,声音,视频图像,动画等不同类型的媒体,其特点是数据量大,对连续媒体数据要求传输速度快,并保持不同数据流之间的同步。

数据举例:文本数据,图形数据,图像数据,声音数据,视频数据。

主要数据结构:结构化数据,半结构化数据,非结构化数据。

算法举例:图像分割方法,运动矢量分析方法,模型构建的数字信息处理技术。

机器学习算法

1

监督学习

1. 线性回归模型

基本型线性算法

对数概率回归算法

线性判别分析算法

2. 分类学习

多分类学习算法

决策树算法

朴素贝叶斯算法

支持向量机算法

2

无监督学习

1.  聚类学习

聚类算法

高斯混合学习算法

2. 降维学习

主成分分析算法

K临近学习算法

核化线性降维算法。

3

半监督学习

1. 半监督学习

主动学习

协同训练

4

强化学习

1.  强化学习

马尔可夫决策处理

Q学习

有模型学习

免模学习

数据可视化能力

数据价值链最终需要将数据的隐含价值显性展现,以直观的体现数据的特征和价值。便于人们理解数据的表达。视觉定义为一种以某种概要形式抽取的信息。包括响应信息单位的各种属性和变量。数据可视化是把数据转换为图形图像的方式,帮助人们理解大量、复杂的数据。

数据可视化主要分为三类:

科学可视化

科学可视化主要研究如何可视化科学研究中产生的大量数据,如流体动力学模拟产生的数据,向量场和张量场等。这些数据本身往往包含在真实世界中存在的几何结构。

信息可视化

信息可视化主要研究抽象数据,如文本,图像,网络,股票,社交媒体等;

可视化分析

可视化分析和数据挖掘的最终目标是一致的。而可视化技术大体可以分为:

1.空间布局可视化

2.抽象/汇总可视化

3.交互式/实时式可视化

同时,数据可视化使数据变得更加容易理解,帮助越来越多的企业和组织从大数据中发现价值,化繁为简,实现更有效的决策过程。通常采用有效的可视化工具来实现。

大数据数据价值的发现主要通过可视化分析来完成。

1

空间布局可视化

   基本概述:将数据对象映射到坐标空间中的一个特定点的计算方法。

   特征:

1. 将认知能力通过空间信息可视化在终端上。

2. 无法展现数据中的复杂关系。

3. 一般采用树,图或网络来实现可视化呈现。

可视化图例:折线图,条形图,散点图,树映射图,弧形图等。

2

抽象和汇总可视化

基本概述:可视化渲染前对海量数据进行处理和汇总

 特征:

 1. 处理海量数据。

 2. 通过层次聚类算法对海量数据扩展。

 3. 以更紧凑将维方式展现数据。

可视化图例:直方图分级,数据立方图,层次聚类。

3

交互式/实时可视化

 基本概述:支持用户实时交互式可视化探索。

特征:

1:满足用户实时交互需求。

2:允许用户快速体现见解和反馈实时交互结果。

3:以数据驱动洞察数据价值。

可视化图例:微软PivotTable,Tableau,阿里DataV和百度Echarts等实时交互软件。

可视化层需要有丰富的可视化图形,以便完成数据价值的图形展示。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,496评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,407评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,632评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,180评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,198评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,165评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,052评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,910评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,324评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,542评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,711评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,424评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,017评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,668评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,823评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,722评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,611评论 2 353

推荐阅读更多精彩内容