Lecture #01 & #02

大数据介绍

科学应用处理大量数据的两方面原因:科学应用计算仿真实验数据显著增加;观测数据,通过传感器等仪器得到的数据量庞大。
从生活中的例子,存储卡容量的翻倍也说明大数据已经不是一个新问题了。

两个案例

  1. 某一家(Target)连锁超市比一个女孩的父亲更早的发现这个女孩已经怀孕了。
  2. 美国节目60分钟,对华尔街的高频交易,分秒必争的背后也是使用高性能平台来处理庞大的交易量。

大数据的定义

3-V定义:
Volume:庞大的数据量
Velocity:高频的处理速度
Variety:多种类数据(视频音频、有无结构)

5-V定义:
Veracity/validity:数据的有效性
Valve:数据的有价值性

大数据涉及层面

  1. 理论算法层面
  2. 系统层面 *
  3. 管理层面 *
  4. 搜索挖掘层面
  5. 隐私安全层面
  6. 应用层面

系统层面

  1. 并行或分布式计算平台
  2. 高性能计算、网格计算、云计算平台
  3. 存储设备和存储结构
  4. 互联网络
  5. 磁盘、内存计算架构

基本解决方案:商业硬件+开源软件+可扩展

管理层面

  1. 并行或分布式文件系统
  2. 开发应用框架
  3. 去冗余(重复数据删除)
  4. 数据压缩
  5. 元数据管理
  6. 非关系型数据库的设计

并行计算:大数据计算的基础

1台机器 45分钟,10台机器 4.5分钟。并行分布式是基础,必须以此方案来解决大数据计算。

高性能计算

一种并行(分布式)计算形式,侧重于性能(大规模,大规模并行处理)
•超级计算的同义词(“超级计算机”)
•高端计算,云计算/数据中心(行业公司术语)

并行计算和分布式计算的区别? (紧密与松散耦合)
问题-解决该问题的算法-编程语言-编译器成机器语言(instructions)-CPU执行
并行计算的优势在于避免多级流水线执行,从算法设计上改编成并行分布式算法,用多核处理器同时执行。

高性能计算解决的问题

  1. 解决大型/复杂的问题
  2. 节约时间和成本
  3. 提供并发机制同步解决问题(上百万用户同时访问)
  4. 闲置资源远程利用
  5. 解决单台计算机的物理极限(提供单核的频率无法解决功耗问题,这能走多核这条路。而且芯片体积很难再缩小,单台机器的性能总会有一个瓶颈)

解决历程:DOE-ANL 实验室的一台机器
从一个芯片-集成到一颗CPU或GPU处理器Compute Card,再到多颗CPU和GPU组成的Node Card,再到一台单节点的Rack机架,加上互通的网络一整套机柜构成多节点计算平台。

谬论

高性能计算其实并不容易

高性能计算面临的挑战

  • 高速互连(更快的数据移动,定制)
  • 互连架构(网状,圆环,胖树......)
  • 支持大规模处理的输入/输出(例如1M +内核)
  • 存储架构和足够的存储能力
  • 程序/调试/分析(并行的不确定性导致debug没有办法复现)
  • 资源管理(自定义操作系统,去掉不需要的功能),作业调度让机器的利用率更高,..
  • 工程/经济问题:冷却,电力,空间等

可扩展性是关键 - 实现高持续性能而不是高峰性能

现状

Petaflops(> 1015 Flop / s)计算与117计算机系统完全建立
§三种技术架构或“泳道”蓬勃发展

  • 商用处理器(例如英特尔)
  • 商用处理器+加速器(例如GPU)(88系统)
  • 轻量级核心(例如IBM BG,ARM,英特尔的Knights Landing)
    §超级计算的兴趣现已遍及全球,在许多新市场中都有增长(约500%的Top500计算机在工业中)
    §许多国家和地区都有Exascale(1018 Flop / s)项目
    §英特尔处理器最大份额,~92%

TOP 10

大数据和HPC

第一范例:纯理论,数学物理等理论研究上的发现,带来了formula和equation
第二范例:实验,通过公式和等式来进行实验完成并验证理论。
第三范例:高性能计算。当物理实验很难做,需要计算机来完成,利用模型来编写程序完成实验。那么这个模型model的背后实际上就是formula的支撑。
第四范例:不一定有公式和模型来描述问题,只有观测数据和观测栈,那么如何通过数据来找到一些结论和关联,来发现一些理论,出发点是数据,不再是根本的fomula,从数据learn,学习出来一种model。

高性能系统架构怎么样支持大数据应用

传统高性能系统架构大部分资源集中在计算节点资源(大部分是CPU、GPU、Memery),没有全局的数据文件管理。
数据量很大的时候,数据从存储中取出,然后分步到众多计算核心,再处理后写回,数据移动时间是主导问题。

分离式Decoupled高性能架构:针对大型数据应用,计算资源不在集中在计算节点,有一部分资源专门用来做数据分析,能够更接近存储端,更接近数据源的位置,Compute-side先做数据分析,然后进行数据分离后再分散到计算资源。
Storage-side就是先把存储端数据源读取到内存前先进行数据分析再分配,处理过后再写回。

本质:计算挪到数据的地方,而不是把数据挪到计算的地方。

  • 单独分配资源和部署数据处理节点(或数据节点)和计算节点
  • 将应用程序分解为计算密集型阶段和数据密集型阶段
  • 进行正常处理,最小化/减少数据移动/访问
  • 通过利用SCM提供更好的性能+位置
  • 当必要时,服务“胖”计算节点
  • 提供平衡计算和数据访问能力

对比
传统计算科学数据量不大的情况下传统HPC架构可以满足,但是大量非关系型数据需要在数据源的地方分析进行Reduce的数据分离,然后再计算。

分布式计算

并行计算把一个问题分解成多份,同时计算,强调tightly-coupled,紧耦合。
而分布式计算主要强调loosely-coupled 松耦合
也是问题分割成多份,但是分配到不同的地方,不在同一台机器,物理上很远的距离。百度搜索的客户端请求关键字,百度数据中心处理返回就是物理上的远距离分布式。

网格计算

本质上就是分布式计算上的超级计算。将多个大规模高性能计算系统计算资源结合起来,形成超级计算资源网络。同样是松耦合,结合的资源包括HPC计算资源,存储资源,传感器资源甚至是人力资偶。

云计算

工业界用词,本质上还是并行分布式计算。商业模式和场景的角度出发。资源的分配管理定制化的进行移交和传递以及共享。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,752评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,100评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,244评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,099评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,210评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,307评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,346评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,133评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,546评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,849评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,019评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,702评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,331评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,030评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,260评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,871评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,898评论 2 351

推荐阅读更多精彩内容

  • 【什么是大数据、大数据技术】 大数据,又称巨量资料,指的是所涉及的数据资料量规模巨大到无法在合理时间内通过传统的应...
    kimibob阅读 2,738评论 0 51
  • 出处:CSDN 开源(Open Source)用之于大数据技术,其作用有二:一方面,在大数据技术变革之路上,开源在...
    浮浮尘尘阅读 910评论 0 4
  • 1. 如何理解“分布式”? 经常听到”分布式系统“,”分布式计算“,”分布式算法“。分布式的具体含义是什么?狭义的...
    java后端学习阅读 6,830评论 0 2
  • Spark RDD(Resilient Distributed Datasets)论文 概要 1: 介绍 2: R...
    Joyyx阅读 1,861评论 0 5
  • 我完全无法把那个说话清脆的少女跟眼前这个一身皮衣皮裤,骑着黑色哈雷的女人联系在一起。 “你好,我就是之前跟你联系的...
    肖兴颖阅读 163评论 0 1