读数据湖仓02数据抽象

读数据湖仓02数据抽象.png

1. 不同类型的数据

1.1. 不同类型的数据在存储方面有各自的特性,这些特性极大地影响了数据在数据湖仓中的存储和使用方式

1.2. 结构化数据

  • 1.2.1. 在企业等组织中,只有少量的数据是结构化数据

  • 1.2.2. 结构化数据是基于事务的数据,是组织日常业务的副产品

1.3. 文本数据

  • 1.3.1. 存在于许多地方,如合同、电子邮件、电话交谈、医疗记录等

1.4. 机器生成的模拟/物联网数据

  • 1.4.1. 这类机器包括摄像头、无人机、手表、闹钟、车辆等

  • 1.4.2. 由机器生成的数据无处不在

2. 数据量

2.1. 在组织中,对于不同类型的数据有不同的度量维度

2.2. 最重要的维度是数据量,而存储和管理不同数据量所使用的技术也各不相同

2.3. 与文本数据相比,结构化数据的数据量相对较小

2.4. 由机器生成的数据的数据量要远远超过文本数据的数据量

3. 数据的业务价值

3.1. 仅仅有大量的数据并不意味着所有的数据都具有业务价值

  • 3.1.1. 有些数据的业务价值很高

  • 3.1.2. 有些数据的业务价值则相对较低

3.2. 由机器生成的模拟/物联网数据

  • 3.2.1. 只有一小部分具有巨大的业务价值

  • 3.2.2. 大部分由机器生成的数据都是机械式的记录,它们很少或根本没有业务价值

    • 3.2.2.1. 如果有一天车床由于异常导致无法正常工作,那么我们需要高度关注该车床当天生成的数据

    • 3.2.2.2. 车床在工作过程中生成的有用数据的比例非常低

4. 数据的访问概率

4.1. 数据的访问概率与其蕴藏的业务价值密切相关

  • 4.1.1. 数据被访问的概率集中在有业务价值的数据中

4.2. 数据湖仓中数据的访问概率与数据的业务价值呈正相关

4.3. 将不常被访问的数据与访问概率较高的数据存储在同一个地方是没有意义的,应该将其存储到不同的数据存储器中

4.4. 将不同类型的数据存储在一起不仅会影响存储器的性能、增加成本,而且会降低数据分析工程师处理数据的效率

  • 4.4.1. 将访问概率较高的数据与访问概率较低的数据存储在数据湖仓中的同一位置并不明智

4.5. 在对数据进行分隔存储时,我们需要考虑是否检索存储在大容量存储器中的数据

  • 4.5.1. 需要考虑将数据存储到大容量存储器中后,在未来出现未知需求时,我们能否查找和分析已存入大容量存储器中的数据

  • 4.5.2. 在大容量存储器中找到所需的数据后,就可以很容易地将该数据存储到高性能存储器中

5. 数据降级

5.1. 随着时间的推移,所有类型的数据都会发生数据降级(Data Degradation)

5.2. 数据的访问概率会随着时间的推移而降低

5.3. 存储时间越久的数据,对解决当前问题有帮助的概率就越低

6. 基于大容量存储器的数据归档机制

6.1. 随着时间的推移,数据的访问概率和业务价值都会降低,为了提高数据的存储能力,将大容量存储器作为归档数据的载体是必要的

6.2. 数据被存储在归档存储区,当需要用到相关数据时,可以在归档存储区进行检索

6.3. 如果数据归档处理得当,那么几乎不需要在归档存储区中检索数据

7. 数据抽象

7.1. 数据抽象是数据湖仓的基础,它是许多依赖企业数据的应用程序的基础设施

  • 7.1.1. 正确的数据抽象使数据湖仓中的各方可以方便地访问和使用数据,也能使数据更易于理解

7.2. 数据抽象(Data Abstraction)是一种处理大量复杂数据的非常有用且必要的方法

7.3. 人们在日常生活中经常使用抽象的方法来处理规模庞大且复杂的事物

7.4. 使用抽象的方式引用对象比单独提及每个对象更简便

7.5. 数据类型不同,抽象模式和方法也不同

  • 7.5.1. 结构化数据通过数据模型进行抽象

  • 7.5.2. 文本数据通过本体(Ontology)和分类标准进行抽象

  • 7.5.3. 模拟/物联网数据通过蒸馏算法进行抽象

7.6. 经过初步观察,可以发现,数据模型和本体似乎是一回事

7.7. 这两种抽象类型之间也存在一些重要且明显的区别

  • 7.7.1. 数据模型面向内部,着眼于组织的内部运行

  • 7.7.2. 本体面向外部,用于描述外部世界

  • 7.7.3. 数据模型描述的数据可在必要时进行更改

  • 7.7.4. 本体所抽象的文本则不能更改

  • 7.7.5. 数据模型所使用的数据是有限的

  • 7.7.6. 文本以及文本所依据的外部世界的描述却不是有限的

    • 7.7.6.1. 外部世界可以永远存在

7.8. 数据模型和本体是对数据的抽象,而蒸馏算法则是对处理过程的描述

7.9. 基础数据中还有另一种重要的抽象概念,即数据在组织流程中流动时对数据血缘的抽象

  • 7.9.1. 数据是作为事务的一部分被采集的

  • 7.9.2. 数据一旦被采集,就会与其他同类数据汇集在一起

  • 7.9.3. 数据到达用于分析处理的位置后,分析人员需要全面了解数据经历的整个过程,只有这样他们才能成功进行分析处理

8. 结构化数据模型

8.1. 实体关系图(Entity Relationship Diagram,ERD)

  • 8.1.1. 实体关系图描述了组织的主要主题领域及实体之间的关系

8.2. 数据项集(Data Item Set,DIS)

  • 8.2.1. 数据项集则将实体扩展为其组成部分,包括特定实体的键、属性以及数据项集中实体的从属数据

8.3. 数据库模式(Database Schema)

  • 8.3.1. 数据库模式是数据项集的镜像,它描述了数据的物理属性、索引和唯一键值等特征

  • 8.3.2. 只是在数据项集的基础上增加了一些细节

8.4. 数据模型的不同组成部分是相互关联的,实体关系图中的每个实体都有一个对应的数据项集,并且每个数据项集都有一个对应的数据库模式

8.5. 数据模型通常不包括派生数据(Derived Data)或汇总数据(Summarized Data),仅包含粒度数据(Granular Data)

8.6. 数据模型的元素可用于为数据模型内部的数据提供上下文情境

9. 本体和分类标准

9.1. 本体是一组相关的分类标准

  • 9.1.1. 本体是无限的,创建本体是为了满足特定群体的需求

    • 9.1.1.1. 本体的元素可以无限扩展
  • 9.1.2. 本体中的每个分类标准都是独一无二的

  • 9.1.3. 第一种类型的本体是通用的,适用于任何主题

    • 9.1.3.1. “我喜欢……”

    • 9.1.3.2. “我爱……”

  • 9.1.4. 第二种类型的本体是针对某一学科的

    • 9.1.4.1. 医生有医学术语

    • 9.1.4.2. 律师有法律术语

    • 9.1.4.3. 建筑工人有建筑术语

  • 9.1.5. 第三种类型的本体是针对某个组织特定术语的本体

    • 9.1.5.1. 某家石油公司会使用一些只在其内部使用的术语

9.2. 分类标准是对相似事物的分类

  • 9.2.1. 每个分类标准中的元素都与其他分类标准中的元素存在着某种关系

  • 9.2.2. 分类标准中的每个元素都与分类标准的一般值有着相同的关系

  • 9.2.3. 分类标准用于对同类对象进行分类

  • 9.2.4. 分类标准是用来描述外部世界的

  • 9.2.5. 分类标准是一种固定的文本抽象,不会随意改变

10. 蒸馏算法

10.1. 从大量模拟/物联网数据中蒸馏有用的数据

10.2. 蒸馏算法的形式多种多样,如何选择取决于模拟/物联网数据自身的业务价值和最终业务价值之间的差异

10.3. 随着时间的推移,蒸馏算法也会随条件的变化而改变

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,490评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,581评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,830评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,957评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,974评论 6 393
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,754评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,464评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,357评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,847评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,995评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,137评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,819评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,482评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,023评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,149评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,409评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,086评论 2 355

推荐阅读更多精彩内容