【学习笔记2】数据库中的数据组织

数据库存储模型

在学习笔记1中,介绍了关系型数据库数据以tuple为单位在文件中进行存储。在关系型数据库中,此种存储方式被称为row store, 或者称为n-array storage model(nsm)。

行式存储适合OLTP类事务请求。此种请求的特点是写多读少,读的内容常是大规模数据中部分数据的多数/全部属性值。所以row store在一次索引查询下,就能将一个tuple完全读取。

OLAP类请求的特点是写少读多,查询大规模数据中的绝大部分,同时通常只访问一个tuple中的少数几个属性。当数据库是row store时会产生两个弊端:

  1. 产生许多的page的磁盘访问。
  2. CPU cache line效率低,每次会加载很多无用的属性。

因此对于OLAP类请求,数据库适合采用column store。

column store中如何恢复同一tuple的数据:

  1. 每一个属性使用固定大小的存储(大部分),使用offset来确定数据的tuple归属


    图1: 固定大小的属性
  2. 针对每一个属性都绑定primary key


    图2: 冗余的主键
存储模型 优点 缺点
row store 适合插入、更新、删除;适合全属性或大部分属性的读 不适合大规模数据且少部分属性的读
column store 减少磁盘IO;增强了CPU cache的性能;适合数数据压缩;可以更大利用CPU向量计算 数据插入、更新、删除慢;重构tuple代价高;解压缩有代价

数据的表征

在数据按照特定的格式在文件中存储后,数据库系统就可以将数据从文件/存储设备中加载出来。但是存储的数据是字节流,数据库需要按照其数据类型协议将字节解释为具体含义的数据值。通常的数据类型:

  1. INTEGER/BIGINT/SMALLINT/TINYINT
    • 通常使用C/C++内置的整数数据类型来解释
  2. FLOAT/REAL vs. NUMERIC/DECIMAL
    • FLOAT/REAL 使用IEEE-754标准/定长的浮点数表示;NUMERIC/DECIMAL通常被存储为可读的字符串,加载读取时解释为相应的浮点数
  3. VARCHAR/VARBINARY/TEXT/BLOB
    • 抽象的解决方案是,使用一个header,header描述了数据的类型和长度,后面跟着实际的数据
  4. TIME/DATE/TIMESTAMP
    • 存储为时间戳,根据不同的日期类型,在解释时进行相应的截断。

其中,VARCHAR/VARBINARY/TEXT是有可能数据大小超过page的大小,这打破了学习笔记1中的假设(tuple的大小应该小于page size)。此种情况下,使用overflow page来存储超过规定大小的数据,以此来保证上述的假设保持成立。


图3: overflow page

针对BLOB/CLOB数据的类型,tuple只是存储来一个关于此数据的指针,数据的数据则存储在文件系统中。这样潜在的风险是此数据在文件系统中是部分脱离了数据库系统控制的。没有数据的可靠性保证,没有事务保护。

数据模型的表征

在从文件/存储设备中加载到字节数据后可以解释得到具体的relation的数据。但是这个解释的依据从何而来。这个解释的依据就是数据库中数据的metadata,称为data dictionary/system catalog。

system catalog的主要内容有:

  • relation、column的物理存储信息
  • view定义、完整性约束信息
  • 用户权限信息
  • 索引信息

此种meta存储在数据库系统的特定位置,在关系型数据库中又通常表示为relation的形式,保持和整个数据库数据访问方式的统一。根据ANSI标准,统一命名为INFORMATION_SCHEMA,是一个只读的,存储了table, view, column与procedure的relation。每个数据库系统的实现也有自己特定的metadata。

但是数据库在启动时该如何去加载这metadata relation?这个relation的metadata又在哪里?这就变成了一个死循环。因此metadata的加载通常在数据库系统中是由固化的代码去加载,也就是说数据库系统的metadata的metadata是写死在数据库系统的代码中的。

参考:

CMU 15-445/645 04
《Database System Concepts 7th editon》

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,039评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,223评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,916评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,009评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,030评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,011评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,934评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,754评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,202评论 1 309
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,433评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,590评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,321评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,917评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,568评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,738评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,583评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,482评论 2 352