0 前言
数据库是大数据领域非常重要的一个部分,并且随着数据量不断增大和数据结构更加复杂,数据库技术将变得日益重要。笔者本科时修过数据库原理的课程,但当时仅从应用的角度去看,甚至都不能算有角度,只能说学了一点sql语句,甚是浅显,说一无所知都不过分。目前笔者处在研究生阶段,研究方向为大数据与数据挖掘,经过学习和探索,笔者认为数据库是本领域最重要的三项技术之一,其他两项分别为数据挖掘算法和云计算技术,有机会也会进行探讨与分享。本系列内容将是我在重读王珊、萨师煊编著,高等教育出版社出版的《数据库系统概论(第5版)》的过程中的笔记和思考,笔者将从数据库原理、数据库设计、关系数据库原理和数据库技术的应用四个方面进行梳理。
数据库原理
1.1 数据库概述
数据库是数据管理的有效技术,是计算机科学的重要分支。
1. 数据库的四个基本概念:数据、数据库、数据库管理系统和数据库系统。 数据是数据库中存储的几本对象。描述事物的符号记录称为数据。数据的含义称为数据的语义。数据库是存放数据的仓库。数据库是长期存储在计算机内、有组织的、可共享的大量数据的集合。数据库数据具有永久存储、有组织和可共享三个基本特点。数据库管理系统(DBMS)是位于用户与操作系统之间的一层数据管理软件。DBMS的主要功能有数据定义、数据组织存储管理、数据操纵、数据库的事务管理和运行管理、数据库的建立和维护、其他(通信、数据转换)等。数据库系统(DBS)是由数据库、数据库管理系统、应用程序和数据库管理员组成的存储、管理、处理和维护数据的系统。
2. 数据管理技术的三个阶段: 人工管理阶段——>文件系统阶段——(避免数据冗余,解决多用户、多应用共享数据问题)——>数据库系统阶段。
3. 数据库系统的特点: ①数据结构化。②数据的共享性高、冗余度低且易扩充。避免数据之间的不相同性和不一致性。(不一致性是指同一数据不同副本的值不一样)③数据独立性高。物理独立性是指用户的应用程序与数据库中数据的物理存储是相互独立的。逻辑独立性是指用户的应用程序与数据库的逻辑结构是相互独立的。④数据由数据库管理系统统一管理和控制。DBMS提供的数据控制功能包括数据的安全性保护、数据的完整性检查、并发控制和数据库恢复。
4. 数据模型:数据模型是一种模型,它是对现实世界数据特征的抽象。两大类:第一类是概念模型,第二类是逻辑模型和物理模型。用户的观点—>计算机系统的观点。现实世界—>信息世界(第一类)—>机器世界(第二类)。组成要素:数据结构,数据操作,数据的完整性约束条件。数据结构描述数据库的组成对象以及对象之间的联系,是系统的静态特性。数据操作是指对数据库中对象实例允许执行的操作的集合,主要有查询和更新(增删改)两大类,是对系统动态特性的描述。数据的完整性约束条件是一组完整性规则,对数据及其联系的制约和依存规则,以保证数据的正确、有效和相容。
4.1 概念模型
(1)信息世界的概念:实体(人,事,物),属性,码(唯一标识实体的属性集,学号),实体型(实体名与属性名集合抽象表示的同类实体,如学生(学号,姓名,性别)),实体集(同一类实体的集合,如全体学生),联系(实体各属性间,实体与实体间,一对一,一对多,多对多)。
(2)表示方法:实体-联系方法。该方法用E-R图,E-R方法也称为E-R模型。
4.2 逻辑模型
常见的有层次模型,网状模型,关系模型,面向对象数据模型,对象关系数据模型,半结构化数据模型。层次模型和网状模型统称为格式化模型,使用和实现时要涉及物理层的复杂结构,因而被关系模型取代,随着面向对象方法的影响,许多关系数据库厂商为了支持面向对象模型,将关系模型扩展为对象关系模型。由于Web上信息来源为半结构化和非结构化数据源,产生了以XML为代表的半结构化数据模型和非结构化数据模型。
格式化模型中实体用记录表示,实体的属性对应记录的数据项或字段,数据结构的单位是基本层次联系。基本层次联系指两个记录及他们之间的一对多(包括一对一)的联系。一-双亲节点,多-子女节点。
4.2.1 层次模型
层次数据库采用层次模型,代表有IMS(Information Management System),IBM,1968。
(1)数据结构:数据库中满足两个条件的基本层次联系的集合为层次模型:1)有且只有一个节点没有双亲节点,即根节点;2)根节点以外的其他节点有且只有一个双亲节点。
节点表示记录类型,连线表示记录类型之间的联系。记录类型描述实体,包含若干个字段,字段描述实体的属性。同一记录类型中各字段不能同名,每个记录类型可以定义一个排序字段,称为码字段,唯一表示一个记录值。
(2)数据操纵与完整性约束:插入时,无双亲节点就不能插入它的子女节点。删除时,删除双亲节点值相应的子女节点值也将被同时删除。
(3)优缺点:优点——简单清晰,查询效率高,性能优于关系数据库,不低于网状数据库,提供良好的完整性支持。缺点——无法表示现实世界中非层次性的联系(多对),对插入删除操作的限制多,应用程序编写比较复杂,查询子女节点必须通过双亲节点,结构严密层次命令趋于程序化。
4.2.2 网状模型
为了处理现实世界中的非层次关系,网状数据库采用网状模型,典型代表是DBTG系统,数据系统语言研究会,20世纪70年代。
(1)数据结构:数据库中满足两个条件的基本层次联系集合称为网状模型:1)允许一个以上的节点无双亲;2)一个节点可以有多于一个的双亲。
(2)数据操纵与完整性约束:对记录码的约束,码唯一表示记录的数据项集合;双亲记录和子女记录之间是一对多的联系;插入删除约束。
(3)优缺点:优点——更直接的描述现实世界,多对多的关联;良好的性能,存取效率较高。缺点——结构复杂,不利于用户掌握;DDL、DML复杂,用户不易掌握与使用;用户必须了解系统结构的细节,以便在访问数据是选择存取路径,这加重了应用程序的编写负担。
4.2.3 关系模型
关系数据库系统采用关系模型作为数据组织方式。IBM研究员E.F.Codd首次提出了数据库系统的关系模型,1970,1981获图灵奖。
(1)数据结构:关系模型由一组关系组成,关系的数据结构是一张规范化的二维表。表中的一行是一个元组,表中的一列是一个属性。表中唯一确定一个元组的的属性是码,属性值的范围称为域,元组中的一个属性值称为一个分量。关系的每个分量必须是一个不可分的数据项,即不允许表中有表。
(2)数据操纵与完整性约束:数据操纵包括增删改查,需满足关系的完整性约束条件,包括三类,实体完整性,参照完整性和用户定义的完整性。关系模型中的数据操作是集合操作,关系模型把存取路径对用户隐蔽,提高了数据的独立性。
(3)优缺点:优点——建立在严格的数学概念的基础上,实体和实体之间的联系均为关系,数据结构简单,清晰,易懂,易用,存取路径对用户透明,数据独立性高,安全保密性好,简化了程序员的工作。缺点——查询效率不如格式化模型,需要对用户的查询请求进行数学上的优化,开发数据库管理系统的难度较大。
5. 数据库系统的结构:从数据库应用开发人员角度看,数据库系统通常采用三级模式结构(数据库系统内部的系统结构)。从数据库最终用户的角度看,数据库系统的结构分为单用户结构,主从式结构,分布式结构,客户-服务器,浏览器-应用服务器/数据库服务器多层结构等(数据库系统外部的体系结构)。
5.1 数据库系统模式的概念
(1)型和值:型是指对某一类数据的结构和属性的说明,值是型的一个具体赋值。
(2)模式和实例:模式是对数据库中全体数据的逻辑结构和特征的描述,仅仅描述型,不涉及具体的值,模式的一个具体的值称为一个实例。模式相对稳定,实例相对变动。模式反映数据的结构和联系,实例反映数据库某一时刻的状态。
5.2 数据库系统的三级模式结构
数据库系统的三级模式结构是指数据库系统是由外模式、模式和内模式三级结构。
(1)模式:也称逻辑模式,是数据库中全体数据的逻辑结构和特征的描述,是所有用户的公共数据视图,是数据库系统模式结构的中间层。一个数据库只有一个模式。数据库模式以某一种数据模型为基础,将所有用户的需求结合成一个逻辑整体。数据库管理系统提供模式数据定义语言(模式DDL)来严格定义模式。
(2)外模式:也称子模式或用户模式,是数据用户看到和使用的逻辑结构和特征的描述,是数据库用户的数据视图,是与某一应用有关的数据的逻辑表示。外模式通常是模式的子集,一个数据库可以有多个外模式。对于模式中同一数据,不同用户在外模式中结构、类型、长度、保密级别等都可以不同。一个外模式可以被一个用户的多个应用系统使用,但一个应用程序只能使用一个外模式。外模式是保证数据库安全性的一个有力措施。数据库管理系统提供外模式数据定义语言(外模式DDL)来严格定义外模式。
(3)内模式:也称存储模式,一个数据库只有一个内模式,是数据物理结构和存储方式的描述,是数据在数据库内部的组织方式。例如,记录的存储方式是堆存储,还是升降序存储,还是聚簇存储,索引按照什么方式组织,是B+树还是hash索引,数据是否压缩,是否加密等。
5.3 数据库的二级映像功能与数据独立性
为了能够在系统内部实现这三个抽象层次的联系和转换,数据库管理系统在这三级模式之间提供两层映像:外模式/模式映像和模式/内模式映像。
(1)外模式/模式映像:全局逻辑结构到局部逻辑结构的映像。同一个模式对应任意多个外模式,对每一个外模式,数据库系统都有一个外模式/模式映像,映像定义在外模式的描述中。模式改变时(增加新的关系、属性、改变属性和数据类型等),由数据库管理员对各个外模式/模式的映像作相应改变,可以使外模式保持不变。应用程序依据数据的外模式编写,从而应用程序不必修改,保证了数据与程序的逻辑独立性。
(2)模式/内模式映像:该映像是唯一的,它定义了数据全局逻辑结构与存储结构之间的对应关系。映像定义包含在模式描述中,存储结构改变时,数据库管理员对模式/内模式映像作相应改变,可以使模式保持不变,从而应用程序也不必改变,保证了数据与程序的物理独立性。
数据库模式即全局逻辑结构是数据库的中心与关键,它独立于数据库的其他层次。内模式依赖于模式,但独立于数据的用户视图(外模式),也独立于具体的存储设备。外模式面向具体的应用程序,定义在逻辑模式之上,但独立于存储模式和存储设备,应具有可扩充性。
数据与程序之间的独立性使得数据的定义和描述可以从应用程序中分离出去,数据的存取️由数据库管理系统管理,简化了应用程序的编制,减少了应用程序的维护与修改。
6. 数据库系统的组成
数据库系统一般由数据库、数据库管理系统(及其应用开发工具)、应用程序和数据库管理员构成。
(1)硬件平台及数据库:数据量很大,数据库管理系统丰富的功能使其自身规模很大,因此需要1)有足够大的内存;2)足够大的磁盘或磁盘阵列等设备存放数据库;3)有较高的通道能力,以提高数据传送率。
(2)软件:数据库系统的软件主要包括数据库管理系统、支持数据库管理系统运行的操作系统、具有与数据库接口的高级语言及其编译系统、以数据库管理系统为核心的应用开发工具、为特定应用环境开发的数据库应用系统。
(3)人员:开发、管理和使用数据库系统的人员主要包括数据库管理员、系统分析员和数据库设计人员、应用程序员和最终用户。不同的人员涉及不同的数据抽象级别,具有不同的数据视图。
数据库管理员监督和管理数据库的两类共享资源,包括数据库和数据库管理系统软件,决定数据库中的信息内容和结构,决定数据库的存储结构和存取策略,定义数据的安全性要求和完整性约束条件,监控数据库的使用和运行,数据库的改进和重组、重构。系统分析员负责应用系统的需求分析和规范说明,确定系统的硬件软件配置,参与数据库系统的概要设计。数据库设计人员负责数据库中数据的确定及数据库各级模式的设计。应用程序员负责设计和编写应用系统的程序模块,并进行调试和安装。用户(指最终用户)通过应用系统的用户接口使用数据库,常用的接口方式有浏览器、菜单驱动、表格操作、图形显示、报表书写等。最终用户分为偶然用户、简单用户和复杂用户。
1.2 数据库安全性
数据库的特点之一是由数据库管理系统提供统一的数据保护功能来保证数据的安全可靠和正确有效。数据库的数据保护主要包括数据的安全性和完整性。本章主要介绍数据库的安全性。
1. 数据库安全性概述
数据的安全性是指保护数据库以防止不合法使用所造成的数据泄露、更改或破坏。
(1)数据库的不安全因素:非授权用户对数据库的恶意存取和破坏(黑客),DBMS提供的安全措施包括用户身份鉴别、存取控制和视图等技术;数据库中重要或敏感的数据被泄漏,DBMS提供的主要技术有强制存取控制、数据加密存储和加密传输等,对安全性要求较高的部门提供审计功能,分析审计日志可以对潜在啊的威胁提前采取措施加以防范,对非授权用户的入侵行为及信息破坏情况进行跟踪;安全环境的脆弱性,数据库的安全性与计算及系统的安全性紧密相关,包括硬件、操作系统、网络系统等的安全性,因此发展建立了一套可信计算机系统的概念和标准,即安全标准,用以规范和指导安全生产。
(2)安全标准:计算机以及信息安全技术方面有一系列的安全标准,最有影响的当推TCSEC(1985,美国国防部DoD)和CC(通用准则,1999被ISO采用国际标准,2001被我国采用为国家标准)。
TCSEC:又称桔皮书,1991,美国国家计算机安全中心(NCSC)颁布TCSEC/TDI,即紫皮书,将TCSEC扩展到数据库管理系统。从四个方面描述安全性级别划分的指标,即安全策略、责任、保证和文档。根据计算机系统对各项指标的支持情况,TCSEC/TDI将系统划分为4组7个等级,依次是D、C(C1,C2)、B(B1,B2,B3)、A(A1),按系统的可信程度逐渐增高。D级:最低级别。具备基本功能,几乎无专门的安全性保护机制。DOS是操作系统安全标准为D级的典型例子。 C1级:自主安全保护。实现用户与数据的分离,进行自主存取控制(DAC),保护或限制用户权限的传播。C2级:安全产品的最低档,提供受控的存取保护。个人身份注册,实施审计和资源隔离。例如Win2000和Oracle7。B1级:标记安全保护。对系统数据加以标记,对标记的主体和客体进行强制存取控制(MAC)和审计。该级别的产品被认为是真正意义上的安全产品。B2级:结构化保护。对系统内的所有主体和客体实施DAC和MAC。B3级:安全域。该级的TCB(Trusted Computing Base)必须满足访问监控器的要求,审计跟踪能力更强,提供系统恢复过程。A1级:验证设计。提供B3级保护的同时给出系统的形式化设计说明和验证。
CC:信息技术安全性的结构,即把对信息产品的安全要求分为安全功能要求和安全保证要求。安全功能要求用以规范产品和系统的安全行为,安全保证要求解决如何正确有效地实施这些功能。有7级评估保证级
2. 数据库安全性控制
数据库的安全性控制主要包括用户身份鉴别、多层存取控制、审计、视图和数据加密。
2.1 用户身份鉴别:是DBMS提供的最外层安全保护措施,用户标识(用户名和标识号)——系统核对——权限使用。常见的用户身份鉴别方法有静态口令鉴别(即密码,存储和传输时加密)、动态口令鉴别(短信密码和动态令牌)、生物特征鉴别(生物特征唯一且稳定,指纹、虹膜和掌纹)和智能卡鉴别(不可复制,硬件加密功能,存在安全隐患,个人身份识别码PIN和智能卡相结合)。
2.2 存取控制:确保只授权给有资格的用户访问数据库的权限(用户对某一数据对象的操作权力),令所有未授权的人员无法接近数据。存取控制机制主要包括定义用户权限和合法权限检查。DBMS需提供适当的语言来定义用户权限,这些定义经过编译后存储在数据字典中,被称作安全规则或授权规则。用户发出存取数据库的操作请求(包括操作类型、操作对象和操作用户等信息)后,DBMS查找数据字典,根据安全规则进行合法权限检查,超出权限则拒绝。C2级提供自主存取控制(DAC),B1级提供强制存取控制(MAC)。
(1)自主存取控制方法:同一用户对不同对象权限不同,不同用户对同一对象权限也不同。用户可将其权限转授其他用户。大型DBMS都支持自主存取控制,SQL标准通过GRANT语句和REVOKE语句来实现。用户权限由数据库对象和操作类型两个要素组成。定义存取权限(授权)是定义用户可以在哪些数据库对象上进行哪些类型的操作。非关系系统中,存取控制的数据库对象仅限于数据本身,关系数据库系统中,存取控制的数据对象包括数据本身(基本表中的数据、属性列上的数据)和数据库模式(数据库、基本表、视图和索引等)。关系数据库系统中的操作类型包括对数据本身的增删改查和对数据库模式的创建和更新。
权限的授予与收回:SQL中GRANT语句向用户授予权限,REVOKE语句收回已经授予用户的权限。GRANT 权限 ON 对象类型 对象名 TO 用户 WITH GRANT OPTION;意为对指定操作对象的指定操作权限授予指定的用户。发出者可以是数据库管理员、数据库对象创建者和已经拥有该权限的用户。接受者可以是一个或多个具体的用户,也可以是public全体用户。如果指定了WITH GRANT OPTION子句,则获得该权限的用户还可以把该权限授予其他用户,否则不可。REVOKE 权限 ON 对象类型 对象名 FROM 用户 CASCADE(或RESTRICT);意为收回指定用户对指定操作的指定的权限。CASCADE为级联,即对该用户授予其他用户的该项权限一并收回。用户可以“自主”地决定将数据的存取权限授予何人、决定是否也将“授权”的权限授予别人,因此称这样的存取控制是自主存取控制。
创建数据库模式的权限:创建用户语句 CREATE USER 用户名 权限;,三种权限是CONNECT权限、RESOURCE权限和DBA权限。CONNECT是默认权限,用户只能登录数据库;RESOURCE权限允许用户创建基本表和视图,不能创建模式和用户;拥有DBA权限的用户是系统中的超级用户,可以创建新的用户、模式、基本表和视图等,拥有对所有数据库对象的存取权限,还可授予一般用户。
数据库角色:是被命名的一组与数据库操作相关的权限,是权限的集合。存在的意义是简化授权的过程。创建角色的SQL语句 CREATE ROLE 角色名;用GRANT语句给角色授权和将角色授予用户(若授权时使用WITH ADMIN OPTION则获得权限的角色或用户可以把该权限授予其他角色),用REVOKE语句收回授权角色的权限。
(2)强制存取控制方法:数据库对象被标以一定的密级,每个用户被授予一个级别的许可证。对于任意一个对象,只有具有合法许可证的用户才可以存取。(实质上是对数据的存取权限及数据本身都进行安全控制)在强制存取控制中,数据库管理系统所管理的全部实体被分为主体和客体两大类。主体包括数据库中的实际用户和用户进程,客体包括文件、基本表、索引、视图等。DBMS给主体和客体的每个实例指派一个敏感度标记,分为绝密(TS)、机密(S)、可信(C)、公开(P)等级别。主体的敏感度标记称为许可证级别,客体的敏感度标记称为密级。强制存取控制机制通过对比主体的敏感度标记和客体的敏感度标记,最终确定主体是否能够存取客体。
存取规则:1)许可证级别>=密级时,主体可读取客体;2)许可证级别<=密级时,主体可写客体。(规则2的解释:用户可以为写入的数据对象赋予高于自己的许可证级别的密级,不可低于,一旦写入,该用户自己不能读取,否则可以把数据恶意降为低密级,从而造成泄漏)
(3)DAC+MAC安全检查:SQL语法分析&语义检查——>DAC检查——>MAC检查——>继续语义检查
3. 视图机制
视图是用来对用户的权限进行限制的机制,间接地实现支持存取谓词的用户权限定义,实现对部分数据的存取权限。例如,某用户只能检索某个系学生的信息(对部分权限部分数据的限制)。CREATE VIEW 视图名 AS SELECT* FROM Student WHERE Sdept=‘CS’;GRANT SELECT ON 视图名 TO 用户名;ALL PRIVILEGES 表示所有权限。
属性层面的保护机制,更灵活的数据保护。
4. 审计
审计功能是DBMS达到C2以上安全级别必不可少的一项指标。审计功能把用户对数据库的所有操作自动记录下来放入审计日志中。审计员利用审计日志监控数据库中的各种行为,重现导致数据库现有状况的一系列事件,找出非法存取数据的人、时间和内容等,对潜在的威胁提前采取措施加以防范。;
耗费时间和空间?DBMS允许数据库管理员根据具体应用对安全性的要求灵活地打开或关闭审计功能。
(1)审计事件:包括四类,服务器事件、系统权限、语句事件和模式对象事件。服务器事件包括数据库服务器的启动、停止、配置文件的重新加载。系统权限对系统拥有的结构或模式对象进行操作的审计。语句事件是对SQL语言,如DDL(Data Definition Language)、DML(Data Manipulation Language,数据操纵语言,对数据的增删改查)、DQL(Data Query Language)及DCL(Data Control Language)语句的审计。模式对象事件对特定模式对象上进行的SELECT或DML操作的审计,模式对象包括表、视图、存储过程、函数等。
(2)审计功能:审计查阅方式(基本的、可选的、有限的等)、审计规则(DB初始化时设定)、审计分析和报表功能、审计日志管理(防止审计员误删,先转储后删除,转储的审计记录文件提供完整性和保密性保护,只允许审计员查阅,不允许任何用户修改)、DBMS提供查询审计设置及审计记录信息的专门时图。
(3)设置和取消审计功能的语句:AUDIT语句和NOAUDIT语句。审计分为用户级审计和系统级审计。用户级审计是指由任何用户设置的,针对用户自己创建的数据库表或视图的审计,记录所有用户对这些表或视图的访问及操作。系统级审计只能由数据库管理员设置,用以检测登录要求、授权和收回操作及其他数据库级权限下的操作。AUDIT 操作 ON 表或视图;NOAUDIT 操作 ON 表或视图;审计设置与审计日志一般都存储在数据字典中,在系统表SYS_AUDITTRAIL中查看审计信息。审计机制相当于事后检查,可以约束用户可能的恶意操作。
5. 数据加密
数据加密时防止数据库数据在存储和传输中失密的有效手段,基本思想是将原始数据(明文)——>密文(不可直接识别),不知道解密算法的人无法获知数据内容。数据加密主要包括存储加密和传输加密。
(1)存储加密:包括透明和非透明两种存储加密方式。透明存储加密是内核级加密保护方式,对用户透明,是数据在写到磁盘上时对数据的加密,应用程序不需要修改,只需要创建表语句中说明加密的字段,性能好,安全完备性高。非透明的存储加密时通过多个加密函数实现的。
(2)传输加密:为保证数据库用户与服务器之间的安全数据交换,DBMS提供传输加密功能。传输信息由报头和报文组成,报头是路由选择信息,报文是数据信息。常用的传输加密方式有链路加密和端到端加密。链路加密是对数据在链路层进行加密,对报头和报文均加密。端到端加密对传输数据在发送端加密,接收端解密,只加密报文,不加密报头,中间节点不需要密码设备,但易被非法监听者发现并获取敏感信息。
基于安全套接层协议(Security Socket Layer,SSL)的数据库管理系统可信传输方案,采用端到端的传输加密方式,对应用程序透明。实现思路包括:1)确认通信双方端点的可靠性。2)协商加密算法和密钥。3)可信数据传输。
评价:数据库加密增加了查询处理的复杂性,查询效率会受到影响,加密数据的密钥管理和数据加密对应用程序的影响也是数据加密过程中需要考虑的问题。
6. 其他安全性保护
本部分介绍除DAC和MAC外的其他三种安全性保护机制:推理控制、隐蔽信道和数据隐私保护。
(1)推理控制:用来避免用户利用其能够访问的数据推知更高密级的数据,例如利用列的函数依赖关系,用户从低安全等级的信息推导出无权访问的高安全等级信息,进而导致信息泄露。常用的方法有基于函数依赖的推理控制和基于敏感关联的推理控制。
(2)隐蔽通道:解决利用未被强制存取控制的SQL执行后的反馈结果信息进行间接的信息传递。例如,表的码值已存在时,插入时会报错,若插入值为高安全等级用户写入的数据,则低安全用户插入时报错,则导致信息的泄露。
(3)数据隐私:是控制不愿被他人知道或他人不便知道的个人数据的能力。涉及数据管理中的数据收集、数据存储、数据处理和数据发布等各个阶段。
1.3 数据库完整性
数据库的完整性是指数据的正确性和相容性。数据的正确性是指数据是符合现实世界语义、反映当前实际状况的;数据的相容性是指数据库同一对象在不同关系表中的数据是符合逻辑的。数据的完整性是为了防止数据库中存在不符合语义的数据,防止数据库中存在不正确的数据。防的是不合语义的、不正确的数据。数据的安全性是保护数据库防止恶意破坏和非法存取。防的是非法用户和非法操作及非法存取。
为了维护数据库的完整性,DBMS须实现以下功能:1)提供定义完整性约束条件的机制。完整性约束条件=完整性规则=数据必须满足的语义约束条件。SQL标准适用了一系列概念来描述完整性,包括关系模型的实体完整性、参照完整性和用户定义完整性。2)提供完整性检查的方法。检查是否满足完整性约束条件。一般在增删改操作和事务提交时进行检查。3)进行违约处理。拒绝执行该操作(NO ACTION)或级联执行其他操作(CASCADE)。
关系数据库管理系统使得完整性控制成为其核心支持的功能,从而为所有用户和应用提供一致的数据库完整性。
1. 实体完整性:用来保证数据的唯一性。
(1)定义实体完整性:CREATE TABLE中用PRIMARY KEY定义,定义码。单属性码,定义为列级约束条件或表级约束条件。多属性码定义为表级约束条件。列级约束条件跟在属性后面定义,例如Sno CHAR(9) PRIMARY KEY;表级约束条件在所有属性定义结束后单独定义,例如PRIMARY KEY(Sno,Cno)。
(2)实体完整性检查和违约处理:当插入记录或对主码列进行更新操作时,自动进行实体完整性检查。包括检查主码是否唯一,不唯一拒绝操作,检查主码的各个属性是否为空,一个为空拒绝操作。
唯一性检查的方法:全表扫描和对主码建立索引。全表扫描非常耗时。对主码建立的索引,例如B+树,可以大大提高效率。
2. 参照完整性:用来保证数据库各表之间的一致性。
(1)定义参照完整性:CREATE TABLE中用FOREIGN KEY定义,定义外码,用REFERENCES短语指明外码参照哪些表的主码。例如,FOREIGN KEY (Sno) REFERENCES Student(Sno)。
(2)参照完整性检查和违约处理:对被参照表和参照表进行增删改操作时进行检查,确保两个表的相容性。不一致发生时,处理策略有拒绝执行、级联操作(当删除或修改被参照表的一个元组导致与参照表的不一致时,删除或修改参照表中的所有导致不一致的元组)、设置为空值。关于外码能否为空值的问题:若表a的外码为表a的主码时,必须定义为非空,否则可以为空值。对不同的操作采用不同的违约处理,例如,FOREIGN KEY (Sno) REFERENCES Student(Sno) ON DELETE NO ACTION ON UPDATE CASCADE。
3. 用户定义的完整性:针对某一具体应用的数据必须满足的语义要求。
(1)属性上的约束条件:(定义)创建表定义属性时,可以根据要求定义对属性的约束条件,即属性值限制,包括列值非空(Sno CHAR(9) NOT NULL)、列值唯一(Dname CHAR(9) UNIQUE)、检查列值是否满足一个条件表达式(Ssex CHAR(2) CHECK (Ssex IN('男','女')))。(违约处理)插入元组或修改属性值时检查,不满足则拒绝执行操作。
(2)元组上的约束条件:(定义)创建表时用CHECK短语定义元组上的约束条件,即元组级的限制。可以设置不同属性之间的取值的相互约束条件。例,CHECK (Ssex='女' OR Sname NOT LIKE 'Ms.%')意思为性别为女性的元组能通过检查,若性别是男性时,需要检查名字不能以Ms.开头。(违约处理)插入元组或修改属性值时检查,不满足则拒绝执行操作。
4. 其它完整性控制机制:包括完整性约束条件的命名与修改,域的完整性限制,断言和触发器。
(1)完整性约束命名子句:(功能)通过对完整性约束条件命名,可灵活地增加、删除一个完整性约束条件。(命名语句)CONSTRAINT <完整性约束条件名><完整性约束条件>(e.g. CONSTRAINT C1 CHECK(Sno BETWEEN 90000 AND 99999) 即将“学号在90000~99999之间”的约束条件命名为C1),完整性约束条件包括NOT NULL,UNIQUE,PRIMARY KEY,FOREIGN KEY,CHECK短语等。(删除约束条件)ALTER TABLE STUDENT DROP CONSTRAINT C1;(添加约束条件)ALTER TABLE STUDENT ADD CONSTRAINT C1 CHECK(Sno BETWEEN 90000 AND 99999) ; 若修改某个约束条件,则可先将其删除后添加一个新的约束条件。
(2)域中的完整性限制:(域的定义)域是一组具有相同数据类型的值的集合,通过CREATE DOMAIN语句建立一个域。(域的功能)域可以用来定义属性,通过对域的完整性约束实现对属性的完整性约束,这样的优点是,数据库中不同的属性可以来自同一个域,当域上的完整性约束条件改变时只需修改域的定义即可,不必一一修改域上的各个属性。(e.g. 建立一个性别域,并声明性别域的取值范围:CREATE DOMAIN GenderDomain CHAR(2) CHECK(VALUE IN('男','女')); 则在建表时对Ssex的说明可以由Ssex CHAR(2) CONSTRAINT C4 CHECK(Ssex IN ('男','女'))改写为Ssex GenderDomain)
域的完整性约束条件也可通过(1)中的完整性约束命名子句进行命名和操作。
(3)断言:通过声明断言来指定更具一般性的约束和定义涉及多个表或聚集操作的比较复杂的完整性约束。断言创建后,任何对断言中所涉及关系的操作都会触发关系数据库管理系统对断言的检查,任何使断言不为真值的操作都会被拒绝执行。(创建语句)CREATE ASSERTION<断言名><CHECK 子句>, e.g. 限制数据库课程最多60名学生选修:CREATE ASSERTION ASSE_SC_DB_NUM CHECK(60>=(SELECT count(*) FROM Course,SC WHERE SC.CNO=COURSE.CNO AND COURSE.CNAME='数据库')).(删除语句)DROP ASSERTION <断言名>
(4)触发器:是用户定义在关系表上的一类由事件驱动的特殊过程,一旦定义,触发器将被保存在数据库服务器中,任何用户对表的增删改查操作均由服务器自动激活相应的触发器,在核心层进行集中的完整性控制。触发器类似于约束,但是比约束更灵活,可以实施更为复杂的检查和操作,具有更精细和更强大的数据控制能力。
(定义)触发器又叫事件-条件-动作规则,即当特定的系统事件(如表的增删改操作,事务的结束等)发生时,对规则的条件进行检查,若条件成立,则执行动作,否则不执行,规则中的动作体可以很复杂,可以设计其他表和其他数据库对象,通常是一段SQL存储过程。触发器的定义语言格式如下:CREATE TRIGGER <触发器名> {BEFORE|AFTER} <触发事件> ON <表名> REFERENCING NEW|OLD ROW AS<变量> FOR EACH{ROW|STATEMENT} [WHEN<触发条件>] <触发动作体> (说明:只有表的拥有者才可以在表上创建触发器,并且一个表上创建的触发器数目有限,具体数量取决于具体的关系数据库管理系统的设计;触发器名可以包含模式名,也可不含,同一模式下,触发器名唯一,出发起名和表名在同一模式下;触发器只能定义在基本表(也称为触发器的目标表)上,不能定义在视图上;触发事件可以是INSERT、DELETE或UPDATE,也可以是几个事件的组合,如INSERT OR DELETE,还可以是UPDATE OF <触发列,...>,即进一步指明修改哪些列时激活触发器,AFTER/BEFORE 是触发的时机,即事件之前触发还是事件之后触发;触发器按照所触发动作的间隔尺寸可以分为行级触发器(FOR EACH ROW)和语句级触发器(FOR EACH STATEMENT);只有当触发条件为真时触发动作体才执行,否则触发动作体不执行,如果省略WHEN触发条件,则触发动作体在触发器激活后立即执行;触发动作体可以是匿名的PL/SQL过程块,也可以是对已创建存储过程的调用,若触发动作体执行失败,触发器事件终止执行,目标表或对象不发生任何变化。)
【例】当对表SC的Grade属性进行修改时,若分数增加了10%,则将此次操作记录到另一个表SC_U (Sno、Cno、Oldgrade、Newgrade)中,其中Oldgrade是修改前的分数,Newgrade是修改后的分数。
CREATE TRIGGER SC_T /*SC_T是触发器的名字*/
AFTER UPDATE OF Grade ON SC /*UPDATE OF Grade ON SC 是触发事件,AFTER是触发时机,表示当对SC的Grade属性修改完后再触发下面的规则*/
REFERENCING
OLDROW AS OldTuple, NEWROW AS NewTuple
FOR EACH ROW /*行级触发器,即每次执行一次Grade更新,下面的规则就执行一次*/
WHEN (NewTuple.Grade>=1.1*OldTuple.Grade) /*触发条件,只有该条件为真时才执行下面的操作*/
INSERT INTO SC_U (Sno,Cno,OldGrade,NewGrade)
VALUES (OldTuple.Sno,OldTuple.Cno,OldTuple.Grade,NewTuple.Grade)
(执行原则)一个数据表上可能定义了多个触发器,如多个BEFORE触发器,多个AFTER触发器等,同一个表上的多个触发器激活时遵循如下的执行顺序:1)执行该表上的BEFORE触发器;2)激活触发器的SQL语句;3)执行该表上的AFTER触发器。多个BEFORE(AFTER)触发器,遵循“谁先创建谁先执行”的原则,按照触发器创建的时间先后顺序执行。
(删除)DROP TRIGGER <触发器名> ON <表名>; 触发器必须是一个已创建的触发器,并且只能由具有相应权限的用户删除。
1.4 数据恢复技术
事务是一系列的数据库操作,是数据库应用程序的基本逻辑单元。事务处理技术主要包括数据库恢复技术和并发控制技术。
1. 事务的基本概念
(1)事务:是用户定义的一个数据库操作序列,是一个不可分割的工作单位。
(2)事务与程序:一般地讲,一个程序包含多个事务。
(3)事务定义语句:BEGAIN TRANSACTION(开始);COMMIT(提交,即提交事务的所有操作,将事务中所有对数据库的更新写回到磁盘上的物理数据库中去);ROLLBACK(回滚,即发生故障,事务终止,系统将事务中对数据库已完成的操作全部撤销,回滚到事务开始时的状态);
(4)事务的ACID特性:原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)和持续性(Durability)。原子性是指事务是数据库的逻辑工作单位;一致性是指数据库必须从一个一致性状态变到另一个一致性状态;隔离性是指一个事务的执行不能被其他事务干扰,事务内部操作及使用的数据与其他并发执行的事务互不干扰;持续性也成永久性,是指一旦提交,永久修改。
(5)破坏事务ACID特性的因素:1)多个事务并行运行时,不同事务的操作交叉执行;2)事务在运行过程中被强行停止。数据恢复技术通过把数据库从错误状态恢复到某一已知的正确状态(一致状态或完整状态)从而保障事务的ACID特性不被破坏。
2. 故障的种类
(1)事务内部的故障:分为可预期的和非预期的。可预期的故障可以通过条件语句进行回滚,非预期的不能由应用程序处理,如运算溢出、并发事务发生死锁而被选中撤销该事务等。对待此类故障采用事务撤销操作,即撤销该事务已经作出的任何对数据库的修改,使得该事务好像根本没有启动一样。
(2)系统故障(软故障):是指造成系统停止运转的任何事件,使得系统要重启,例如硬件错误、操作系统故障、系统断电等。内存中内容丢失,运行事务非正常终止,为保证数据一致性,需要清除这些事务对数据库的所有修改,重做所有已提交的事务。
(3)介质故障(硬故障):指外存故障,如磁盘损坏、磁头碰撞,瞬时强磁场干扰等。
(4)计算机病毒:是数据库系统的主要威胁。
各类故障对数据库的影响总结为两种:一是数据库本身被破坏;二是数据本身被破坏可能不正确。
数据库恢复的基本原理是冗余,数据库中任何一部分被破坏或不正确的数据可以根据存储在系统别处的冗余数据来重建。
3. 恢复的实现技术
两个关键问题:如何建立冗余数据和如何利用冗余数据实施数据库恢复。建立冗余数据最常用的技术是数据转储和登记日志文件。
(1)数据转储:数据库管理员定期将整个数据库复制到磁带、磁盘或其他存储介质上保存起来的过程。备用数据被称为后备副本或后援副本。当数据库遭到破坏后,可以将后备副本重新装入。重装后备副本后数据库恢复到转储时的状态,要想恢复到故障发生时的状态,必须重新运行自转储后的所有新事务。
转储可分为静态转储和动态转储。静态转储是在系统中无运行事务时进行转储操作。静态转储得到的一定是一个数据一致性的副本。动态转储时指转储期间允许对数据库进行存取或修改,转储和用户事务可以并发执行。转储结束时后援副本上的数据并不能保证正确有效。
为了避免动态转储过程中发生一致性错误,必须把转储期间各事务对数据库的修改活动等记下来,建立日志文件。
数据转储有两种方式(海量和增量),分别在两种状态(动态和静态)下进行,因此数据转储方法可以分为4类:动态海量转储、动态增量转储、静态海量转储、静态增量转储。
(2)登记日志文件
a.定义:日志文件是用来记录事务对数据库的更新操作的文件。
b.格式:以记录为单位的日志文件和以数据块为单位的日志文件。
c.内容:(以记录为单位的日志文件)登记各个事务的开始标记、结束标记、所有更新操作,记录事务标识、操作类型、操作对象、更新前数据的旧值、更新后数据的新值。(以数据块为单位的日志文件)记录事务标识和被更新的数据块,将更新前的整个块和更新后的整个块都放入日志文件中。
d.作用:1)事务故障恢复和系统故障恢复;2)动态转储中建立日志文件,后备副本和日志文件结合起来才能有效地恢复数据库;3)静态转储中建立日志文件,当数据库毁坏后可重新装入后援副本把数据库恢复到转储结束时刻的正确状态,利用日志文件把已完成的事务进行重做,对故障发生时尚未完成的事务进行撤销处理。
e.登记原则:1)登记的次序严格按并发事务执行的时间次序;2)必须先写日志文件,后写数据库。
4. 恢复策略
目标:当系统运行过程中发生故障时,利用数据库后备副本和日志文件将数据库恢复到故障前的某个一致性状态。
(1)事务故障的恢复:恢复子系统利用日志文件撤销某发生故障的事务已对数据库进行的修改。由系统自动完成,对用户透明。恢复步骤是:反向扫描日志文件,查找该事务的更新操作,对该事务的更新操作执行逆操作,继续反向扫描日志文件,对该事务的其他操作执行逆操作,直至读到此事务的开始标记,事务故障恢复完成。
(2)系统故障的恢复:恢复操作撤销故障发生时未完成的事务,重做已完成的事务。由系统在重启时自动完成,不需要用户干预。恢复步骤是:正向扫描日志文件,找出在故障发生前已经提交的事务,加入重做队列,同时找出故障发生时尚未完成的事务,加入撤销队列;对撤销队列中的各事务进行撤销处理,即反向扫描日志文件,对更新操作执行逆操作;对重做队列中的各事务重做处理,即正向扫描日志文件,重新执行每个更新操作。
(3)介质故障的恢复:恢复方法是重装数据库,然后重做已完成的事务。需要数据库管理员介入,数据库管理员需要重装最近转储的数据副本和有关的各日志文件副本,执行恢复命令,具体的恢复操作由数据库管理系统自动执行。恢复步骤是:装入最新的后备副本,是数据库恢复到最近一次转储时的一致性状态;装入相应的日志文件副本,即转储结束时刻的日志文件副本,重做已完成的事务。
5. 具有检查点的恢复技术
(1)恢复子系统在搜索检查日志文件时面临的两个问题,一是搜索整个日志将耗费大量的时间,二是很多需要重做处理的事务实际上已经将更新操作结果写入数据库,恢复子系统重复执行浪费时间。
(2)解决办法:在日志文件中添加一类记录——检查点记录,记录建立检查点时刻所有正在执行的事务以及每个事务对应的最新的日志记录地址。创建一个“重新开始文件”存放每个日志文件中检查点记录的地址。
(3)动态维护日志文件的方法是:周期性地执行建立检查点、保存数据库状态的操作。具体步骤是:写日志缓冲区的日志记录入磁盘的日志文件,然后写入一个检查点记录,写数据缓冲区的数据记录入磁盘的数据库,然后写检查点记录在日志文件中的地址入一个重新开始文件。
----检查点可以预定时间间隔建立,也可以按照某种规则建立,例如日志文件写满一半建立一个检查点。
(4)具有检查点的恢复策略:将事务按照检查点进行分类,对不同类别的事务采用不同的处理方式。 对于在故障发生时还未完成的事务予以撤销;对于在检查点之后完成提交的事务进行重做(可能未写入数据库);对于检查点前完成提交的事务不必重做。
(5)系统使用检查点方法进行恢复的步骤是:从重新开始文件中找到最后一个检查点记录在日志文件中的地址,然后在日志文件中找到该检查点记录;然后由该检查点记录得到检查点建立时刻所有正在执行的事务清单,建立UNDO-LIST(撤销清单,所有事务放入此清单)和REDO-LIST(重做清单,初始为空);从检查点开始正向扫描日志文件,对新开始的事务暂时放入撤销清单,对提交的事务从撤销清单移入重做清单;对撤销清单的事务执行UNDO操作,对重做清单的事务执行REDO操作。
6. 数据库镜像
数据库镜像可以根据数据库管理员的要求,自动把整个数据库或其中的关键数据复制到另一个磁盘上,每当数据更新时,数据库管理系统自动把更新后的数据复制过去,由数据库管理系统自动保证镜像数据与数据库的一致性。
好处:1)出现数据库介质故障时不需关闭系统和重装副本,可由镜像磁盘提供继续使用和恢复;2)无故障时也可支撑并发操作,例如当一个用户对数据加排他锁进行数据修改时,其他用户可以通过镜像数据库进行读数据操作,无需等待该用户释放锁。
注:实际应用中,为避免频繁的数据复制造成系统运行效率低的问题,用户往往只选择对关键数据和日志文件进行镜像,而非整个数据库。
1.5 并发控制
1. 并发执行的作用:由于事务执行过程中可能需要不同的资源,因此并发执行可以充分利用系统资源,发挥数据库共享资源的特点。
2. 并发方式:交叉并发和同时并发。交叉并发方式是指在单处理机系统中事务的并行操作轮流交叉运行,同时并发方式是指在多处理机系统中,每个处理机运行一个事务,多个处理机可以同时运行多个事务,实现多个事务真正的并行运行。(本书讨论的并发控制是基于单处理机系统的,也可以推广至多处理机的情况)
3. 并发控制:当多个用户并发地存取数据库时就会产生多个事务同时存取同一数据的情况,并发控制就是控制多用户的并发操作不会破坏事务的一致性和数据库的一致性。
4. 并发操作造成数据不一致性的三种情况:丢失修改、不可重复读、读脏数据。
(1)丢失修改:两个事务T1和T2读入同一数据并修改,T2提交的结果破坏(覆盖)了T1提交的结果,导致T1的修改无效(丢失)。
(2)不可重复读:事务T1读取数据后,事务T2对数据更新,使T1无法再读出与前一次读取相同的结果,包括值不同、部分数据被删、有部分新数据。
(3)读脏数据:事务T1对数据进行了操作后事务T2读数,T1由于某种原因被撤销,数据恢复原值,T2读到的就是脏数据,即不正确的数据。
5. 数据不一致的主要原因:并发操作破坏了事务的隔离性。
6. 并发控制的主要技术:封锁、时间戳、乐观控制法、多版本并发控制等。
7. 封锁:事务T在对某个数据对象(例如表、记录等)操作之前,先向系统发出请求对其加锁,在事务T释放锁之前,其他事务不能更新此数据对象。基本的封锁类型有两种:排他锁(exclusive locks, 简称X锁)和共享锁(share locks, 简称S锁)。若事务T对数据对象A加上X锁,则只允许T读取和修改A,其他事务不能对A加任何类型的锁,从而不能对A进行任何操作。若事务T对数据对象A加上S锁,则事务T可以读A但不能修改A,其他事务只能再对A加S锁,而不能加X锁,保证其他事务可以读A,但不可以修改。
8. 封锁协议:在运用X锁和S锁进行加锁时,约定的一些规则,例如加锁申请时间、持锁时间、释放时间等。
(1)一级封锁协议:事务T在修改数据R之前必须先对其加X锁,直到事务结束才释放。如果仅仅是读数据而不对其进行修改,是不需要加锁的,因此无法保证可重复读和不读脏数据。
(2)二级封锁协议:在一级封锁协议的基础上增加事务T在读取数据R之前必须先对其加S锁,读完即可释放S锁。由于读完数据后即可释放S锁,所以它不能保证可重复读。
(3)三级封锁协议:在一级封锁协议的基础上增加事务T在读取数据R之前必须先对其加S锁,直到事务结束才释放。可以实现可重复读。
9. 活锁与死锁:
活锁是指某一事务由于与其他事务的封锁申请冲突而不断等待。处理方法是采用先来先服务的策略。
死锁是指两个事务在互相等待对方释放锁,从而两个事务永远不能结束,形成死锁。处理方法有两类:预防死锁的发生和检测并解除死锁。
(1)死锁的预防:一次封锁法,即要求每个事务必须一次将所有要使用的数据全部加锁,否则不能继续执行。问题:扩大了封锁的范围,降低了系统的并发度;由于数据库中的数据不断变化,导致封锁对象可能需要扩大,因此难以精确确定每个事务要封锁的对象。顺序封锁法,即要求所有事务按照一个固定的顺序对数据对象进行封锁。问题:数据库只能够数据对象极多且不断变化,要维护封锁顺序非常困难;事务的封锁请求随着事务的执行动态决定,很难事先确定要封锁的对象,更无顺序可言。
(2)死锁的诊断:超时法,即如果一个事务的等待时间超过了规定的时限,则认为发生死锁。问题:容易误判;不能及时发现死锁的发生。等待图法,即将事务及其之间的等待关系用有向图表示,在有向图中出现回路的表明出现了死锁。
(3)死锁的接触:选择一个处理死锁代价最小的事务,将其撤销,释放此事务持有的所有锁,使其他事务得以继续运行下去。对撤销的事务所执行的数据修改操作必须加以恢复。
10. 并发调度:在不出现数据一致性问题的情况下,对于并发事务的诸多操作,采用不同的执行顺序会产生不同的结果,并发事务操作的执行序列被称为并发调度。为了评价不同并发调度的正确性,数据库系统采用多事务串行执行的结果作为标准,认为执行结果等价于串行执行的并发调度是正确的,这样的并发调度也被称为可串行化调度。
(1)可串行化调度:多个事务的并发执行是正确的,当且仅当其结果与按某一次序串行地执行这些事务时的结果相同。
(2)可串行性(serializability)是并发事务正确调度的准则。
(3)冲突操作:不同事务对同一数据的读写操作和写写操作被称为是冲突操作。冲突的地方在于二者顺序交换会产生不同的执行结果。冲突操作之外的其他操作被称为不冲突操作。交换两个不冲突操作不会影响执行结果。
(4)冲突可串行化:一个调度在保证冲突操作的次序不变的情况下,通过交换两个事务不冲突操作的次序得到一个串行调度,则称该调度为冲突可串行化的调度。若一个调度是冲突可串行化的,则一定是可串行化的调度。(可串行化的调度不全是冲突可串行化的调度)
(5)两段锁协议:为保证并发调度的可串行化,数据库管理系统采用两段锁(TwoPhase Locking, 简称2PL)协议。两段锁是指一个事务的执行阶段分为两个阶段,第一个阶段只封锁,第二个阶段只释放封锁。例如,遵循两段锁协议的封锁顺序是Slock A, Slock B, Xlock C, Unlock B, Unlock A, Unlock C. 不遵循两段锁协议的封锁顺序是Slock A, Unlock A, Slock B, Xlock C, Unlock C, Unlock B.
——两段锁协议与可串行化调度:事务遵守两段锁协议是可串行化调度的充分条件,而不是必要条件。即遵守两段锁协议的事务其并发调度都是可串行化的,但可串行化的并发调度不一定所有事务都符合两段锁协议。
——两段锁协议与预防死锁的一次封锁法:一次封锁法要求每个事务必须一次性对所有数据加锁,中间不能执行其他操作,而两段锁协议并不要求一次将所有数据加锁。一次封锁法遵守两段锁协议,但是遵守两段锁协议的事务可能发生死锁。
11. 封锁的粒度:封锁对象的大小。可以是逻辑单元:属性值、属性值集合、元组、关系、索引项、整个索引、整个数据库;也可以是物理单元:页、物理记录等。
(1)(评价方法)封锁粒度的选择应该考虑两个因素:封锁开销和并发度。封锁开销指加锁和释放的次数,并发度是指并发的事务数。
(2)多粒度封锁:采用树结构(称为多粒度树)管理数据库中封锁对象的包含关系,对数据对象进行封锁时,自上而下的加锁,对一个结点加锁意味着这个结点的所有后裔结点也被加同样的锁。多粒度封锁中一个数据对象可能以两种方式被封锁:1)显示封锁,即直接加到数据对象上的锁;2)隐式封锁,即由于其上级结点加锁而使该数据对象加上了锁。系统在检查封锁冲突时需要上下搜索,即搜索其从根节点开始的所有上级结点、当前结点及其所有下级结点,若其中某个数据对象已经加了不相容的锁,则必须等待。
(3)意向锁:为了提高多粒度封锁的效率,提出采用意向锁对被加锁结点的上级结点加锁,即对结点进行加锁时,必须先对它的上层结点加意向锁。三种常用的意向锁:意向共享锁(Intent Share Lock,IS锁);意向排他锁(Intent Exclusive Lock,IX锁);共享意向排他锁(Share Intent Exclusive Lock,SIX锁)。
——IS锁:如果一个数据对象加了IS锁,说明它的后裔结点将要或已经加了S锁。
——IX锁:如果一个数据对象加了IX锁,说明它的后裔结点将要或已经加了X锁。
——SIX锁:如果一个数据对象加了SIX锁,说明它自身加了S锁,且它的后裔结点将要或已经加了X锁,即对它加S锁再加IX锁。
12. 其他并发控制方法:时间戳方法、乐观控制法、多版本并发控制等。
版本是指数据库中数据对象的一个快照,记录了数据对象某个时刻的状态。多版本并发控制通过产生多个数据库对象版本,实现写数据事务和多个读数据事务的并发。
1.6 数据库管理系统
1. 数据库管理系统的基本功能
数据库管理系统(DBMS)主要是是实现对共享数据有效的组织、存储、管理和存取。
(1)数据库定义和创建:用数据定义语言定义和创建数据库模式、外模式、内模式等数据库对象。例如关系数据库中建立数据库、表、视图、索引等。
(2)数据组织、存储和管理:数据包括数据字典、用户数据、存取路径等。要确定数据的文件结构和存取方式,实现数据之间的联系。基本目标是提高存储空间利用率和方便存取,提供多种存取方法(如索引查找、hash查找、顺序查找等)以提高存取效率。
(3)数据存取:提供用户对数据的操作功能,实现对数据库数据的检索、插入、修改和删除。提供功能强且易学易用的数据操纵语言、方便的操作方式和较高的数据存取效率。
(4)数据库事务管理和运行管理:运行控制和管理功能,包括多用户环境下的事务管理功能和安全性、完整性控制功能,数据库恢复、并发控制和死锁检测、安全性检查和存取控制等。
(5)数据库的建立和维护:数据库的初始建立、数据的转换、数据库的转储和恢复、数据库的重组和重构以及性能监测分析等。
(6)其他功能:通信功能,数据转换功能等。
2. 数据库管理系统的系统结构
——层次结构:应用层、语言处理层、数据存取层、数据存储层。
3. 语言处理层
(1)任务:是把用户在各种方式下提交给关系数据库管理系统的数据库语句转换成对关系数据库管理系统内层可执行的基本存取模块的调用序列。
(2)数据库语言:数据定义语言、数据操纵语言和数据控制语言。
——对数据定义语言的处理:语法分析、翻译成内部表示、存储在系统的数据字典中。
——对数据操纵语言的处理:词法分析和语法分析、把外部关系名、属性名转换为内部名、查询检查(存取权限和完整性检查)、对查询进行优化(两类:代数优化和存取路径优化)。将数据库数据操纵语句转换成一串可执行的存取动作这一过程称为一个逐步束缚过程。两种翻译方法:解释方法和预编译方法。①解释方法是指数据操纵语句以原始字符串的形式保存,只有需要执行时,利用解释程序去完成解释予以执行。②预编译方法是在用户提交数据操纵语句后对其进行翻译处理,保存产生好的可执行代码。③重编译方法即当数据库中因某些成分的改变而使一些程序的编译结果无效时,再对其执行一次编译。较好的重编译方法是将受影响的编译结果置“无效”标志,在其被执行时才进行自动重编译。
4. 数据存取层
向上为语言处理层提供单个元组的存取接口,向下与数据存储层通过系统缓冲区的存储接口相连。数据存取层包括事务管理子系统、控制信息管理模块、排序合并子系统、存取路径维护子系统、封锁子系统、日志登记子系统。
5. 缓冲区管理
数据存储层的主要功能是存储管理,包括缓冲区管理、内外存交换、外存管理等,其中缓冲区管理十分重要,数据存储层向数据存取层提供的接口就是由定长页面组成的系统缓冲区。
系统缓冲区设立的原因:一是它把数据存储层以上各系统成分和实际的外存设备隔离,外存设备的变更不会影响其他系统成分,使关系数据库管理系统具有设备独立性;二是提高存取效率。
缓冲区管理中主要算法是淘汰算法和查找算法,操作系统中有许多淘汰算法可以借鉴,如FIFO(先进先出算法)、LRU(最近最少使用的先淘汰算法)以及它们的各种改进算法。查找算法用来确定所请求的页是否在内存,可采用顺序扫描、折半查找、hash查找算法等。
6. 数据库的物理组织
问题:数据库是大量数据的有结构的综合性集合,如何将这样一个庞大的数据集合以最优的形式组织起来存放在外存上?
评价标准:一是存储效率高,节省存储空间;二是存取效率高,速度快,代价小。
核心问题:数据库实现的基础是文件,对数据库的任何操作最终要转化为对文件的操作,所以在数据库的物理组织中,基本问题是如何设计文件组织或者利用操作系统提供的基本的文件组织方法?
数据库中需要存储的4类数据:数据描述(包括数据外模式、模式、内模式),数据本身,数据之间的联系,存取路径。
数据库三种数据组织:
(1)数据字典的组织:有关数据的描述存储在数据库的数据字典中,其数据量小、使用频繁。数据字典按不同的内容在逻辑上组织为若干张表,在物理上可以将一个字典表对应一个物理文件,由操作系统负责存储管理,也可以将若干字典表对应一个物理文件,由关系数据库管理系统负责存储组织和管理。
(2)数据及数据联系的组织:操作系统提供的常用文件结构有顺序文件、索引文件、索引顺序文件、hash文件和B树类文件等。数据库中要求数据的组织和存储必须直接或间接、显示或隐含地体现数据之间的联系。在关系数据库中,实体及实体之间的联系都用一种数据结构——“表”来表示。
(3)存取路径的组织:在关系数据库中存取路径和数据是分离的,对用户是隐蔽的,存取路径可以动态建立,十分灵活。