前面介绍了关系模型主体结构。关系模型的另一重要组成部分是操作机制,或者说是 查询语言,它负责基础数据的检索与更新。下面将重点分析关系模型的查询语言,重点对关系代数和关系演算进行讨论,Codd 在 1971 年将它们定义为关系语言的基础。不严格的说,可以将关系代数描述为一种(高级的)过程式语言,即可用它告诉 DBMS 如何从数据库的一个或多个关系中构建新关系;而将关系演算看成是一种非过程式语言,它用公式给出由数据库中一个或多个关系构成的新关系的定义。然而,关系代数与关系演算形式上是互相等价的,即每个关系代数表达式都有一个等价的关系演算表达式与之相对应(反之亦然)。
演算与代数都是形式语言,对用户不太友好。它们通常用作其他高级关系数据库数据操作语言(Data Manipulation Language, DML)的基础。人们之所以对它们感兴趣,是因为它们阐述了每种数据操作语言所需的基本操作,而且它们是其他关系语言之间相互比较的标准。
关系演算用来衡量关系语言的选择能力。如果一种语言可以生成所有由关系演算推导出来的关系,就称它具有关系完备性。大多数关系查询语言都具有关系完备性,但它们比关系代数或关系演算更具表达能力,因为它们通常还附加了完成计数、求和以及排序等功能的操作。
关系代数
关系代数是一种纯理论语言,它定义了一些操作,运用这些操作可以从一个或多个关系中得到另一个关系,而不改变原关系。因此,它的操作数和操作结果都是关系,而且一个操作的输出可以作为另一个操作的输入。故而关系代数的一个表达式中可以嵌套另一个表达式,就像算术运算一样。这种性质称为闭包。
- 闭包(closure):关系在关系代数下是封闭的,正如数在算术运算下是封闭的一样。
关系代数是一种每次一关系(或集合)的语言,即用一条不带循环的语句处理,结果也是由所有元组组成的整个关系,当然,结果关系中的元组可能来自参与运算的多个关系。关系代数运算的语法形式有好几种,这里采用了一套通用的符号表示方法,但并没有进行严格的形式定义。
关系代数中包含了许多运算。Codd (1972a)首先提出了八个运算,现在又发展了一些其他的运算。关系代数中有五个基本运算,即选择、投影、笛卡尔积、集合并、集合差,它们能实现大多数人们感兴趣的数据检索操作。此外,还有连接、集合交、除运算等,它们都可以通过五个基本运算表示出来。
这其中选择和投影运算都是一元运算,因为他们只对一个关系进行运算。其他的运算则是作用在两个关系上,因此称为二元运算。在下面给出的定义中,R 和 S 代表两个关系,它们分别定义了属性:
1.一元运算
先来讨论关系代数中的两个一元运算:选择和投影。
-
选择(或限制):选择运算作用于单个关系 R,得到一个新关系,它由 R 中满足特定条件(谓词,predicate)的元组组成。通常表达式像下面这样:
选择运算举例:
列出工资多于 10000 英镑的所有员工。
这个例子中,输入关系是 Staff,谓词是 salary > 10000。通过选择运算定义了一个新的关系,它只包括关系 Staff 中工资多于 10000 英镑的元组。这个运算的结果如下图所示。可以运用逻辑运算符与、或、非来生成更为复杂的谓词。
-
投影:投影运算作用于单个关系 R,得到由 R 的一个垂直子集构成的新关系,该垂直子集抽取 R 中指定属性上的值并丢掉了重复元组。通常表达式像下面这样:
投影运算举例:
产生仅显示 staffNo、fName、lName 和 salary 信息的员工工资列表。
在这个例子中,投影运算定义了一个新的关系,它只包含 Staff 关系中指定的 staffNo、fName、lName 和 salary 属性,并以指定的顺序排列这些属性。
2.集合运算
选择和投影运算都只是从单个关系中提取信息。显然还会遇到这样的状况,需要结合多个关系中的信息。
-
并:两个关系 R 和 S 的并,定义了一个包含 R、S 中所有不同元组的新关系。R 和 S 必须具有并相容性。
-
集合差:集合差运算定义了一个新的关系,它由所有属于 R 但不属于 S 的元组构成。R 和 S 必须具有并相容性。
-
交:交运算定义了一个关系,它由既属于 R 又属于 S 中的元组构成。R 和 S 必须具备并相容性。
-
笛卡尔积:笛卡尔积运算定义了一个关系,它是关系 R 中每个元组与关系 S 中每个元组并联的结果。
分解复杂运算
关系代数运算可以变得相当复杂。实际使用时,可将这样的运算分解成一系列较为简单的关系代数运算,并为每个中间表达式的结果命名。一般通过赋值运算(用符号←表示)给关系代数运算的结果命名。这与一般编程语言中的赋值运算类似:将运算符右边的值赋给左边。
此外,还可以使用重命名运算,它能够对关系代数的运算结果命名。重命名允许将新关系中的每个属性名替换成指定的名称。
-
重命名运算:重命名运算给表达式 E 提供了一个新的名称 S,并将属性的名称替换成a1,a2, ... ,an。
3. 连接运算
通常只需要将满足特定条件的笛卡尔积结合起来,因此一般采用连接运算来代替笛卡尔积。连接运算是将两个关系结合起来组成一个新的关系,它是关系代数中一种重要的运算。连接是由笛卡尔积导出的,相当于把连接谓词看成选择条件,对两个参与运算关系的笛卡尔积执行一次选择运算。连接是 RDBMS 中最难以高效实现的运算之一,并且可能导致关系系统存在固有的性能问题。
连接运算有多种形式,例如:
θ连接、等接(θ连接的特例)、自然连接、外连接、半连接
-
θ连接:
-
自然连接:自然连接是关系 R 和 S 在所有公共属性 x 上的等接。但在得到的结果中每个公共属性仅保留一次,其余删除。
在连接两个关系时,经常会出现一个关系中的某些元组无法在另一个关系中找到匹配元组的情况,换句话说,就是这些元组在连接属性上不存在匹配值。但可能扔希望这些元组出现在结果中,这时就要用到外连接。
-
外连接:(左)外连接是这样一种连接,它将 R 中的所有元组都保留在结果关系中,包括那些公共属性与 S 不匹配的,不过,结果关系中来自 S 的所有非公共属性均取空。
-
半连接:半连接运算定义的关系包含 R 中的这样一些元组,它们参与了 R 与 S 满足谓词 F 的连接。
4. 除法运算
除法运算对于某些特殊类型的查询十分有用,这种查询经常出现在数据库应用当中。假设关系 R 定义在属性集合 A 上,关系 S 定义在属性集合 B 上,并且 B 包含于 A(B 是 A 的子集)。C = A - B,即 C 是属于 R 但不属于 S 的属性集合。接下来给出除法运算的定义。
-
除法运算:除法运算定义了属性集合 C 上的一个关系,该关系的元组与 S 中 每个 元组的组合都能在 R 中找到匹配元组。
5. 聚集运算和分组运算
除了简单的获取一个或多个关系中的元组和属性外,我们还希望对数据进行汇总和 聚集 运算,这类似于报表底部的合计,或是对数据进行分组运算,这类似与报表中的小计。前面说的那些关系代数运算均不能完成这两项功能,所以还需要另外的一些运算,如下所述。
-
聚集运算:将聚集函数列表 AL 用于关系 R,以获得在聚集列表上定义的一个关系。AL 包含一个或多个(<聚集函数>,<属性>)对。
- COUNT:返回相关联属性值的个数。
- SUM:返回相关联属性值的总和。
- AVG:返回相关联属性值的平均值。
- MIN:返回相关联属性值的最小值。
- MAX:返回相关联属性值的最大值。
-
分组运算:根据分组属性 GA 对关系 R 的元组进行分组,然后使用聚集函数列表 AL 得到新关系。AL 包含一个或多个(<聚集函数>,<属性>)对。结果关系包含分组属性 GA,以及每个聚集函数的结果。
分组运算的一般形式如下: 同一组中的所有元组在属性 a1, a2, ... ,an 上具有相同的值。
不同组中的元组在属性 a1, a2, ... ,an 上具有不同的值。