针对数据库的详解文章

数据库详解

PS：以下页码以《数据库系统概论第五版》为主

一、第一章

数据库基本概念 P3

数据、数据库、数据库管理系统和数据库系统是与数据库技术密切相关的四个基本概念
数据、数据库、数据库管理系统和数据库系统 P4-P5
- 数据：数据是数据库中存储的基本对象；描述事物的符号记录称为数据。
- 数据库：数据库是长期储存在计算机内、有组织的、可共享是大量数据的集合。
  
  数据库中的数据按一定的数据模型组织、描述和储存，具有较小的冗余度¹、较高的数据独立性和易扩展性，并可为各种用户共享。
  
  概括的讲，数据库数据具有永久存储、有组织和可共享三个基本特点。
- 数据库管理系统：数据库管理系统和操作系统一样是计算机的基础软件，也是一个大型复杂的软件系统。它的主要功能包括以下几个方面：
  
  1.数据定义功能。
  
  2.数据组织、存储和管理各种数据。
  
  3.数据操纵功能:使用数据操纵语言DML实现增删改查。
  
  4.数据库的事务管理和运行管理。
  
  5.数据库的建立和维护功能。
  
  6.其他功能。
- 数据库系统：数据库系统是由数据库、数据库管理系统、应用程序和数据库管理员（DBA）组成的存储、管理、处理和维护数据的系统。
三个阶段：人工管理阶段、文件系统阶段、数据库系统阶段 P6-P9
- 人工管理阶段：20世纪50年代中期前。
- 文件系统阶段：50年代后期至60年代中期。
- 数据库系统阶段：60年代后期至今。
从文件系统到数据库系统标志着数据管理技术的飞跃。
数据操作的组成要素：数据结构，数据操作，数据的完整性约束条件 P18
1. 数据结构: 数据结构描述数据库的组成对象以及对象之间的联系。
2. 数据操作：数据操作是指对数据库中各种对象(型)的实例(值)允许执行的操作的集合，包括操作及有关的操作规则。
3. 数据的完整性约束条件：数据的完整性约束条件是一组完整性规则。
完整性规则是给定的数据模型中数据及其联系所具有的制约和依存规则，用以限定符合数据模型的数据库状态以及状态的变化，以保证数据的正确、有效和相容。
三个模型：层次模型，网状模型，关系模型 P19-P27
- 层次模型：最早出现的数据模型，典型代表是1968年的IBM公司推出的IMS。
  1. 层次模型的数据结构：
    
    在数据库中定义满足下面两个条件的基本层次联系的集合为层次模型：
    
    1.有且只有一个结点没有双亲结点，这个结点称为根节点。
    
    2.根以外的其他结点有且只有一个双亲结点。
    
    层次模型像一棵倒立的树，结点的双亲是唯一的。
  2. 层次模型的数据操纵和完整性约束：
    
    层次模型的数据操纵主要有查询、插入、删除和更新。进行插入、删除、更新操作时要满足层次模型的完整性约束条件。进行插入操作时，如果没有相应的双亲结点值就不能插入它的子女结点值。例如在图1.11的层次数据库中，若新调入一名教员，但尚未分配到某个教研室，这时就不能将新教员插入到数据库中。进行删除操作时，如果删除双亲结点值，则相应的子女结点值也将被同时删除。例如在图1.10的层次数据库中，若删除网络教研室，则该教研室所有教员的数据将全部丢失
  3. 层次模型的优缺点：
    
    层次模型的优点主要有:
    
    (1)层次模型的数据结构比较简单清晰。
    
    (2)层次数据库的查询效率高。因为层次模型中记录之间的联系用有向边表示，这种联系在DBMS中常常用指针来实现。因此这种联系也就是记录之间的存取路径。当要存取某个结点的记录值，DBMS就沿着这一条路径很快找到该记录值，所以层次数据库的性能优于关系数据库，不低于网状数据库。 (3)层次数据模型提供了良好的完整性支持。
    
    层次模型的缺点主要有:
    
    (1)现实世界中很多联系是非层次性的，如结点之间具有多对多联系，不适合用层次模型表示。 (2)如果一个结点具有多个双亲结点等，用层次模型表示这类联系就很笨拙，只能通过引入冗余数据(易产生不一致性)或创建非自然的数据结构(引入虚拟结点)来解决。对插入和删除操作的限制比较多，因此应用程序的编写比较复杂。 (3)查询子女结点必须通过双亲结点。 (4)由于结构严密，层次命令趋于程序化。
    
    可见，用层次模型对具有一对多的层次联系的部门描述非常自然、直观，容易理解这是层次数据库的突出优点。
- 网状模型:在现实世界中事物之间的联系更多的是非层次关系的，用层次模型表示非树形结构是很不直接的，网状模型则可以克服这一弊病。
  1. 网状模型的数据结构:
    
    在数据库中，把满足以下两个条件的基本层次联系集合称为网状模型:
    
    1.允许一个以上的结点无双亲。 2.一个结点可以有多于一个的双亲。
    
    层次模型中子女结点与双亲结点的联系是唯一的，而在网状模型中这种联系可以不唯一。
  2. 网状模型的数据操纵与完整性约束:
    
    网状模型一般来说没有层次模型那样严格的完整性约束条件，但具体的网状数据库系统对数据操纵都加了一些限制，提供了一定的完整性约束。例如，DBTG在模式数据定义语言中提供了定义DBTG数据库完整性的若干概念和语句，主要有: (1)支持记录码的概念，码即唯一标识记录的数据项的集合。例如，学生记录(如图1.13)中学号是码，因此数据库中不允许学生记录中学号出现重复值。
    
    (2)保证一个联系中双亲记录和子女记录之间是一对多的联系。 (3)可以支持双亲记录和子女记录之间的某些约束条件。例如，有些子女记录要求双亲记录存在才能插入，双亲记录删除时也连同删除。例如图1.13中选课记录就应该满足这种约束条件,学生选课记录值必须是数据库中存在的某一学生选修存在的某一门课的记录。DBTG提供了“属籍类别”的概念来描述这类约束条件。
  3. 网状模型的优缺点:
    
    网状模型的优点主要有:
    
    (1)能够更为直接地描述现实世界，如一个结点可以有多个双亲，结点之间可以有多种联系。 (2)具有良好的性能，存取效率较高。
    
    网状模型的缺点主要有:
    
    (1)结构比较复杂，而且随着应用环境的扩大，数据库的结构就变得越来越复杂，不利于最终用户掌握。 (2)网状模型的DDL、DML复杂，并且要嵌入某一种高级语言(如 COBOL、C)中。用户不容易掌握，不容易使用。 (3)由于记录之间的联系是通过存取路径实现的，应用程序在访问数据时必须选择适当的存储路径，因此用户必须了解系统结构的细节，加重了编写应用程序的负担。
- 关系模型：关系模型是最重要的一种数据模型。关系数据库系统采用关系模型作为数据的组织方式。
  1. 关系模型的数据结构:
  关系：一个关系对应通常说的一张表，例如图1.14中的这张学生登记表。
  
  元组(tuple):表中的一行即为一个元组。
  
  属性(attribute):表中的一列即为一个属性，给每一个属性起一个名称即属性名。如图1.14所示的表有6列，对应6个属性(学号，姓名，年龄，性别，系名和年级)。
  
  码(key):也称为码键。表中的某个属性组，它可以唯一确定一个元组，如图1.14中的学号可以唯一确定一个学生，也就成为本关系的码。
  
  域（domain):域是一组具有相同数据类型的值的集合。属性的取值范围来自某个域，如人的年龄一般在1至120 岁之间，大学生年龄属性的域是(15至45岁)，性别的城是(男女)，系名的域是一个学校所有系名的集合。
  
  也就是属性的取值区间。
  
  分量:元组中的一个属性值。
  
  关系模式：对关系的描述，可表示为：
  
  关系名（属性1，属性2，···，属性n）
  
  例如，上面的关系可描述为学生(学号，姓名，年龄，性别，系名，年级)
  
  1
  2
  3
  关系模式的要求必须是规范化的，关系的每一个分量必须是一个不可分的数据项，也就是不允许`表中有表` ARCADE
  1. 关系模型的数据操纵与完整性約束:
  关系模型的数据操纵主要包括查询、插入、删除和更新数据。这些操作必须满足关系的完整性约束条件。
  
  关系的完整性约束条件包括三大类:实体完整性、参照完整性和用户定义的完整性。其具体含义将在后续内容中介绍。
  
  关系模型中的数据操作是集合操作，操作对象和操作结果都是关系，即若干元组的集合，而不像格式化模型中那样是单记录的操作方式。另一方面，关系模型把存取路径向用户隐蔽起来，用户只要指出干什么或找什么不必详细说明“怎么干”或“怎么找”,从而大大地提高了数据的独立性，提高了用户生产率。
  1. 关系模型的优缺点：
  关系模型具有下列优点:
  
  (1)关系模型与格式化模型不同，它是建立在严格的数学概念的基础上的。
  
  (2)关系模型的概念单一。无论实体还是实体之间的联系都用关系来表示。对数据的检索和更新结果也是关系(即表)。所以其数据结构简单、清晰，用户易懂易用。 (3)关系模型的存取路径对用户透明，从而具有更高的数据独立性、更好的安全保密性，也简化了程序员的上作和数据库开发建立的工作。所以关系模型诞生以后发展迅速，深受用户的喜爱。
  
  关系模型具有下列缺点：
  
  例如，由于存取路径对用户是隐蔽的，查询效率往往不如格式化数据模型。为了提高性能，数据库管理系统必须对用户的查询请求进行优化，因此增加了开发数据库管理系统的难度。不过用户不必考虑这些系统内部的优化技术细节。
数据库系统的三级模式结构：模式、外模式、内模式 P29
1. 数据库系统模式的概念：
  - 在数据模型中有型(type)和值(value)的概念。型是指对某一类数据的结构和属性的说明，值是型的一个具体赋值。
    
    例如，学生记录定义为(学号，姓名，性别，系别，年龄，籍贯)这样的记录型，
    
    而(201315130，李明，男，计算机系，19，江苏南京市)则是该记录型的一个记录值。
  - 模式是数据库中全体数据的逻辑结构和特征的描述，它仅仅涉及对型的描述，不涉及具体的值。
    
    模式的一个具体值称为模式的一个实例。同一个模式可以有很多实例。
  - 模式是相对稳定的，而实例是相对变动的。
    
    因为数据库中的数据是在不断更新的。模式反映的是数据的结构及耳联系，而实例及映的是数据库某一时刻的状态。
2. 数据库系统的三级模式结构：
  数据库系统的三级模式结构是指数据库系统是由外模式、模式和内模式三级构成。
  - 模式(schema) 模式也称逻辑模式，是数据库中全体数据的逻辑结构和特征的描述，是所有用户的公共数据视图。一个数据库只有一个模式。
  - 外模式(external schema)
    
    外模式也称子模式(subschema)或用户模式，它是数据库用户(包括应用程序员和最终用户)能够看见和使用的局部数据的逻辑结构和特征的描述，是数据库用户的数据视图，是与某一应用有关的数据的逻辑表示。关系外模式通常是模式的子集，一个数据库可以有多个外模式。
  - 内模式(internal schema)
    
    内模式也称存储模式(storage schema),一个数据库只有一个内模式,它是数据物理结构和存储方式的描述，是数据在数据库内部的组织方式。
3. 数据库的二级映像功能与数据独立性
  数据库系统的三级模式是数据的三个抽象级别，它把数据的具体组织留给数据库管理系统管理，使用户能逻辑地、抽象地处理数据，而不必关心数据在计算机中的具体表示方式与存储方式。为了能够在系统内部实现这三个抽象层次的联系和转换，数据库管理系统在这三级模式之间提供了两层映像:外模式/模式映像和模式/内模式映像。正是这两层映像保证了数据库系统中的数据能够具有较高的逻辑独立性和物理独立性。
  外模式/模式映像
  
  描述的是数据的全局逻辑结构，(外模式描述的是数据的局部逻辑结构。对应于同一个模式可以有任意多个外模式。对于每一个外模式，数据库系统都有一个外模式/模式映像，它定义了该外模式与模式之间的对应关系。这些映像定义通常包含在各自外模式的描述中。当模式改变时(例如增加新的关系、新的属性、改变属性的数据类型等)，由数据库描述中。管理员对各个外模式/模式的映像作相应改变，可以使外模式保持不变。应用程序是依据数据的外模式编写的，从而应用程序不必修改，保证了数据与程序的逻辑独立性，简称数据的逻辑独立性。
  
  模式/内模式映像
  
  数据库中只有一个模式，也只有一个内模式，所以模式/内模式映像是唯一的，它定义了数据全局逻辑结构与存储结构之间的对应关系。例如，说明逻辑记录和字段在内部是如何表示的。该映像定义通常包含在模式描述中。（如选用了另一种存储结构)，由数据库管理员对模式/内模式映像作相应改变，可以使模式保持不变，从而应用程序也不必改变。保证了数据与程序的物理独立性，简称数据的物理独立性。
  
  数据库模式即全局逻辑结构是数据库的中心与关键，它独立于数据库的其他层次。因此设计数据库模式结构时应首先确定数据库的逻辑模式。
  
  数据库的外模式面向具体的应用程序。
  
  特定的应用程序是在外模式描述的数据结构上编制的。
数据库管理员DBA P31
- DBA
  1. 决定数据库中的信息内容和结构。
  2. 决定数据库的存储结构和存取策略。
  3. 定义数据的安全性要求和完整性约束条件。
  4. 监控数据库的使用和运行。
  5. 数据库的改进和重组、重构。
- 系统分析员
  
  系统分析员负责应用系统的需求分析和规范说明，要和用户及数据库管理员相结合，确定系统的硬件软件配置，并参与数据库系统的概要设计。
- 数据库设计人员
  
  数据库设计人员负责数据库中数据的确定及数据库各级模式的设计。数据库设计人员必须参加用户需求调查和系统分析，然后进行数据库设计。在很多情况下，数据库设计人员就由数据库管理员担任。

二、第二章（重点）

关系代数 P48

概念解释：
关系代数是一种抽象的查询语言，它用于对关系的运算来表示查询。

关系代数的运算按运算符的不同可分为传统的集合运算和专门的关系运算两类。
1. 传统的集合运算将关系看成元组的集合，其运算是从关系的“水平”方向，即行的角度来进行；
2. 而专门的关系运算不仅涉及行，而且涉及列。
3. 比较运算符和逻辑运算符是用来辅助专门的关系运算符进行操纵的。
运算符含义

集合运算符 ∪ 并

- 差

∩ 交

× 笛卡尔积

专门的关系运算符 σ 选择

π 投影

⋈ 连接

÷ 除
传统的集合运算：
传统的集合运算是二目运算，包括并、差、交、笛卡尔积4种运算。
- 并、差、交需要两张表结构相同。
- 笛卡尔积不需要两张表相同。
  
  这里的笛卡儿积严格地讲应该是广义的笛卡儿积,因为这里的笛卡尔积的元素是元组。两个分别为n目和m目的关系R和S的笛卡儿积是一个(n+m)列的元组的集合。元组的前n列是关系R的一个元组，后m列是关系S的一个元组。若R有k1个元组，S有k2个元组，则关系R和关系S的笛卡儿积有k1×k2个元组。
专门的关系运算：
专门的关系运算包括选择、投影、连接、除运算等。
1. 选择：选择又称为限制，它是在关系R中选择满足给定条件的诸元组。
  
  运算符含义
  
  比较运算符 > 大于
  
  ≥ 大于等于
  
  ＜小于
  
  ≤ 小于等于
  
  = 等于
  
  <> 不等于
  
  逻辑运算符 ¬ 非
  
  ∧ 与
  
  ∨ 或
2. 投影：关系R上的投影是从R中选择出若干属性列组成新的关系。
  
  投影之后不仅取消了原关系中的某些列，而且还可能取消某些元组，因为取消了某些属性列后，就可能出现重复行，应取消这些完全相同的行。
3. 连接：连接也称为θ连接。它是从两个关系的笛卡儿积中选取属性间满足一定条件的元组。
  - θ为“=”的连接运算称为等值连接。
    
    自然连接是一种特殊的等值连接,它要求两个关系中进行比较的分量必须是同名的属性组,并且在结果中把重复的属性列去掉。
    
    一般的连接操作是从行的角度进行运算，但自然连接还需要取消重复列，所以是同时从行和列的角度进行运算。
  - 此时，关系R中某些元组有可能在S中不存在公共属性上值相等的元组，从而造成R中这些元组在操作时被会弃了，同样，S中某些元组也可能被会弃。这些被会弃的元组称为悬浮元组(dangiingtupie)。
  - 如果把悬浮元组也保存在结果关系中，而在其他属性上填空值(NULL)，那么这种连接就叫做外连接(outerjoin):
    
    如果只保留左边关系R中的悬浮元组就叫做左外连接(let outerjoin或lett join);
    
    如果只保留右边关系S中的悬浮元组就叫做右外连接(right outerjoin 或 right join)。
4. 除运算:设关系R除以关系S的结果为关系T，则T包含所有在R但不在S中的属性及其值，且T的元组与S的元组的所有组合都在R中。
  给定关系R（X,Y）和S（Y,Z），其中X,Y,Z为属性组。R中的Y和S中的Y可以有不同的属性名，但必须出自相同的域集。
  
  求解步骤：
  1. 求R表各分量的象集；
  2. 依次查看R中各分量的象集哪个包含S表对公共属性组的投影元组的集合；
  3. 最后得出符合的分量的关系。
本节介绍了8种关系代数运算，其中并、差、笛卡儿积、选择和投影这5种运算为基本的运算。

其他三种运算，即交、连接和除，均可以用这5种基本运算来表达。引进它们并不增加语言的能力，但可以简化表达。

关系代数中，这些运算经有限次复合后形成的表达式称为关系代数表达式。

运算符	含义
集合运算符	∪	并
-	差
∩	交
×	笛卡尔积
专门的关系运算符	σ	选择
π	投影
⋈	连接
÷	除

运算符	含义
比较运算符	>	大于
≥	大于等于
＜	小于
≤	小于等于
=	等于
<>	不等于
逻辑运算符	¬	非
∧	与
∨	或

三、第三章（重点）

数据库查询
创建数据库
建索引，建视图
单表查询、多表查询
多看本章例题

3.3 数据定义

关系数据库系统支持三级模式结构，其模式、外模式和内模式中的基本对象有模式表、视图和索引等。因此SQL的数据定义功能包括模式定义、表定义、视图和索引的定义如表 3.3 所示。

操作对象操作方式

创建删除修改

模式 CREATE SCHEMA DROP SCHEMA null

表 CREATE TABLE DROP TABLE ALTER TABLE

视图 CREATE VIEW DROP VIEW null

索引 CREATE INDEX DROP INDEX ALTER INDEX

一个关系数据库管理系统的实例(instance)中可以建立多个数据库，一个数据库中可以建立多个模式，一个模式下通常包括多个表、视图和索引等数据库对象。

操作对象	操作方式
创建	删除	修改
模式	CREATE SCHEMA	DROP SCHEMA	null
表	CREATE TABLE	DROP TABLE	ALTER TABLE
视图	CREATE VIEW	DROP VIEW	null
索引	CREATE INDEX	DROP INDEX	ALTER INDEX

四、第四章

安全性完整性 P133
数据库的安全性是指保护数据库以防止不合法使用所造成的数据泄露、更改或破坏。
- 用户身份鉴别：
  - 静态口令鉴别
  - 动态口令鉴别
  - 生物特征鉴别
  - 智能卡鉴别
授予与收回 P141

五、第五章

用户定义的完整性
参照完整性
实体完整性

六、第六章

给出题目写出函数依赖 P180
判断是几范式
然后解释为什么是几范式
最后修改为更高一级的范式

一般考不到四范式

七、第七章

概念结构设计 P 215
逻辑结构设计
物理结构设计
给出一段话画出E-R图
E-R图是概念结构设计
根据E-R图转换成关系模式 P 231

九、第九章

查询步骤 P 275
- 查询分析
- 查询检查
- 查询优化
- 查询执行
查询优化 P 280
代数优化：查询树 P 282
- 选择运算应尽可能先做。
- 把投影运算和选择运算同时进行。
- 把投影同其前或后的双目运算结合起来。
- 把某些选择同在它前面要执行的笛卡儿积结合起来成为一个连接运算。
- 找出公共子表达式。

十、第十章

事务基本概念 P 293 :我们说事务是用户定义的一个数据库的操作序列，要么全做，要么全不做是一个不可分割的单位

原子性、一致性、隔离性、持续性（永久性）。

4个特征：

原子性：事务是数据库的逻辑工作单位，事务中包括的诸操作要么都做，要么都不做。

一致性：事务执行的结果必修是使数据库从一个一致性状态到另外一个一致性状态。

隔离性：一个事务的执行不能被其他事务干扰。

持续性：持续性也称为永久性。指一个事务一旦提交，它对数据库中数据的改变就应该是永久性的。
正常结束，非正常结束
事务故障，登记日志 P 298
恢复的实现技术 P 297
恢复策略 P 300

题目

考虑下图所示的日志记录：

序号日志

1 T1：开始

2 T1：写A，A=10

3 T2：开始

4 T2：写B，B=9

5 T1：写C，C=11

6 T1：提交

7 T2：写C，C=13

8 T3：开始

9 T3：写A，A=8

10 T2：回滚

11 T3：写B，B=7

12 T4：开始

13 T3：提交

14 T4：写C，C=12

假设开始时A，B，C的值都是0：

（1）如果系统故障发生在14之后，说明哪些事务需要重做，哪些事务需要回滚。系统恢复后A，B，C的值；

T1T3,T2T4

A=8,B=7;C=11

（2）如果系统故障发生在10之后，说明哪些事务需要重做，哪些事务需要回滚。系统恢复后A，B，C的值；

T1,T2T3

A=10,B=0,C=11

（3）如果系统故障发生在9之后，说明哪些事务需要重做，哪些事务需要回滚。系统恢复后A，B，C的值；

T1,T2T3

A=10,B=0,C=11

（4）如果系统故障发生在7之后，说明哪些事务需要重做，哪些事务需要回滚。系统恢复后A，B，C的值。

T1,T2

A=10,B=0,C=11

序号	日志
1	T1：开始
2	T1：写A，A=10
3	T2：开始
4	T2：写B，B=9
5	T1：写C，C=11
6	T1：提交
7	T2：写C，C=13
8	T3：开始
9	T3：写A，A=8
10	T2：回滚
11	T3：写B，B=7
12	T4：开始
13	T3：提交
14	T4：写C，C=12

十一、第十一章

给出并行的图判断是哪种并行错误：丢失修改、不可重复度，读脏数据 P 311
判断之后怎么解决，根据封锁协议回答 P 313
****题目1********．补充题****

针对下面三种不一致性给出解决方案。
1. 丢失修改：一级封锁协议
- 事务t在修改数据r之前必须先对其加X锁。直到事务结束才释放
1. 不可重复读：三级封锁协议
- 在一级封锁协议的基础上增加事务t在读取数据r之前必须先对其加s锁，直到事务结束释放
1. 读“脏”数据：二级封锁协议
- 在一级封锁协议的基础上增加事务t在读取数据r之前必须先对其加s锁，读完后即可释放s锁
死锁的预防 P 315
并发调度的可串行性 P 317

可串行化冲突可串行化判断方法

****题目********2********．****

判断r3(B)r1(A)w3(B)r2(B)r2(A)w2(B)r1(B)w1(A)是否是冲突可串行化调度。

Sc1=r3(B)r1(A)w3(B)r2(B)r2(A)w2(B)r1(B)w1(A)

1.可以先把r1(A)*和*w3(B)交换

得到Sc2=r3(B)w3(B)r1(A)r2(B)r2(A)w2(B)r1(B)w1(A)

2.然后再把r1（A）和r2(B)r2(A)w2(B)交换

得到Sc3=r3(B)w3(B)r2(B)r2(A)w2(B)r1(A)r1(B)w1(A)

3.Sc3等价于一个串行调度T3T2T1，并且两次操作都是基于不冲突操作的，所以Sc1即题目为冲突可串行化调度
两段锁协议 P 319