InnoDB 管理存储空间的基本单位,一个页的大小一般是 16KBInnoDB 为了不同的目的而设计了许多种不同类型的,比如存放表空间头部信息的页,存放 Insert Buffer 信息的页,存放INODE信息的页,存放undo日志信息的页等等等等。

1. 数据页结构

数据页代表的这块16KB大小的存储空间可以被划分为多个部分,不同部分有不同的功能

截屏2021-05-18 上午10.52.13

一个InnoDB数据页的存储空间大致被划分成了7个部分,有的部分占用的字节数是确定的,有的部分占用的字节数是不确定的

截屏2021-05-18 下午2.31.52

2. 数据记录在页中的存储

在页的 7 个组成部分中,存储的记录会按照指定的 行格式 存储到 User Records 部分。但是在一开始生成页的时候,并没有 User Records 这个部分,每当插入一条记录,都会从 Free Space 部分,也就是尚未使用的存储空间中申请一个记录大小的空间划分到 User Records 部分,当 Free Space 部分的空间全部被 User Records 部分替代掉之后,意味着这个页使用完了,如果还有新的记录插入的话,就需要去申请新的页了,这个过程的图示如下:

截屏2021-05-18 上午11.25.46

3. 数据记录头信息

1
2
3
4
5
6
mysql> CREATE TABLE page_demo(
-> c1 INT,
-> c2 INT,
-> c3 VARCHAR(10000),
-> PRIMARY KEY (c1)
-> ) CHARSET=ascii ROW_FORMAT=Compact;

page_demo 表有 3 个列,其中 c1c2 列是用来存储整数的,c3 列是用来存储字符串的。把 c1 列指定为主键,所以在具体的行格式中 InnoDB 不去创建 row_id 隐藏列。个表指定了 ascii 字符集以及 Compact 的行格式。所以表中记录的行格式示意图如下图所示

截屏2021-05-18 下午3.04.39

截屏2021-05-18 下午3.21.03

page_demo表的行格式演示图中画出有关的头信息属性以及c1c2c3列的信息简化后的行格式示意图如下图所示

page_demo 表中插入几条记录:

1
mysql> INSERT INTO page_demo VALUES(1, 100, 'aaaa'), (2, 200, 'bbbb'), (3, 300, 'cccc'), (4, 400, 'dddd');
截屏2021-05-18 下午3.37.48
  • delete_mask

    这个属性标记着当前记录是否被删除,占用1个二进制位,值为0的时候代表记录并没有被删除,为1的时候代表记录被删除掉

    被删除的记录之所以不立即从磁盘上移除,是因为移除它们之后把其他的记录在磁盘上重新排列需要性能消耗,所以只是打一个删除标记而已,所有被删除掉的记录都会组成一个所谓的垃圾链表,在这个链表中的记录占用的空间称之为所谓的可重用空间,之后如果有新记录插入到表中的话,可能把这些被删除的记录占用的存储空间覆盖掉。

  • min_rec_mask

    B+ 树的每层非叶子节点中的最小记录都会添加该标记

  • n_owned

    当前记录拥有的记录数

  • heap_no

    表示当前记录在本中的位置

    怎么不见 heap_no 值为 01 的记录呢 ?

    InnoDB 自动给每个页里边儿加了两个记录,由于这两个记录并不是用户自己插入的,称为伪记录或者虚拟记录。这两个伪记录一个代表最小记录,一个代表最大记录

    对于一条完整的记录来说,比较记录的大小就是比较主键的大小。插入的4行记录的主键值分别是:1234,这也就意味着这4条记录的大小从小到大依次递增。

    但是不管用户向中插入了多少记录,InnoDB的规定定义的两条伪记录分别为最小记录与最大记录。这两条记录是由 5 字节大小的 记录头信息和 8 字节大小的一个固定的部分组成的

截屏2021-05-18 下午4.21.56

最小记录和最大记录的heap_no值分别是01,也就是说它们的位置最靠前

  • record_type

    这个属性表示当前记录的类型,一共有 4 种类型的记录,0 表示普通记录,1 表示 B+ 树非叶节点记录,2 表示最小记录,3 表示最大记录。

  • next_record

    表示从当前记录的真实数据到下一条记录的真实数据的地址偏移量。

    下一条记录 指得并不是按照用户插入顺序的下一条记录,而是按照主键值由小到大的顺序的下一条记录。而且规定 Infimum 记录(也就是最小记录) 的下一条记录就本页中主键值最小的用户记录,而本页中主键值最大的用户记录的下一条记录就是 Supremum记录(也就是最大记录)

截屏2021-05-18 下午4.47.14

记录按照主键从小到大的顺序形成了一个单链表。最大记录next_record的值为0,这也就是说最大记录是没有下一条记录了,它是这个单链表中的最后一个节点

如果从中删除掉一条记录,这个链表也是会跟着变化的,比如我们把第2条记录删掉

截屏2021-05-18 下午4.53.16

  • 第2条记录并没有从存储空间中移除,而是把该条记录的delete_mask值设置为1
  • 第2条记录的next_record值变为了0,意味着该记录没有下一条记录了。
  • 第1条记录的next_record指向了第3条记录。
  • 最大记录n_owned值从5变成了4

**注: **主键值为2的记录被删掉,但是存储空间却没有回收,如果我们再次把这条记录插入到表中InnoDB 不回有因为新记录的插入而为它申请新的存储空间,而是直接复用了原来被删除记录的存储空间

4. Page Directory (页目录)

记录在页中按照主键值由小到大顺序串联成一个单链表,那根据主键值查找页中的某条记录。InnoDB 为记录制作了一个类似书本的页目录

  1. 将所有正常的记录(包括最大和最小记录,不包括标记为已删除的记录)划分为几个组。

  2. 每个组的最后一条记录(也就是组内最大的那条记录)的头信息中的 n_owned 属性表示该组内共有几条记录。

  3. 将每个组的最后一条记录的地址偏移量单独提取出来按顺序存储到靠近的尾部的地方,这个地方就是所谓的Page Directory,也就是页目录。页面目录中的这些地址偏移量被称为Slot),所以这个页面目录就是由组成的。

截屏2021-05-18 下午5.10.31

  • 现在 页目录 部分中有两个槽,也就意味记录被分成了两个组,槽0 中的值是 112,代表最大记录的地址偏移量(就是从页面的0字节开始数,数112个字节);槽1 中的值是 99 ,代表最小记录的地址偏移量。

  • 注意最小和最大记录的头信息中的 n_owned 属性

    • 最小记录的 n_owned 值为 1,这就代表着以最小记录结尾的这个分组中只有 1 条记录,也就是最小记录本身。
    • 最大记录的 n_owned 值为 5,这就代表着以最大记录结尾的这个分组中只有 5 条记录,包括最大记录本身还有我们用户插入的 4 条记录。

InnoDB 对每个分组中的记录条数是有规定的:对于最小记录所在的分组只能有 1 条记录,最大记录所在的分组拥有的记录条数只能在 1~8 条之间,剩下的分组中记录的条数范围只能在是 4~8 条之间。所以分组是按照下边的步骤进行的:

  • 初始情况下一个数据页里只有最小记录和最大记录两条记录,它们分属于两个分组。

  • 每插入一条记录,都会从页目录中找到主键值比本记录的主键值大并且差值最小的槽,然后把该槽对应的记录的 n_owned值加1,表示本组内又添加了一条记录,直到该组中的记录数等于8个。

  • 在一个组中的记录数等于8个后再插入一条记录时,会将组中的记录拆分成两个组,一个组中4条记录,另一个5条记录。这个过程会在 页目录 中新增一个来记录这个新增分组中最大的那条记录的偏移量。

再往 page_demo 表中添加一些记录

1
mysql> INSERT INTO page_demo VALUES(5, 500, 'eeee'), (6, 600, 'ffff'), (7, 700, 'gggg'), (8, 800, 'hhhh'), (9, 900, 'iiii'), (10, 1000, 'jjjj'), (11, 1100, 'kkkk'), (12, 1200, 'llll');
截屏2021-05-18 下午5.39.03

各个槽代表的记录的主键值都是从小到大排序的,使用 二分法 来进行快速查找。4个槽的编号分别是:0123,所以初始情况下最低的槽就是low=0,最高的槽就是high=3。找主键值为5的记录,过程是这样的:

  1. 计算中间槽的位置:(0+3)/2=1,所以查看槽 1对应记录的主键值为4,又因为4 < 5,所以设置low = 1high保持不变。

  2. 重新计算中间槽的位置:(1+3)/2=2,所以查看槽 2 对应的主键值为8。所以设置high = 2low 保持不变。

  3. 因为 high - low 的值为 1,所以确定主键值为5的记录在 槽2 对应的组中,接下来就是通过遍历 槽2 对应的组的链表来进行查找了。由于一个组中包含的记录条数只能是1~8条,所以遍历一个组中的记录的代价是很小的。

所以在一个数据页中查找指定主键值的记录的过程分为两步:

  1. 通过二分法确定该记录所在的槽。

  2. 通过记录的 next_record 属性遍历该槽所在的组中的各个记录。

5. Page Header

Page Header 一个数据页中存储的记录的状态信息,比如本页中已经存储了多少条记录,第一条记录的地址是什么,页目录中存储了多少个槽等等,它是 结构的第二部分,这个部分占用固定的 56 个字节,专门存储各种状态信息。

截屏2021-05-18 下午9.26.39

6. File Header

截屏2021-05-18 下午10.01.13

7. File Trailer

InnoDB 存储引擎会把数据存储到磁盘上,但是磁盘速度太慢,需要以 为单位把数据加载到内存中处理,如果该页中的数据在内存中被修改了,那么在修改后的某个时间需要把数据同步到磁盘中。但是在同步了一半的时候中断电,为了检测一个页是否完整, InnoDB 在每个页的尾部都加了一个 File Trailer 部分,这个部分由8个字节组成,可以分成 2 个小部分

  1. 前 4 个字节代表页的校验和

    File Header 中的校验和相对应的。每当一个页面在内存中修改了,在同步之前就要把它的校验和算出来,因为File Header在页面的前边,所以校验和会被首先同步到磁盘,当完全写完时,校验和也会被写到页的尾部,如果完全同步成功,则页的首部和尾部的校验和应该是一致的。如果写了一半儿断电了,那么在File Header中的校验和就代表着已经修改过的页,而在File Trialer 中的校验和代表着原先的页,二者不同则意味着同步中间出了错。

  2. 后4个字节代表页面被最后修改时对应的日志序列位置(LSN)

    这个部分也是为了校验页的完整性的