git内部原理(一)

前言

从工作开始就一直使用git命令, clone,checkout, branch等,但是一直不知道为什么提交代码前要先执行add命令,再执行commit等操作,读完这篇文章你将见识 Git 的内部工作原理和实现方式。学习这些内容对于Git的用处和强大是非常重要的。

Git 对象

  • 从根本上来讲 Git 是一个内容寻址(content-addressable)文件系统,并在此之上提供了一个版本控制系统的用户界面。

Git 是一个内容寻址文件系统, 这意味着,Git 的核心部分是一个简单的键值对数据库(key-value data store)。 你可以向 Git 仓库中插入任意类型的内容,它会返回一个唯一的键,通过该键可以在任意时刻再次取回该内容。

  1. 首先初使化一个 Git 仓库并确认objects 目录是空的:
  • .git 目录的典型结构如下:


    图1-1
  • config:git相关配置信息

  • description 文件仅供 GitWeb 程序使用,我们无需关心。

  • info 目录包含一个全局性排除(global exclude)文件, 用以放置那些不希望被记录在 .gitignore 文件中的忽略模式(ignored patterns)

  • hooks 目录包含客户端或服务端的钩子脚本(hook scripts)

另外还有四个重要的文件或目录:HEAD 及(尚待创建的) index 文件,objects 及refs 目录。这些是 Git 的核心部分

  • HEAD:当前分支的信息
cat HEAD
ref: refs/heads/master
  • index:文件保存暂存区信息
  • objects:(对象):目录存储所有数据内容
  • refs: 目录存储指向数据 (分支) 的提交对象的指针

1. 数据对象(blob object)

1.1底层命令hash-object存储数据

  1. git init 初始化目录后,我们往这个 Git 数据库里存储一些文本
    git hash-object:会接受你传给它的东西,而它只会返回可以存储在 Git 仓库中的唯一键。
  • -w:指示 hash-object 命令存储 (数据) 对象,若不指定这个参数该命令仅仅返回键值
  • --stdin:指定从标准输入设备 (stdin) 来读取内容,若不指定这个参数则需指定一个要存储的文件的路径
// hash值形式存储到obiects
echo "git test" | git hash-object -w --stdin
// 40 个字符的校验和
f6edd6e7a290f009aa685d3acd3153b495a69ea8
  • 该命令输出长度为 40 个字符的校验和。这是个 SHA-1 哈希值──其值为要存储的数据加上你马上会了解到的一种头信息的校验和。现在可以查看到 Git 已经存储了数据:
  1. 查看数据命令
find .git/objects -type f
  1. 查看结果

可以在 objects 目录下看到一个文件。这便是 Git 存储数据内容的方式──为每份内容生成一个文件,取得该内容与头信息的 SHA-1 校验和,创建以该校验和前两个字符为名称的子目录,并以 (校验和) 剩下 38 个字符为文件命名 (保存至子目录下)。

图1-2

1.2git cat-file 读取数据内容

将数据内容取回(之前存储时将数据转换成40位的hash值,现在通过hash值取回数据内容)

通过 cat-file 命令可以将数据内容取回。
传入 -p 参数可以让该命令输出数据内容的类型:

git cat-file -p f6edd6e7a290f009aa685d3acd3153b495a69ea8
// 之前存入的内容 git test,说明这个文件里面就保存了这段内容
git test

当然,也可以往 Git 中添加更多内容并取回了。也可以直接添加文件。比方说可以对一个文件进行简单的版本控制。

  1. 首先,创建一个新文件,并把文件内容存储到数据库中:
// 创建一个新文件demo1.txt 并将version 1内容写入
echo "version 1" > demo1.txt
// 将新文件数据变成hash 存入 objects
git hash-object -w demo1.txt
83baae61804e65cc73a7201a7252750c76066a30
  1. 着往该文件中写入一些新内容并再次保存
// 在demo1中写入version 2 内容
echo 'version 2' > demo1.txt
// 将新文件数据变成hash 存入 objects
git hash-object -w demo1.txt
7170a5278f42ea12d4b6de8ed1305af8c393e756
  1. 数据库中已经将文件的两个新版本连同一开始的内容保存下来了:
find .git/objects -type f
图1-3
  1. 读取文件第一个版本数据:
git cat-file -p 83baae61804e65cc73a7201a7252750c76066a30
version 1
  1. 或者读取文件第二个版本数据
git cat-file -p 7170a5278f42ea12d4b6de8ed1305af8c393e756
version 2

1.3总结

需要记住的是几个版本的文件 SHA-1 值可能与实际的值不同,其次,存储的并不是文件名而仅仅是文件内容。这种对象类型称为 blob 。通过传递 SHA-1 值给cat-file -t 命令可以让 Git 返回任何对象的类型:

  • git cat-file -t SHA-1:查看git其内部存储的任何对象类型
  • git cat-file -p SHA-1:自动判断内容类型,查看数据内容
git cat-file -t 7170a5278f42ea12d4b6de8ed1305af8c393e756
blob
图1-4

以上就是blob对象,那么在git对象中有没有其他的文件类型呢?

2.tree object (树) 对象(存目录)

接下去来看 tree 对象,tree 对象可以存储文件名,同时也允许存储一组文件。所有内容以 tree 或 blob 对象存储,其中 tree 对象用于存目录,blob 对象则存文件内容即数据。一个单独的 tree 对象包含一条或多条 tree 记录,每一条记录含有一个指向 blob 或子 tree 对象的 SHA-1 指针,并附有该对象的权限模式 (mode)、类型和文件名信息。

2.1.创建tree

  • 比如新建一个work文件夹并在里面写上1.txt文件
  • 或者使用官网的simplegit” 项目作为示例
git clone https://github.com/schacon/simplegit-progit
git cat-file -p master^{tree}
100644 blob 6d9386e6b3311b71d6ffb955060950e2f72f5772    README.en.md
100644 blob 1c1bcf56c26a1e2d929a533d686996dd5c09078a    README.md
040000 tree c7334b0c17beb8a5b06c1ada0876233735c9ecbe    work
图2-1

master^{tree} 语法表示 master 分支上最新的提交所指向的树对象。 请注意,work 子目录(所对应的那条树对象记录)并不是一个数据对象,而是一个指针,其指向的是另一个树对象

// 查看当前树对象
git cat-file -p c7334b0c17beb8a5b06c1ada0876233735c9ecbe
// 显示里面的 bolb 数据对象
100644 blob d1d06ad36a5841e8c06a90bd29707290d979cc2b    1.txt

从概念上讲,Git 内部存储的数据有点像这样:


图2-2

注意:你可能会在某些 shell 中使用 master^{tree} 语法时遇到错误。

在 Windows 的 CMD 中,字符 ^ 被用于转义,因此你必须双写它以避免出现问题:git cat-file -p master^^{tree}。 在 PowerShell 中使用字符 {} 时则必须用引号引起来,以此来避免参数解析错误:git cat-file -p 'master^{tree}'。

2.2 通过底层命令创建tree.

通常,Git 根据某一时刻暂存区(即 index 区域,下同)所表示的状态创建并记录一个对应的树对象, 如此重复便可依次记录(某个时间段内)一系列的树对象。

因此,为创建一个树对象,首先需要通过暂存一些文件来创建一个暂存区。

  • 可以通过底层命令 git update-index 为一个单独文件——创建一个暂存区。 利用该命令,可以把 demo.txt 文件的首个版本人为地加入一个新的暂存区。 必须为上述命令指定 --add 选项,因为此前该文件并不在暂存区中(我们甚至都还没来得及创建一个暂存区呢);
  • 同样必需的还有 --cacheinfo 选项,因为将要添加的文件位于 Git 数据库中,而不是位于当前目录下。 同时,需要指定文件模式、SHA-1 与文件名:
    2.2.1. 根据你的暂存区域或 index 来创建并写入一个 tree
// 创建一个内容为 version 1 版本的demo.txt
echo 'version 1' > demo.txt
// 报存到objects
git hash-object -w demo.txt
83baae61804e65cc73a7201a7252750c76066a30
// 修改内容
echo 'version 2' > demo.txt
// 继续保存
git hash-object -w demo.txt
1f7a7a472abf3dd9643fd615f6da379c4acb3e3a
// 查看状态是未被追踪的
git status
// 将demo.txt 第一个version 1 版本文件提交到暂存区
git update-index --add --cacheinfo 100644 \83baae61804e65cc73a7201a7252750c76066a30 demo.txt
  • 会发现demo.txt被修改
图2-3
  • 100644(指定的文件类型),表明这是一个普通文件。其他可用的模式有:100755 表示可执行文件,120000 表示符号链接,这 三种模式仅对 Git 中的文件 (blobs) 有效 (虽然也有其他模式用于目录和子模块)。
  1. write-tree 将暂存区域的内容写到一个 tree 对象了

无需 -w 参数 ── 如果目标 tree 不存在,调用write-tree 会自动根据 index 状态创建一个 tree 对象

// 将暂存区的demo.txt版本1写入tree
git write-tree
// 返回40 长度的hash
ec1e175edf3e5c5c64903c22977a49d63ae3b1aa
// 查看内容
git cat-file -p ec1e175edf3e5c5c64903c22977a49d63ae3b1aa

// 结果
100644 blob 83baae61804e65cc73a7201a7252750c76066a30    demo.txt

  1. 可以这样验证这确实是一个 tree 对象
// 查看对象类型
git cat-file -t ec1e175edf3e5c5c64903c22977a49d63ae3b1aa
tree
  1. 创建新的树对象,包含 demo.txt 的第二个版本以及一个新文件
// 创建 new.txt
echo 'new file' > new.txt
// 更新demo.txt的第二个版本
update-index --add --cacheinfo 100644 \
>   1f7a7a472abf3dd9643fd615f6da379c4acb3e3a demo.txt
// 将new.txt add 到暂存区
git update-index --add new.txt
  • git status 可以看到demo.txt和new.txt在暂存区


    图2-4
  1. 创建 (写) 该 tree 对象 (将暂存区域或 index 状态写入到一个 tree 对象)
// 写入成一个树对象
git write-tree
1e2e74de05d087258602cdee86af0f640f009657
// 查看内容
git cat-file -p 1e2e74de05d087258602cdee86af0f640f009657
100644 blob 6d9386e6b3311b71d6ffb955060950e2f72f5772    README.en.md
100644 blob 1c1bcf56c26a1e2d929a533d686996dd5c09078a    README.md
100644 blob 1f7a7a472abf3dd9643fd615f6da379c4acb3e3a    demo.txt
100644 blob fa49b077972391ad58037050f2a75f74e3671e92    new.txt
040000 tree c7334b0c17beb8a5b06c1ada0876233735c9ecbe    work

请注意该 tree 对象包含了两个文件记录,且 demo.txt 的 SHA 值是早先值的 “第二版” ( 1f7a7a)

  1. 接下来你将把第一个 tree(ec1e17) 对象作为一个子目录加进该 tree(1e2e74) 中
1. // 将第一个(ec1e17)tree加进当前树(1e2e74)目录里面
git read-tree --prefix=bak ec1e175edf3e5c5c64903c22977a49d63ae3b1aa
// 创建成一个新的树对象
git write-tree
11aa55e422b561ada686d83542bbb29e5a8a89fe
// 查看
git cat-file -p 11aa55e422b561ada686d83542bbb29e5a8a89fe
100644 blob 6d9386e6b3311b71d6ffb955060950e2f72f5772    README.en.md
100644 blob 1c1bcf56c26a1e2d929a533d686996dd5c09078a    README.md
040000 tree ec1e175edf3e5c5c64903c22977a49d63ae3b1aa    bak
100644 blob 1f7a7a472abf3dd9643fd615f6da379c4acb3e3a    demo.txt
100644 blob fa49b077972391ad58037050f2a75f74e3671e92    new.txt
040000 tree c7334b0c17beb8a5b06c1ada0876233735c9ecbe    work
  1. 验证bak里面的demo.txt是不是第一个版本内容
// 查看bak 树下面的内容
git cat-file -p ec1e175edf3e5c5c64903c22977a49d63ae3b1aa
100644 blob 83baae61804e65cc73a7201a7252750c76066a30    demo.txt

// 检验demo.txt
git cat-file -p  83baae61804e65cc73a7201a7252750c76066a30
version 1
  1. 总结下,Git 内部存储着的用于表示上述结构的数据大概如下图所示。

如果基于这个新的树对象创建一个工作目录,你会发现工作目录的根目录包含两个文件以及一个名为 bak 的子目录,该子目录包含 demo.txt 文件的第一个版本 version 1

图2-5

3.commit(提交)对象

到目前为止有三个 tree 对象,它们指向了你要跟踪的项目的不同快照。


图2-6

但是要获得这些快照必须记住这三个的SHA-1值,也无法知道什么时刻保存的以及为什么要保存这些快照
提交对象(commit object)的作用就是为你保存的基本信息。

3.1 commit-tree :命令创建一个提交对象
  1. 创建一个提交对象
// 提交ec1e17这个树
echo 'first commit' | git commit-tree ec1e17
5e9a17d2bac5567284786661bdf508a56e967df4
  1. 查看内容
git cat-file -p 5e9a17

// 标识提一次提交
tree ec1e175edf3e5c5c64903c22977a49d63ae3b1aa
author zhangmengqiong <zhangmengqiong@100tal.com> 1590024540 +0800
committer zhangmengqiong <zhangmengqiong@100tal.com> 1590024540 +0800

first commit

commit 对象有格式很简单:指明了该时间点项目快照的顶层树对象、作者/提交者信息(从 Git 设理发店的 user.name和user.email中获得)以及当前时间戳、一个空行,以及提交注释信息。

3.2接着写入另个两个树对象
  • 接着,我们将创建另两个提交对象,它们分别引用各自的上一个提交(作为其父提交对象):
$ echo 'second commit' | git commit-tree 1e2e74 -p 79bd9f3
e7aa96cfa639b0f27aaf82a4096fca3242066e25
$ echo 'third commit'  | git commit-tree 11aa55 -p e7aa96c
b64c5c7df66a63c949e4bc619707bb682e39c4b4
  • 查看结果,

对最后一个提交的 SHA-1 值运行 git log 命令,会出乎意料的发现,你已有一个货真价实的、可由 git log 查看的 Git 提交历史了:

git log --stat  b64c5c
commit b64c5c7df66a63c949e4bc619707bb682e39c4b4
Author: zhangmengqiong <zhangmengqiong@100tal.com>
Date:   Mon May 25 16:19:39 2020 +0800
    third commit

 bak/demo.txt | 1 +
 1 file changed, 1 insertion(+)

commit e7aa96cfa639b0f27aaf82a4096fca3242066e25
Author: zhangmengqiong <zhangmengqiong@100tal.com>
Date:   Mon May 25 16:18:42 2020 +0800

    second commit

 new.txt  | 1 +
 demo.txt | 2 +-
 2 files changed, 2 insertions(+), 1 deletion(-)

以上就是通过几个底层操作便完成了一个 Git 提交历史的创建。

这就是每次我们运行 git add 和 git commit 命令时,Git 所做的工作实质就是将被改写的文件保存为数据对象, 更新暂存区,记录树对象,最后创建一个指明了顶层树对象和父提交的提交对象。
这三种主要的 Git 对象——数据对象、树对象、提交对象——最初均以单独文件的形式保存在 .git/objects 目录下。 下面列出了目前示例目录内的所有对象,辅以各自所保存内容的注释:

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,294评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,493评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,790评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,595评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,718评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,906评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,053评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,797评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,250评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,570评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,711评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,388评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,018评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,796评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,023评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,461评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,595评论 2 350