首先要弄明白一点,从根本上来讲 Git 是一个内容寻址(content-addressable)文件系统,并在此之上提供了一个版本控制系统的用户界面。
1.低层命令(plumbing)和高层命令(porcelain)
高层命令:对用户友好的一些命令包括我们常见的:push pull checkout branch等30多个
参见:https://git-scm.com/book/zh/v2/Appendix-C%3A-Git-%E5%91%BD%E4%BB%A4-%E8%AE%BE%E7%BD%AE%E4%B8%8E%E9%85%8D%E7%BD%AE 附录3
低层命令: cat-file ls-remote等命令
2.分析git目录
首先初始化一个git文件 然后打开.git文件
hooks
logs
config
objects
ORIG_HEAD
description
info
refs
HEAD
FETCH_HEAD
packed-refs
gc.log
COMMIT_EDITMSG
index
可以看到有这么多文件或文件夹
其中
description 文件仅供 GitWeb 程序使用,我们无需关心
config 文件包含项目特有的配置选项。
info 目录包含一个全局性排除(global exclude)文件,用以放置那些不希望被记录在 .gitignore 文件中的忽略模式(ignored patterns)
hooks 目录包含客户端或服务端的钩子脚本(hook scripts)
HEAD 文件
(尚待创建的)index 文件
objects 目录
refs 目录
这4个目录是最重要的是git的核心部分
- objects 存放所有的数据内容
- refs 目录存储指向数据(分支)的提交对象的指针;
- HEAD 文件指示目前被检出的分支;
- index 文件保存暂存区信息。
3.git对象
Git 是一个内容寻址文件系统.这意味着,Git 的核心部分是一个简单的键值对数据库(key-value data store)。 你可以向该数据库插入任意类型的内容,它会返回一个键值,通过该键值可以在任意时刻再次检索(retrieve)该内容。
我们打开一个使用过git的.git/objects目录
可以看到很多文件夹
每个文件夹中都有一个文件
比较特殊的有2个文件:info, pack 这两个文件后续会解释
首先我们查看git是如何存储文件的
使用git hash-object -w --stdin
w表示存储 不添加则仅生成
stdin如果不添加则需要在命令后接入要处理的内容
命令输出一个长度为 40 个字符的校验和。
这是一个 SHA-1 哈希值——一个将待存储的数据外加一个头部信息(header)一起做 SHA-1 校验运算而得的校验和。
校验和的前两个字符用于命名子目录,余下的 38 个字符则用作文件名。
现在我们知道可以用hash-object存储
然后通过cat-file
命令我们可以解析git 取回数据
cat-file是一个非常重要的命令
-p 可以将git内容解析 为我们展示友好的输出
-t 可以让 Git 告诉我们其内部存储的任何对象类型,只要给定该对象的 SHA-1 值
git 树对象
它能解决文件名保存的问题,也允许我们将多个文件组织到一起。 Git 以一种类似于 UNIX 文件系统的方式存储内容,但作了些许简化。 所有内容均以树对象和数据对象的形式存储,其中树对象对应了 UNIX 中的目录项,数据对象则大致上对应了 inodes 或文件内容。 一个树对象包含了一条或多条树对象记录(tree entry),每条记录含有一个指向数据对象或者子树对象的 SHA-1 指针,以及相应的模式、类型、文件名信息。
例如我们分析下.git目录
git cat-file -p master^{tree} // 将当前的master以树对象输出
100644 blob eccc066d0fee656b1cd5b0a0918acc12a04e54ed README.md
040000 tree d8286c0bdd97ecf334347e556082e410ee6d8a16 data
树对象指向了一个readme和另一个树对象
graph TD
master-->|tree|data
master-->|blob|README
我们继续看
git cat-file -p d8286c0bdd97ecf334347e556082e410ee6d8a16
100644 blob 682b2728d73775036b0624f8d2d2422e14cd71de secret
这样就拿到了data里面存储的git对象
graph TD
master-->|tree|data
master-->|blob|README
data-->|blob|secret
*这里我们看到了一些100644等数字,这个是文件类型*
下面是git数据对象的类型
100644:表明这是一个普通文件
100755:表示一个可执行文件
120000:表示一个符号链接
以及我们见到过的
040000: tree类型
下面我们生成一个树对象
通常git根据某一时刻的暂存区生成树对象
首先生成暂存区并把文件加入
git update-index --add --cacheinfo 100644 <SHA1> text1
通过这个命令我们吧一个名为text1的普通文件加入了暂存区
--add是因为我们之前没有创建过暂存区
--cacheinfo 命令因为将要添加的文件位于 Git 数据库中,而不是位于当前目录下
现在可以通过write-tree
命令将暂存区文件生成一个树对象
提交对象
如果有多个树对象,分别代表了我们想要跟踪的不同项目快照。若想重用这些快照,你必须记住所有三个 SHA-1 哈希值。 并且,你也完全不知道是谁保存了这些快照,在什么时刻保存的,以及为什么保存这些快照。 而以上这些,正是提交对象(commit object)能为你保存的基本信息。
通过调用 commit-tree
命令创建一个提交对象,为此需要指定一个树对象的 SHA-1 值,以及该提交的父提交对象
$ echo 'first commit' | git commit-tree d8329f
fdf4fc3344e67ab068f836878b6c4951e3b15f3d
查看文件
$ git cat-file -p fdf4fc3
tree d8329fc1cc938780ffdd9f94e0d364e0ea74f579
author Scott Chacon <schacon@gmail.com> 1243040974 -0700
committer Scott Chacon <schacon@gmail.com> 1243040974 -0700
first commit
提交对象的格式很简单:它先指定一个顶层树对象,代表当前项目快照;然后是作者/提交者信息(依据你的 user.name 和 user.email 配置来设定,外加一个时间戳);留空一行,最后是提交注释。
我们生成了第一个提交 fdf4fc3344e67ab068f836878b6c4951e3b15f3d
接着使用commit-tree 对象提交新的对象并将第一个提交作为父对象
echo 'second commit' | git commit-tree 0155eb -p fdf4fc3
例如0155eb 是新的暂存区引用 fdf4fc3是父提交
这个时候我们使用git log的话就可以看到真正的提交记录了
这个就是每次我们使用git add 和 git commit时git为我们做的事情
Git 所做的实质工作——将被改写的文件保存为数据对象,更新暂存区,记录树对象,最后创建一个指明了顶层树对象和父提交的提交对象。 这三种主要的 Git 对象——数据对象、树对象、提交对象——最初均以单独文件的形式保存在 .git/objects 目录下
git 如何存储对象
前面提到git生成SHA-1后会将前2位作为文件夹名后38位为文件名存储。
git通过zlib压缩文件并存储
4.git 引用
我们可以借助git log等命令来浏览完整的提交历史,但为了能遍历那段历史从而找到所有相关对象,你仍须记住 某个SHA-1 是最后一个提交。 我们需要一个文件来保存 SHA-1 值,并给文件起一个简单的名字,然后用这个名字指针来替代原始的 SHA-1 值。
git中这样的文件称为引用(references)存放在refs目录下
我们可以通过update-ref
来创建引用
git update-ref refs/heads/master 1a410efbd13591db07496601ebc7a059dd55cfe9
这个命令就是创建一个master的引用对象 指向1a这个提交对象
同时我们也可以创建别的引用对象
git update-ref refs/heads/xunlu 1a410efbd13591db07496601ebc7a059dd55cfe9
这个命令就相当于在1a这个提交对象下git branch xunlu
那么git 如何知道当前的分支呢
答案是HEAD文件
HEAD文件是一个符号引用指向目前所在的分支, 所谓符号引用,意味着它并不像普通引用那样包含一个 SHA-1 值——它是一个指向其他引用的指针
cat .git/HEAD
ref: refs/heads/master
当我们执行git commit时,git会创建一个提交对象,并用 HEAD 文件中那个引用所指向的 SHA-1 值设置其父提交字段。
你可以通过symbolic-ref
命令来查看或者修改HEAD文件
git symbolic-ref HEAD refs/heads/test
将HEAD指向test分支
还有标签引用和远程引用
标签引用就是创建了一个永远指向一个固定的提交对象的引用,相当于起了别名
远程引用:如果你添加了一个远程版本库并对其执行过推送操作,Git 会记录下最近一次推送操作时每一个分支所对应的值,并保存在 refs/remotes 目录下
5.包文件
git 使用zlib压缩文件
当你对同一个很大的文件修改哪怕一行以后你会发现 git 会使用全新的文件存储这个修改了的文件 放在了object中,这就造成了极大的浪费 这两个文件几乎相同。
如果存放一个文件放他们相同的部分岂不是更好。
Git 最初向磁盘中存储对象时所使用的格式被称为“松散(loose)”对象格式。 但是,Git 会时不时地将多个这些对象打包成一个称为“包文件(packfile)”的二进制文件,以节省空间和提高效率。 当版本库中有太多的松散对象,或者你手动执行 git gc 命令,或者你向远程服务器执行推送时,Git 都会这样做。
通过 git gc
命令 git生成了pack/ 文件和索引文件
可以使用 git verify-pac
命令查看已打包的内容