本质:Git是一套内容寻址(content-addressable)文件系统
.git 目录结构:
config文件:
该文件主要记录针对该项目的一些配置信息,例如是否以bare方式初始化、remote的信息等,通过git remote add命令增加的远程分支的信息就保存在这里;
objects文件夹:
该文件夹主要包含git对象。Git中的文件和一些操作都会以git对象来保存,git对象分为BLOB、tree和commit三种类型,例如git commit便是git中的commit对象,而各个版本之间是通过版本树来组织的,比如当前的HEAD会指向某个commit对象,而该commit对象又会指向几个BLOB对象或者tree对象。objects文件夹中会包含很多的子文件夹,其中Git对象保存在以其sha-1值的前两位为子文件夹、后38位位文件名的文件中;除此以外,Git为了节省存储对象所占用的磁盘空间,会定期对Git对象进行压缩和打包,其中pack文件夹用于存储打包压缩的对象,而info文件夹用于从打包的文件中查找git对象;
HEAD文件:
该文件指明了git branch(即当前分支)的结果,比如当前分支是master,则该文件就会指向master,但是并不是存储一个master字符串,而是分支在refs中的表示,例如ref: refs/heads/master。
index文件:
该文件保存了暂存区域的信息。该文件某种程度就是缓冲区(staging area),内容包括它指向的文件的时间戳、文件名、sha1值等;
Refs文件夹:
该文件夹存储指向数据(分支)的提交对象的指针。其中heads文件夹存储本地每一个分支最近一次commit的sha-1值(也就是commit对象的sha-1值),每个分支一个文件;remotes文件夹则记录你最后一次和每一个远程仓库的通信,Git会把你最后一次推送到这个remote的每个分支的值都记录在这个文件夹中;tag文件夹则是分支的别名,这里不需要对其有过多的了解;
git 底层
Git分为porcelain命令和plumbing命令,而porcelain命令是基于plumbing来实现的。(porcelain高级命令,一个操作命令可以拆解为多个plumbing,plumbing为底层命令)如果把Git比作Linux操作系统,那plumbing命令就有点类似于shell命令,而上层的procelain命令便是利用shell命令编写的一系列的系统功能或工具,如你自定义的自动化运维工具等。在接下来的介绍中,我们将试着如何利用plumbing命令,而不是porcelain命令,来完成Git的暂存和提交工作,并利用log查看提交记录。首先,我们从Git的对象介绍开始。
Git是一套内容寻址(content-addressable)文件系统,那么Git是怎么进行寻址呢?其实,寻址无非就是查找,而Git采用HashTable的方式进行查找,也就是说,Git只是通过简单的存储键值对(key-value pair)的方式来实现内容寻址的,而key就是文件(头+内容)的哈希值(采用sha-1的方式,40位),value就是经过压缩后的文件内容。因此,在接下来的实践中,我们会经常通过40位的hash值来进行plumbing操作,几乎每一个plumbing命令都需要通过key来指定所要操作的对象。
git 对象
BLOB:
可以存储几乎所有的文件类型,全称为binary large object,顾名思义,就是大的二进制表示的对象,这种对象类型和数据库中的BLOB类型(经常用来在数据库中存储图片、视频等)是一样的,当作一种数据类型即可;
Git对象的存储方式也很简单,基本可以用如下表达式来表示:
tree:
tree对象是用来组织BLOB对象的一种数据类型,你完全可以把它想象成二叉树中的树节点,只不过Git中的树不是二叉树,而是"多叉树";一个tree对象中可以包含tree对象及blob对象(也可以将tree想象成文件夹,blob为文件)
commit:
commit对象表示每一次的提交操作,由tree对象衍生,每一个commit对象表示一次提交,在创建的过程中可以指定该commit对象的父节点,这样所有的commit操作便可以连接在一起,而这些commit对象便组成了提交树。另外,commit还会包含提交的相关信息
使用plumbing命令解读git
1. add命令
首先,我们先初始化一个仓库:
初始化之后,会在当前目录下生成.git目录,进入该目录,就会发现我们上述的目录结构。然后,我们新建一个version.txt文件并在文件中写入"version 1"字符串,这是version.txt的第一个版本,然后利用git hash-object –w命令将该文件转换为Git的对象并存储,如下图:
这里hash-objec命令会返回该Git对象的key值,这时到.git目录的objects目录下会发现,多了一个6c子目录,该目录中的文件名称为58b76a52188643965f3a6704166e8e0424b7fe,也就是该key值的后38位。记下该key值,因为我们要根据该key值将该对象加入索引库。接着,我们利用update-index命令进行索引化操作,如下图:
注意,这里一定要带上—add选项,而—cacheinfo选项则指出该文件的文件类型,100644表示普通文件,与之相关的还有可执行文件等等;并且,除了指定key值,还需要指定文件名,表明要把哪个文件的哪个版本加入索引库。该命令执行完成后,可以发现.git目录下多了index文件,并且在以后每次update-index命令执行之后,该index文件的内容都会发生变化。至此,git add的主要过程也便完成了。
add 的操作:
1.在objects路径下生成对象
2.生成index的文件索引
这里我们简单谈一下index文件。index是一个索引文件,存放的是暂存区的整个目录树的信息,并且为目录树中的每个文件都保存了时间戳和长度。如果用UltraEdit打开使用过程中的index文件,可以发现index的格式为以下形式:
Index魔数(DIRC) + 版本号 + 暂存的文件个数 + 每个文件的时间戳和长度
Index索引库记录从项目初始化到目前为止,项目仓库中所有文件最后一次修改时刻的时间戳以及对应的长度信息,因此随着加入仓库中的文件不断增多,index文件也会不断增大。每次调用git add命令,都会把add的文件的索引信息(时间戳和大小)进行更新,而我们所使用的git status命令,则会把每一个文件的索引信息和上次提交的索引信息进行比较,如果发生了变化,就会显示出来。Pro git 中是这样描述暂存操作的:暂存操作会对每一个文件计算校验和(即第一章中提到的 SHA-1 哈希字串),然后把当前版本的文件快照保存到 Git 仓库中(Git 使用 blob 类型的对象存储这些快照),并将校验和加入暂存区域。意思很明确,也就是每个文件对应的当前版本的key也会加入到index文件中
2. commit 命令
生成commit对象
commit对象会包含工作目录的根tree对象,上一个commit的hashKey(parent),以及提交的备注、提交人、提交时间等相关信息