git内部原理读书笔记

首先要弄明白一点,从根本上来讲 Git 是一个内容寻址(content-addressable)文件系统,并在此之上提供了一个版本控制系统的用户界面。

1.低层命令(plumbing)和高层命令(porcelain)

高层命令:对用户友好的一些命令包括我们常见的:push pull checkout branch等30多个 
参见:https://git-scm.com/book/zh/v2/Appendix-C%3A-Git-%E5%91%BD%E4%BB%A4-%E8%AE%BE%E7%BD%AE%E4%B8%8E%E9%85%8D%E7%BD%AE 附录3

低层命令: cat-file ls-remote等命令

2.分析git目录

首先初始化一个git文件 然后打开.git文件

hooks          
logs           
config         
objects        
ORIG_HEAD
description    
info           
refs           
HEAD           
FETCH_HEAD
packed-refs    
gc.log         
COMMIT_EDITMSG 
index

可以看到有这么多文件或文件夹
其中
description 文件仅供 GitWeb 程序使用,我们无需关心
config 文件包含项目特有的配置选项。
info 目录包含一个全局性排除(global exclude)文件,用以放置那些不希望被记录在 .gitignore 文件中的忽略模式(ignored patterns)
hooks 目录包含客户端或服务端的钩子脚本(hook scripts)

HEAD 文件  
(尚待创建的)index 文件  
objects 目录  
refs 目录

这4个目录是最重要的是git的核心部分

  • objects 存放所有的数据内容
  • refs 目录存储指向数据(分支)的提交对象的指针;
  • HEAD 文件指示目前被检出的分支;
  • index 文件保存暂存区信息。

3.git对象

Git 是一个内容寻址文件系统.这意味着,Git 的核心部分是一个简单的键值对数据库(key-value data store)。 你可以向该数据库插入任意类型的内容,它会返回一个键值,通过该键值可以在任意时刻再次检索(retrieve)该内容。

我们打开一个使用过git的.git/objects目录
可以看到很多文件夹
每个文件夹中都有一个文件
比较特殊的有2个文件:info, pack 这两个文件后续会解释

首先我们查看git是如何存储文件的

使用git hash-object -w --stdin
w表示存储 不添加则仅生成
stdin如果不添加则需要在命令后接入要处理的内容
命令输出一个长度为 40 个字符的校验和。 
这是一个 SHA-1 哈希值——一个将待存储的数据外加一个头部信息(header)一起做 SHA-1 校验运算而得的校验和。
校验和的前两个字符用于命名子目录,余下的 38 个字符则用作文件名。

现在我们知道可以用hash-object存储

然后通过cat-file命令我们可以解析git 取回数据

cat-file是一个非常重要的命令

cat-file链接

-p 可以将git内容解析 为我们展示友好的输出
-t 可以让 Git 告诉我们其内部存储的任何对象类型,只要给定该对象的 SHA-1 值

git 树对象

它能解决文件名保存的问题,也允许我们将多个文件组织到一起。 Git 以一种类似于 UNIX 文件系统的方式存储内容,但作了些许简化。 所有内容均以树对象和数据对象的形式存储,其中树对象对应了 UNIX 中的目录项,数据对象则大致上对应了 inodes 或文件内容。 一个树对象包含了一条或多条树对象记录(tree entry),每条记录含有一个指向数据对象或者子树对象的 SHA-1 指针,以及相应的模式、类型、文件名信息。

例如我们分析下.git目录

git cat-file -p master^{tree} // 将当前的master以树对象输出
100644 blob eccc066d0fee656b1cd5b0a0918acc12a04e54ed    README.md
040000 tree d8286c0bdd97ecf334347e556082e410ee6d8a16    data

树对象指向了一个readme和另一个树对象

graph TD
master-->|tree|data
master-->|blob|README

我们继续看

git cat-file -p d8286c0bdd97ecf334347e556082e410ee6d8a16
100644 blob 682b2728d73775036b0624f8d2d2422e14cd71de    secret

这样就拿到了data里面存储的git对象

graph TD
master-->|tree|data
master-->|blob|README
data-->|blob|secret
*这里我们看到了一些100644等数字,这个是文件类型*
下面是git数据对象的类型
100644:表明这是一个普通文件
100755:表示一个可执行文件
120000:表示一个符号链接
以及我们见到过的
040000: tree类型

下面我们生成一个树对象
通常git根据某一时刻的暂存区生成树对象
首先生成暂存区并把文件加入

git update-index --add --cacheinfo 100644 <SHA1> text1
通过这个命令我们吧一个名为text1的普通文件加入了暂存区
--add是因为我们之前没有创建过暂存区
--cacheinfo 命令因为将要添加的文件位于 Git 数据库中,而不是位于当前目录下

现在可以通过write-tree命令将暂存区文件生成一个树对象

提交对象

如果有多个树对象,分别代表了我们想要跟踪的不同项目快照。若想重用这些快照,你必须记住所有三个 SHA-1 哈希值。 并且,你也完全不知道是谁保存了这些快照,在什么时刻保存的,以及为什么保存这些快照。 而以上这些,正是提交对象(commit object)能为你保存的基本信息。

通过调用 commit-tree 命令创建一个提交对象,为此需要指定一个树对象的 SHA-1 值,以及该提交的父提交对象

$ echo 'first commit' | git commit-tree d8329f
fdf4fc3344e67ab068f836878b6c4951e3b15f3d

查看文件
$ git cat-file -p fdf4fc3
tree d8329fc1cc938780ffdd9f94e0d364e0ea74f579
author Scott Chacon <schacon@gmail.com> 1243040974 -0700
committer Scott Chacon <schacon@gmail.com> 1243040974 -0700

first commit

提交对象的格式很简单:它先指定一个顶层树对象,代表当前项目快照;然后是作者/提交者信息(依据你的 user.name 和 user.email 配置来设定,外加一个时间戳);留空一行,最后是提交注释。

我们生成了第一个提交 fdf4fc3344e67ab068f836878b6c4951e3b15f3d
接着使用commit-tree 对象提交新的对象并将第一个提交作为父对象

echo 'second commit' | git commit-tree 0155eb -p fdf4fc3

例如0155eb 是新的暂存区引用 fdf4fc3是父提交 

这个时候我们使用git log的话就可以看到真正的提交记录了
这个就是每次我们使用git add 和 git commit时git为我们做的事情

Git 所做的实质工作——将被改写的文件保存为数据对象,更新暂存区,记录树对象,最后创建一个指明了顶层树对象和父提交的提交对象。 这三种主要的 Git 对象——数据对象、树对象、提交对象——最初均以单独文件的形式保存在 .git/objects 目录下

git 如何存储对象

前面提到git生成SHA-1后会将前2位作为文件夹名后38位为文件名存储。
git通过zlib压缩文件并存储

4.git 引用

我们可以借助git log等命令来浏览完整的提交历史,但为了能遍历那段历史从而找到所有相关对象,你仍须记住 某个SHA-1 是最后一个提交。 我们需要一个文件来保存 SHA-1 值,并给文件起一个简单的名字,然后用这个名字指针来替代原始的 SHA-1 值。

git中这样的文件称为引用(references)存放在refs目录下

我们可以通过update-ref来创建引用

git update-ref refs/heads/master 1a410efbd13591db07496601ebc7a059dd55cfe9
这个命令就是创建一个master的引用对象 指向1a这个提交对象

同时我们也可以创建别的引用对象

git update-ref refs/heads/xunlu 1a410efbd13591db07496601ebc7a059dd55cfe9

这个命令就相当于在1a这个提交对象下git branch xunlu

那么git 如何知道当前的分支呢
答案是HEAD文件
HEAD文件是一个符号引用指向目前所在的分支, 所谓符号引用,意味着它并不像普通引用那样包含一个 SHA-1 值——它是一个指向其他引用的指针

cat .git/HEAD
ref: refs/heads/master

当我们执行git commit时,git会创建一个提交对象,并用 HEAD 文件中那个引用所指向的 SHA-1 值设置其父提交字段。

你可以通过symbolic-ref命令来查看或者修改HEAD文件

 git symbolic-ref HEAD refs/heads/test
 将HEAD指向test分支

还有标签引用和远程引用
标签引用就是创建了一个永远指向一个固定的提交对象的引用,相当于起了别名
远程引用:如果你添加了一个远程版本库并对其执行过推送操作,Git 会记录下最近一次推送操作时每一个分支所对应的值,并保存在 refs/remotes 目录下

5.包文件

git 使用zlib压缩文件
当你对同一个很大的文件修改哪怕一行以后你会发现 git 会使用全新的文件存储这个修改了的文件 放在了object中,这就造成了极大的浪费 这两个文件几乎相同。

如果存放一个文件放他们相同的部分岂不是更好。

Git 最初向磁盘中存储对象时所使用的格式被称为“松散(loose)”对象格式。 但是,Git 会时不时地将多个这些对象打包成一个称为“包文件(packfile)”的二进制文件,以节省空间和提高效率。 当版本库中有太多的松散对象,或者你手动执行 git gc 命令,或者你向远程服务器执行推送时,Git 都会这样做。

通过 git gc命令 git生成了pack/ 文件和索引文件

可以使用 git verify-pac 命令查看已打包的内容

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343

推荐阅读更多精彩内容

  • Git 学习笔记 GitHub浏览器快捷键:t: 查找 先丢一堆图。。就是这么任性 目录Git对象说明 1.Git...
    歌白梨阅读 944评论 0 1
  • Git是目前最流行的版本管理系统,也是最先进的分布式版本控制系统(distributed version cont...
    pro648阅读 5,676评论 1 17
  • 1.天魁星…呼保义…宋江 被贾忠、贾义兄弟所擒,押赴京城凌迟处死。 2. 天罡星…玉麒麟…卢俊义 被二张擒住,押赴...
    荆大奇阅读 4,429评论 0 1
  • 一、人品: 【真诚】 一个人如果活得真诚,就一定生活在一个遥远的国度。——梭罗《瓦尔登湖》 我相信真诚的人是最好最...
    暖香盈袖阅读 137评论 0 0
  • 91【工具】用好苹果语音的三个小技巧 苹果Siri 功能:句法、设置、关键 问Siri 天气,短信,打电话,带我回...
    依盈阅读 94评论 0 0