Git的原理简析

前言

Git 作为一个强大的分布式版本控制工具,探讨Git的工作原理,知道Git思想和基本原理,用起来才会游刃有余。

平时我们使用Git,都是这样的:

  • 创建新工程时:

create file
add files
commit files
push files

  • clone 已有工程时:

checkout
create file
add files
commit files
push files

无非就是这几步的操作,如果出现了冲突,解决冲突再提交。

通过这几个简单的命令操作来看看Git 是怎么样保存数据的?
首先理解Git中的几个概念。

三个区域

Git 中有三个重要的区域:工作区域,暂存区,本地数据库,它们的之间的关系为:

i01.png

为什么中间出现一个暂存区?而不直接把文件从工作区域提交到本地数据库?

暂存区的作用:保存待提交到数据库的文件信息。
加入的原因:

  1. 可以实现部分的提交到本地数据库
  2. 在工作区域中,主要的职能就是,对文件状态的修改。如果还要维护一些待提交到数据库的文件,容易造成混乱,违反单一职责原则。

数据库就是保存数据的,你不可能也不会这在数据库里创建一个文件。

四种对象

在Git中 有四种对象 ,blob,tree,commit ,tag。

  1. blob:存放文件的内容。
  2. tree:相当于一个目录,目录下还会有子目录,最终的节点上blob,如图所示:
i06.png

3.commit:指向一次提交,表示项目的快照,指向你一个顶层的tree对象。有个partner字段,指向上一次的提交。

数据的存储

假设我们的本地数据库保存数据:

i03.png

在版本1中有两个文件:A和B
在版本2 中修改了A文件变成A1文件。

如果把每一个版本都要保存到数据库中,需要保存4个文件。而实际上,Git只保存了3个文件,分别A,B,A1。

在Git中同样的文件只会保存一份,如何保证同一个文件只保存一份?这就引入了sha-1算法。

可以使用git命令计算文件的 sha-1 值。

echo 'version A' | git hash-object --stdin
0809ef163cd3b01c24087c94153bfc63489d4f9b

sha-1将文件中的内容通过通过计算生成一个 40 位长度的hash值。

sha-1的特点:

由文件内容计算出的hash值
hash值相同,文件内容相同

通过sha-1算法生成的值作为key,就能保证相同的文件只保存一份了。
我们也知道,在Git中,全部的数据在保存在 ./git/objects下

i.png

我们可以看到,在 objects 目录下,存放了很多文件,他们都使用 sha-1 的前两位创建了文件夹,剩下的38位作为文件名。

因此上面的两次提交,Git 是这样保存的。

i04.png

END。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 半夜三更好想对着窗外怒吼睡麻痹,起来嗨老子牙痛一起来 俗话说牙痛不是病痛起来要命 我现在只想拔光大牙满地打滚再塞个...
    叔公先生阅读 257评论 0 0
  • 欢乐颂2开播以来情节注水拖沓、人物个性难有突破,若不是因为对第一季的欣赏,我恐怕是追不下去。目前为止最打动我的一...
    知微小主阅读 1,153评论 0 1