现在项目基本都采用git来进行版本控制,最近比较好奇git的存储机制到底是怎么样的,研究了一下
简单介绍git最重要的算法(SHA-1)
- 通过git log查看,会发现都会有一个40个字符组成的字符串,这个字符串是通过SHA-1算法计算出来的字符串
- SHA-1算法:两个不同的内容进行计算出来的值(消息摘要)理论上来说是不重复的(基于目前来说)
git的存储机制详解
先介绍下git的一个命令:git cat-file,查看消息摘要的详细内容;用的时候经常会带上 -p 参数
-
研究过程(基于我本地的一个版本库)
- 先通过 git log 找到一个commitId,通过 git cat-file 查看
git cat-file -p 71d8f2a8aecfc84b2a72814f525c76c128face53
tree b346468f50d856cc0a6089e4fe260b4f72c914e5 parent 5987828df851c3d93775e8a1eb49b8d709fd1fb5 author xx <xxx> 1489540261 +0800 committer xxx <xxx> 1489540267 +0800
- 从这里看出来一个 commit 指向一个 tree (一个tree管理一些tree和一些blob),接下来继续看这个tree到底是什么
- 继续 git cat-file :
git cat-file -p b346468f50d856cc0a6089e4fe260b4f72c914e5
100644 blob e1b5186c600616e89692c94f64f4ed2e525fab23 .gitignore 100644 blob 2572cca5762d11828c4a296bcca7ded879f4929a LICENSE 100644 blob 7ba68141ca2199ab83d3160f700d0e4343298468 README.md 100644 blob ac8522fb58c89951af0089cb090a56f9856c05b0 a.txt 100644 blob 9b285c5c555323213ce7865e536d09e597268706 pom.xml 040000 tree 5165230a25966bca6377f32f80750b0640a9de02 src
- 上边的结果有blob和tree:这个时候blob通常是一个文件,tree是一个目录
- 那先来看看blob类型:
git cat-file -p e1b5186c600616e89692c94f64f4ed2e525fab23
,这个时候看到的是一个文件的内容:
为什么是这样的呢,因为git通过e1b5186c600616e89692c94f64f4ed2e525fab23指向了.gitignore文件,而这个文件的内容被压缩成另一个文件,这些文件保存在项目的.git目录下的objects目录下,git的cat-file命令将blob还原成原有的文件内容了。网上有压缩的算法*.class target/ java-common-utils.iml .idea/
- 再来看看tree类型:
git cat-file -p 5165230a25966bca6377f32f80750b0640a9de02
可以看到还是两个tree,可以一直cat-file下去知道没有tree040000 tree 857c7710f03f0b9d33d3110273f525416ee310a6 main 040000 tree b63ccc7fa9ced1d7b84fd5de194a85fe66016bec test
- 那先来看看blob类型:
总结
- git对文件的比对是通过文件内容的SHA-1消息摘要进行对比是否有更改,所以速度会非常快;
- 先通过 git log 找到一个commitId,通过 git cat-file 查看