背景
本文将介绍如果工作上遇到了git新手向远程仓库提交大体积文件或者文件夹的处理方法
精简仓库基本流程
- 查找大文件
- 遍历提交记录并删除大文件对象
- 本地仓库回收空间
- 强制推送至远端
- 重新拉取仓库
查看本地仓库体积
git count-objects -vH
效果如下:
查找大文件
git rev-list --all --objects | grep "$(git verify-pack -v .git/objects/pack/*.idx | sort -k 3 -n | tail -n 3 | awk -F ' ' '{print $1}')"
效果如下:
-
git rev-list --all --objects
: 按时间倒序遍历时候commit,并罗列出每次提交所有对象和对象ID -
git verify-pack -v .git/objects/pack/*.idx
:这个命令是用来验证git pack-objects
打包的Git归档文件并显示归档详情 -
git verify-pack -v .git/objects/pack/*.idx | sort -k 3 -n | tail -n 3 | awk -F ' ' '{print $1}'
: 遍历.git下面idx文件,查找历史大文件,并按照大小进行排序,列出最大的3个对象id
流程:每当git rev-list --all --objects
输出一次结果时,先获取"$()"
的结果 ,最后通过grep
来匹配
弊端: 当对象数量较多时,此命令效率会很低
如果耗时过长可分步骤来查找大文件,步骤如下:
-
git verify-pack -v .git/objects/pack/*.idx | sort -k 3 -n | tail -n 3
: 查找历史大文件,并按照大小进行排序,列出最大的3个对象id
效果如下:
-
git rev-list --objects --all | grep 60ecdaf1da26086feb8e6cb56f9843f6cf2029b6
: 查看指定对象id的对象信息
效果如下:
遍历提交记录并删除大文件对象
注意: 本地仓库不能有修改
git filter-branch --force --index-filter 'git rm -rf --cached --ignore-unmatch 大文件路径' --prune-empty --tag-name-filter cat -- --all
例如:git filter-branch --force --index-filter 'git rm -rf --cached --ignore-unmatch env/automake-1.15.tar ' --prune-empty --tag-name-filter cat -- --all
效果如下:
本地仓库回收空间
rm -rf .git/refs/original/ # 删除本地仓库引用
git reflog expire --expire=now --all # 设置所有reflog条目现在过期
git gc --aggressive --prune=now # 回收空间,移除无效或异常的文件
回收完成之后再次执行git count-objects -vH
结果如下:
强制推送至远端
git push origin --force --all
重新拉取仓库
**不能在原先的本地仓库拉取代码,不然会进行合并,导致本地仓库更大**