目录中文件过多导致ls命令卡住

本文翻译自Large Directory Causes ls to Hang

你一定遇到过这种情况,在一个有几百万文件的目录中执行ls命令,ls就卡在那了,是吧?

用ls -1 -f命令可以立即显示出文件。如果你想删除当前目录中的所有文件,使用如下命令:

ls -1 -f | xargs rm

在清理大量不需要的文件后,会留下一个巨大稀疏的目录对象(directory object)。假如一个目录有300万个文件,除了这些文件占用空间外,目录对象本身也会占用超过100M的空间。

你也许想重建一个目录来回收那100M空间。但是,如果目录是/tmp,那就要小心了,只能在单用户模式下操作。

ls命令为什么会卡住?

默认情况下,ls命令会将输出排序。为了排序,ls命令先将所有文件的名称读入内存。当遇到一个非常大的目录时,它就在那里不断地读入文件名,并且内存占用越来越大,直到将所有文件一次性以字母数字顺序列出来。

而ls -1 -f命令并不执行排序操作,只是读取目录然后立即显示文件。

下面举个例子,有个目录,包含300万个文件,文件名称形如test_file_a_1, test_file_a_2, ..., test_file_a_3000000. 用Perl脚本以文件名中的数字编号顺序来创建这些文件。

可以用ls -1 -f命令立即列出头几个文件:

bash-4.2$ time ls -1 -f | head
.
..
test_file_a_2531963
test_file_a_467778
test_file_a_2677947
test_file_a_329896
test_file_a_835701
test_file_a_1266060
test_file_a_261887
test_file_a_311007

real    0m0.006s
user    0m0.000s
sys     0m0.008s

现在,去掉上面命令中的-1和-f标志,ls命令花了大约10000倍长的时间:

bash-4.2$ time /bin/ls | head
test_file_a_1
test_file_a_10
test_file_a_100
test_file_a_1000
test_file_a_10000
test_file_a_100000
test_file_a_1000000
test_file_a_1000001
test_file_a_1000002
test_file_a_1000003

real    0m57.880s
user    0m55.644s
sys     0m2.121s

除了变得更慢外,后者还占用了大量内存。当ls命令真正开始打印文件名的时候,它已经在内存中存储了300万个文件名,使用了大约507M内存。相反,ls -1 -f命令内存占用从未超过4.5M,少了100倍。

EXT3/EXT4文件系统的Bug?

遍历EXT3/4文件系统花这么长时间和这么多资源有时被认为是文件系统Bug。但是我个人认为,如果有Bug的话,那只能是遍历软件的Bug(比如,find命令、不带-1和-f标识的ls命令以及各种备份软件),而不是文件系统的Bug。

注意顺序

在上面的测试中还有一点蹊跷之处。ls命令将文件名按照字母数字顺序排好了序,但是ls -1 -f命令的输出是以什么顺序呢?看起来比较随机。头三个文件是test_file_a_2531963、test_file_a_467778和test_file_a_2677947。这个次序与文件创建时间、修改时间、inode编号或者其它顺序都不符合。那到底是怎么回事?

测试使用的是EXT4文件系统。EXT4和EXT3文件系统使用一种叫做HTree的哈希算法来存储文件名。当读取目录时,文件名是以任意顺序返回的。因此,ls -1 -f的输出结果看起来混在一起不是有序的。

EXT2文件系统的行为有时候像本文中所说的EXT3和EXT4一样(比如在Fedora 16系统上),有时又不是(比如在Red Hat 4系统上),而是按照文件创建时间返回文件。Solaris UFS文件系统也一样。

进程卡住?看看它在干什么

当ls -1 -f命令不可用时,可以用strace(Linux系统)或者truss(Solaris系统)命令来监视进程来发现有用信息。在我同事Neil Dixon使用strace来监视ls进程时,我才发现这一巧妙方法。在终端中执行:

cd verybigdir
ls -l > /dev/null

然后获取ls进程的PID,在另一个终端中监视它,就可以看到ls正在获取每个文件的元信息:

[root@saturn ~]# strace -p 3963 2>&1 | grep lstat
lstat64(“test_file_a_2433028″, {st_mode=S_IFREG|0664, st_size=0, …}) = 0
lstat64(“test_file_a_2047256″, {st_mode=S_IFREG|0664, st_size=0, …}) = 0
lstat64(“test_file_a_1201573″, {st_mode=S_IFREG|0664, st_size=0, …}) = 0

这样就能立即看到文件名了。如果你想删掉它们,将上述strace的输出重定向到AWK处理。

我猜同样的方法可以用于监视其它进程。有人用这个方法查看过备份进程,或者大型find/cpio任务,甚至cp的进展程度吗?

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,921评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,635评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,393评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,836评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,833评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,685评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,043评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,694评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,671评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,670评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,779评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,424评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,027评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,984评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,214评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,108评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,517评论 2 343

推荐阅读更多精彩内容