sort命令常用于对统计日志中不同服务错误的数量进行排序,现在我们就一起花5分钟来学习sort命令!
sort的工作原理
sort将文件的每一行作为一个单位,相互比较,默认比较规则是从首字符向后,依次按ASCII码值进行比较,最后将他们按升序输出。
举个例子:
[root@vm3 ~]# cat test.txt
zhangyishan 24 5678
yangzi 25 3400
wangyuan 20 2388
yangzi 25 3400
yangyang 25 2388
[root@vm3 ~]# sort test.txt
wangyuan 20 2388
yangyang 25 2388
yangzi 25 3400
yangzi 25 3400
zhangyishan 24 5678
2.sort的-u选项
-u的作用就是在输出行中去重复
[root@vm3 ~]# sort -u test.txt
wangyuan 20 2388
yangyang 25 2388
yangzi 25 3400
zhangyishan 24 5678
3.sort 的-r选项
sort 的-r选项,是按照倒序排列
zhangyishan 24 5678
yangzi 25 3400
yangzi 25 3400
yangyang 25 2388
wangyuan 20 2388
4.sort的-o选项
正常将sort的执行结果重定向到源文件会使源文件变为空
[root@vm3 ~]# sort test.txt >test.txt
[root@vm3 ~]# cat test.txt
但是加上-o就可以将排序后的结果重定向到源文件
[root@vm3 ~]# sort test.txt -o test.txt
[root@vm3 ~]# cat test.txt
wangyuan 20 2388
yangyang 25 2388
yangzi 25 3400
yangzi 25 3400
zhangyishan 24 5678
5.sort的-n选项
-n选项是按照数值排序
[root@vm3 ~]# sort number.txt
1
12
14
2
2
3
5
7
[root@vm3 ~]# sort -n number.txt
1
2
2
3
5
7
12
14
6.sort的-t选项和-k选项
zhangyishan 24 5678
像上面的一行文本以空格分割成三列,分别表示姓名 年龄 工资,如果我们想按第二列的年龄排序怎么办呢,这时候就要用到-t和-k参数了
-t指定间隔符
-k用来指定列数
[root@vm3 ~]# sort -t ' ' -k 2 test.txt
wangyuan 20 2388
zhangyishan 24 5678
yangyang 25 2388
yangzi 25 3400
yangzi 25 3400
7. 其他的sort常用选项
-f会将小写字母都转换为大写字母来进行比较,亦即忽略大小写
-c会检查文件是否已排好序,如果乱序,则输出第一个乱序的行的相关信息,最后返回1
-C会检查文件是否已排好序,如果乱序,不输出内容,仅返回1
-M会以月份来排序,比如JAN小于FEB等等
-b会忽略每一行前面的所有空白部分,从第一个可见字符开始比较。
有时候学习脚本,你会发现sort命令后面跟了一堆类似-k1,2,或者-k1.2 -k3.4的东东,有些匪夷所思。今天,我们就来搞定它—-k选项!
8.-k 的选项
-k 选项的语法如下:
[FStart[.CStart]][Modifier][,[FEnd[.CEnd]][Modifier]]
这个语法格式包含两大部分,以逗号(,)分割为Start和End两部分
如果不设置End部分,那么就认为End被设定为行尾!
Start部分由三部分组成:
FStart指定以哪个部分排序,1就是以第一部分排序
CStart指定从指定部分的第几个字符开始排序
Modifier指定排序方式可以使用r、n等选项
9.演示-k的使用
如我们想从名字的第二个字符开始排序
[root@vm3 ~]# sort -t ' ' -k 1.2 test.txt
yangyang 25 2388
wangyuan 20 2388
yangzi 25 3400
yangzi 25 3400
zhangyishan 24 5678
只根据名字的第二个字母排序,第二个字母一样,以年龄倒序排列
[root@vm3 ~]# sort -t ' ' -k 1.2,1.2 -k 2rn test.txt
yangyang 25 2388
yangzi 25 3400
yangzi 25 3400
wangyuan 20 2388
zhangyishan 24 5678
10.在modifier部分的选项
可以用到b、d、f、i、n 或 r。
其中n和r你肯定已经很熟悉了。
b表示忽略本域的签到空白符号。
d表示对本域按照字典顺序排序(即,只考虑空白和字母)。
f表示对本域忽略大小写进行排序。
i表示忽略“不可打印字符”,只针对可打印字符进行排序。(有些ASCII就是不可打印字符,比如\a是报警,\b是退格,\n是换行,\r是回车等等)