所有类linux的操作系统都非常依赖于被用于几种数据类型存储的文本文件。很多人会使用纯文本格式来编写文档,虽然很容易看到一个小的文本文件对于保存简单的笔记会很有帮助,但是也有可能用文本格式来编写大的文档,一种比较流行的方式就是先用文本格式来编写一个大的文档,然后用一种标记语言的方式来描述已完成文档的格式。而linux的文本处理系统位于该项技术的前列。
目前,最流行的电子文档类型可能就是网页了,网页是文本文档,它们使用HTML(超文本标记语言)或者是XML(可扩展的标记语言)作为标记语言来描述文档的可视格式。另外,email是一个基于文本的媒介,为了传输,甚至非文本的附件也会被转换成文本表示形式。通过下载一个email信息,然后用less浏览它,我们可以看到这条信息始于一个标题,其描述了信息的来源以及在传输过程中它接受到的处理,然后是信息的正文内容。输出时,会以纯文本的格式发送到打印机。或者页面包含图形,其会被转换成一种文本格式的页面描述语言,以PostScript著称,然后再发送给一款能生成图形点阵的程序,最后被打印出来。
有好多命令的选项可以用来帮助更好的可视化文本内容。sort程序对标准输入的内容,或命令行中指定的一个或多个文件进行排序,然后把排序结果发送到标准输出。uniq程序执行一个看似琐碎的行为,当给定一个排序好的文件(包括标准输出),uniq会删除任意重复行,并且把结果发送到标准输出。uniq常常和sort程序一块使用,来清理重复的输出。cut程序被用来从文本文件中抽取文本,并将其输出到标准输出,它能够接受多个文件参数或者标准输入。paste的功能与cut恰恰相反,它会添加一个或多个文本列到文件中,而不是从文件中抽取文本列。
通常比较文本文件的版本是很有帮助的,对于系统管理员和软件卡法这来说,这个尤为重要。