二进制文件和文本文件到底有什么不同?

相同之处

首先,可以说两者是相同的。因为对于存储在硬盘上的文件来说:都要用二进制的方式来存储的。

从这个意义上说,两者是相同的。

对二进制文件进行的加密、解密方法同样适用于文本文件。

不同之处

如果说两者完全相同,那又不尽然。因为你用文本编辑器打开一个二进制文件的时候,多半会看到乱码,而打开文本文件,就不会看到乱码。这个实践表明,这两者是不同的。

那么为什么会这样呢?因为文本文件是二进制文件的一个子集。不光文本文件,一切其它格式的文件都是二进制文件的子集。例如jpg,avi,ppt,exe等文件也都是二进制文件的子集。

二进制文件可以作为计算机中所有文件的统称。

文件存储的时候,字节是最小的单元。一个字节可以存储0到255这256个数字。

某些数字在文本编辑器中,可以呈现为英文字符,例如:数字 97 就显示为英文的小写字母 a 。

文本文件只存储可见的字符。在只有英文的Ascii码文本文件中,每个字符的数值都不会大于 127 ,也不会等于127,除了数字 13 表示的回车,数字 10 表示的换行,数字9表示Tab缩进,其他的字符数值都大于32,数值32显示为空格。

二进制文件中有许多不可见的字符。所谓的不可见是:在普通的文本编辑器中没有定义该字符的显示方式。

当使用GB2312的汉字编码以后,用相邻的两个字节表示一个汉字。原本不可见的字符变的可见了。这时候,文本文件中的字节有许多高位置1,大致上使用了0到255中的每一个数。为什么说大致呢?因为你去查GB2312的码表,会发现每个区FF的位置都是空着的,也就是不使用数字255。这是为什么呢?

数字255在某些情况下也是-1,这个数字可以看作文本文件的禁区。也就是说,二进制文件中,每个字节都可以在0到255之间任意的挑选;文本文件的字节则不能使用数字255。

GB2312码表0的位置也是空出来的,这是为什么呢?

编程和编码

答案是:为了能兼容传统的c语言程序。

如果c语言程序在处理一个字符串,遇到了0,那么程序认为字符串结束了。所以,文本文件的字节中不能使用数字0,以避免程序处理到一半就终止了。

而数字255更是不能出现的,255在表示有符号的char时,就是-1,在c语言中定义为EOF(End Of File)。也就是说,某些传统的c语言程序,例如getchar( )在返回-1的时候,程序员就认为该文件结束了。所以,这个数字不能出现在文本文件的内容中。

传统意义上,文本文件有禁区,最初的0和最终的255,是文本文件的禁区。

所有不可见的Ascii码也是禁区。

而二进制文件没有任何约束。

现在还有禁区吗

各种对文本文件的编码方式,都会尽量避免打破这个禁区。但在Unicode定义以后,这个禁区被打破了。Unicode定义了BOM,也就是在文本文件的开头加入几个不可见的字节,来表示这个文件的编码方式。

从这以后,文本文件中就可以存储不可见的字符了,不再是那么纯粹的文本文件。UTF-8编码的文件本来可以不使用BOM的,但微软也为它设计了BOM,这是一个字符,编码是(Unicode FEFF),转化为UTF8形式以后是(EF BB BF)。

尽管打破了禁区,但只限定于文件开头的两三个字节。

这可以看作一种黑客的解决问题方式,不优雅,也不美观。因为黑客有办法在文本文件中插入更多的不可见字符,普通人不知道如何操作。

有了 BOM以后,出现了字节FF,这意味着数字255不再是禁区。虽然不显示出来,但是它像一根针,插入文本文件的开头。

但有了UTF-16编码以后,禁区彻底打破了,文本文件的编码如果按照UTF-16的方式存储,除了开头有BOM以外,所有不可见的ASCII码和扩展Ascii码都可以成为某个字符的一部分。也就是说,没有任何禁区。文本文件中可以存储任何数值的字节。

结论

文本文件可以在文本编辑器中显示,二进制文件可以在二进制编辑器中显示。没有什么东西不能显示。

所以,如果再问文本文件和二进制文件的区别是什么,答案就是:

没有区别。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 230,825评论 6 546
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 99,814评论 3 429
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 178,980评论 0 384
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 64,064评论 1 319
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 72,779评论 6 414
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 56,109评论 1 330
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 44,099评论 3 450
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 43,287评论 0 291
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 49,799评论 1 338
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 41,515评论 3 361
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 43,750评论 1 375
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 39,221评论 5 365
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 44,933评论 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 35,327评论 0 28
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 36,667评论 1 296
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 52,492评论 3 400
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 48,703评论 2 380

推荐阅读更多精彩内容

  • 广义上的二进制文件包括文本文件,这里讨论的是狭义上的二进制文件与文本文件的比较: 1. 能存储的数据类型不同 文本...
    时待吾阅读 11,821评论 2 28
  • 续上期《小数的计算》本文和大家一起学习如何从乱码中恢复 我们在处理文件、浏览网页、编写程序时,时不时会碰到乱码的情...
    扎实小男孩阅读 2,175评论 0 2
  • 每个文本编辑器都有默认的编码方式(比如 UTF-8 编码),当我们保存文档的时候,可以选择编码方式,如果没有特意选...
    _于曼丽_阅读 1,555评论 0 1
  • 文本文件和二进制文件 两者并无本质区别,或者说文本文件就是特殊的二进制文件。最主要的区别就是打开文件的程序对内容的...
    马梦里阅读 677评论 0 0
  • 【周周营销、月月提升】第三周,大额房贷客户走访:19日上午,嘉善支行营业部客户经理分别回访大额房贷客户。分别了解其...
    褚健建阅读 425评论 0 0