计算机存储数据的格式

概述

计算机存储的格式是二进制位，8个二进制位表示一个字节，在计算机中二进制位有原码，反码和补码的格式，下面分别介绍

原码：最高位表示符号位，正数0，负数1；其余7位表示数值因此，一字节原码的表示范围-127到127
反码：正数的反码和原码相同，负数的反码为除符号位其余取反即，0变1，1变0，一字节原码的表示范围-127到127
补码：正数的补码和原码相同，负数的补码为反码+1，一字节原码的表示范围-128到127

为了简化基础电路设计，计算机中加法就是将两个二进制位相加，减法就是加上一个负数，对应的符号位参与运算，乘法是左移运算，除法是右移运算

使用原码进行计算，结果不正确，

1 - 1 = 1 + (-1) = [00000001]原 + [10000001]原 = [10000010]原 = -2

使用反码计算，在0的时候会出问题，虽然逻辑上我们理解的0和-0是一样的，但是在反码中的表示不一样0的反码是0000 0000，-0的反码是1111 1111

1 - 1 = 1 + (-1) = [0000 0001]原 + [1000 0001]原= [0000 0001]反 + [1111 1110]反 = [1111 1111]反 = [1000 0000]原 = -0

使用补码计算，结果正确，在补码中不管是0还是-0补码都为0000 0000

1-1 = 1 + (-1) = [0000 0001]原 + [1000 0001]原 = [0000 0001]补 + [1111 1111]补 = [0000 0000]补=[0000 0000]原

补码的最小值为-128

(-1) + (-127) = [1000 0001]原 + [1111 1111]原 = [1111 1111]补 + [1000 0001]补 = [1000 0000]补=-128

因此计算机中存储一个字节是使用补码来表示，一个字节表示-128到127

编码

计算机保存数据是通过保存二进制数据，我们使用的字符在计算机内存储的仅仅是二进制数据，那为啥会出现乱码呢？这里就涉及到编码和字符集的问题

最初计算机中只有ASCII字符集和编码，只表示128个字符；后来计算机发展字符和编码需要扩充，就有了Unicode字符集和对应的UTF-8，UTF-16等编码。Unicode字符集表示了各个国家100多万字符。中国也有自己的字符集和字符编码，如GBK和GB18030

字符集相当于字典，每一个字符都有唯一的一个id，编码就是字符在计算机中存储的形式，比如：UTF-8将字符集中的每一个字符id通过一个算法获得了这个字符在计算机中的储存格式，几个字节，每个字节的大小，因此尽管UTF-8和UTF-16都是基于Unicode字符集，但是同一个字他们的存储字节数，每个字节大小几乎不尽相同

乱码出现的原因就是，我这个字是基于UTF-8存储的，你使用UTF-16的编码来想翻译我，对不起，对应的字节数和字节大小和你想表达的字不是同一个，只能给你乱码显示了，比如“汉”字在这两种编码中就有不同的显示。

字符集和字符编码一般都是同时制定的，编码不止字符编码，还有图像声音编码等来保存音频视频

参考文章
原码，反码，补码详解
 彻底理解字符编码

计算机存储数据的格式

概述

编码

推荐阅读更多精彩内容