摘要:
1,位,字节等概念
2,基本的数据类型
3,移位
4,有符号数的处理/补码
1,一般计算机中8个位(bit)作为一个字节(Byte);
还有一个概念叫“字/word”,字中的字节数是一个基本的系统参数,不同的系统也不相同。一个word可能是1,2,4,8个byte。
8个位可以表示从0000 0000到1111 1111的256个数字
在计算机的文本文件里面,我们看到的英文字符是使用ASCII标准来表示的。计算机中只能存储0/1的数字,我们的文本文件以字节序列存储在计算机中,而在读取和存储的时候会根据ASCII标准规定的,将每个二进制数字表示成字符
ASCII的范围是0-127,不在这个范围内的不是ASCII编码
另外,每行文本都是通过一个看不见的换行符"\n"来结尾的(就像在c/c++里面可以通过这个符号来换行)
只由ASCII字符构成的文件称为文本文件,其他所有文件称为二进制文件。(二进制文件以文本方式打开会乱码,如果能以正确的方式打开的话,就是数字)。
所有的数据都是由一串比特bit保存的,区分不同数据对象的唯一方法是我们读到这些数据对象时的上下文。比如,在不同的上下文中,同样的字符序列可能表示整数/浮点数/字符串/指令。
另外,说到ASCII,还有很多其他的编码,这里不介绍了,大家可以了解
各种字符编码/标准
2,大多数计算机以一个byte作为最小的可寻址的存储器单位。(也就是说地址每变化1,内存变化一byte)。也就是说每次访问都会access一个byte的内容而不是单独访问一个bit。
存储器的每个字节都有一个唯一的数字来标识,成为地址。所有的可能地址的集合就称为虚拟地址空间(virtual address apace)
。
正如其名字所表示的,这个虚拟地址空间只是一个展现给机器级程序的概念性影响(image),实际的实现使用的是RAM,磁盘存储,特殊硬件和操作系统软件的结合,来为程序提供一个看上去统一的字节数组。
-数据大小:
数据类型 | 64位 | 32位 |
---|---|---|
char | 1 | 1 |
short int | 2 | 2 |
int | 4 | 4 |
long int | 8 | 4 |
char* | 8 | 4 |
float | 4 | 4 |
double | 8 | 8 |
当然这只是一般情况下。
注意32位机器上一般最长4个字节,只有double是8个字节
寻址和字节存储#
多字节对象被存储为连续的字节序列,对象的地址为所使用字节序列的最小地址。
比如一个4byte的int型数据的首地址为0x100 ,那么这个数据会被存储在0x100,0x101,0x102,0x103.
下面就涉及到对表示的对象的字节序列排序,假设一个数据有w位,那么最高字节为{x[w-1],x[w-2]...x[w-8]},最低字节为{x[7],x[6]....x[0]};
如果机器选择在存储器里按照最低有效字节到最高有效字节的顺序存储对象,那么就是小端法(little endian);Intel的机器采用这种规则。
如果机器按照从最高有效字节到最低有效字节的顺序存储,那么就是大端法(big endian).
c中的移位运算:#
除了我们听说过的左移右移,实际上实现的方式有两种,一种是逻辑移位,就是"平移",补0;
第二种是算术移位。算术移位是大多数机器在对有符号数据移位时使用的方法。算术右移是在左端空出的所有位置补上最高位。如果是负数,那么补1,正数补0.
但在对无符号数据移位时必须使用逻辑移位。
这个大家了解一下,因为平时用的并不太多。
二进制补码(这个最好看完,不然会有误解啊)#
x[complement]=~x-1;
然后发现了一个求负数补码值的方法:
假设负数的补码为:1x[n-2]x[n-3]...x[0]
那么其值为:将最高位替换为0变成整数,得到的数X[positive],减去最高位的值,如果为n位的话,就是2^(n-1)(插入公式略麻烦,就这样描述一下。。)
举个例子:1100 1111 1100 0111计算的话就是:100 1111 1100 0111-1000 0000 0000 0000=-12345
后来在wiki上也看见了
计算二补数(two's complement):
正数的二补数是负数,负数的二补数是正数。
12345=0011 0000 0011 1001
-12345不用补码表示,仅用符号位:
1011 0000 0011 1001
取反得: 1100 1111 1100 0110
+1得: 1100 1111 1100 0111(绝对值直接加一)
感觉wiki这个规律也蛮不错的,可耻的再次copy:
但是要指出的是,二补数的概念和平时的补码概念并不太一样,
补码的概念是这样的:
正数的补码就是其本身
负数的补码是在其原码的基础上, 符号位不变, 其余各位取反, 最后+1. (即在反码的基础上+1)
在wiki上看到了另一个方法:
最开始感觉蛮震惊,后来一想,不过是最右边所有的0转换过后全为1,然后还有一个加一的步骤,加一之后这些11...1又变成了00..0,然后产生进1,又给了那个1,所以这个1以及之后的0都不变。
这个方法大家可以不用记,了解原理就好。
附上链接:有符号数的处理-wiki
有符号和无符号的转换
从二进制补码到无符号数:
正数不变
负数:T2U(x)=x+2^w;
如T2U(-12345)=2^16-12345;
从无符号变为二进制补码表示的有符号数:
U2T(x)=x-2w;当x>=2(w-1)
举个例子很好理解,这个公式也解释了从负数二进制补码计算其值的方法(上面有讲)。