学会了二进制与十进制的转化
二进制的进法为例;01+01=10
在编码中位是最基础的而位是根据二进制来编写的只有0与1,而字符中由八个位组成,就是有八位数字。
拉丁字符是分为两部分基本的与派生的,基本的就是从小接触的,而派生的用于非英语国家(就是在基础的上面加点标点符号,不知道为什么要搞这么复杂,可螚是为了彰显自己厉害吧)
今天的重头戏,哭唧唧(各种编码标准)相同字节编码的兼容
一、拉丁(不会用中文的国家的多样编程)一个字节代表一个字符
1.ASCII 这个标准就是最基本的字节是有八位,它用不完然后就只用七位(01000000),所以容量较小128,但英语字母也不复杂,为基本拉丁字符,所以在基础上够用。
2.EASCII 这个就是主要用于在运用派生拉丁字符的国家(欧洲),他们七位不够用,所以他们在字节上用了八位。ps.扩大了范围段256·
3.ISO 8859(Latin-1)这个编程规则很厉害,它是第一个由一系列字符集(15)来编写的,上两个编程规则里都是只能代表一种语言。而这个编程打破了在语言上的权限,它通过不同字符集来表达不同语言(仅限欧洲),而范围段00000000-01111111和ASCII一样。10000000-11111111是扩展到不同字符集的。ps.我认为它主要就改变了语言单一这一功能,别的没有什么进展。
二、中文(GB开头的一般互相兼容)
1、GB2312 在针对简体中文(6763)时用两个字节表示一个字符,但在表示拉丁是仍是单字节.ps.7445个符号
2.BIG5 繁体字用两个字节。ps。兼容ASCII,与GB2312有冲突。21886范围段
3.GBK99(GB2312升级版)加入了繁体字,范围段扩充到了21886。ps。兼容GB2312
4.GB18030 中日韩文字,有单字节,两个字节,四个字节。ps。范围段27484,兼容GB2312。
三、Unicode唯一个统一字符的编码编程。用四个字节表示一个字符,内存大,电脑不好识别,感觉就是一个实验的残缺品,基本就没人用。完全表达了一句话,理想很丰满,现实很骨干。
1,UCS
2.UTF-32
3.UTF-16
4.UFT-8 将Unicode推广开了的编程规则(麻烦)规则1:对于单字节字符,字节的第一位为0,后7位为这个符号的Unicode码,所以对于拉丁字母,UTF-8与ASCII码是一致的。规则2:对于n字节(n>1)的字符,第一个字节前n位都设为1,第n+1位为0,后面字节的前两位一律设为10,剩下没有提及的位,全部为这个符号的Unicode编码。ps。就是这样。改进了Unicode的缺点。但是和GB系列的不兼容,感觉这些外国人建立编码规则的时候一点不顾及中国市场。
技术名词;额就是些发音问题