字符编码与技术名词

学会了二进制与十进制的转化

二进制的进法为例；01+01=10

在编码中位是最基础的而位是根据二进制来编写的只有0与1，而字符中由八个位组成，就是有八位数字。

拉丁字符是分为两部分基本的与派生的，基本的就是从小接触的，而派生的用于非英语国家（就是在基础的上面加点标点符号，不知道为什么要搞这么复杂，可螚是为了彰显自己厉害吧）

今天的重头戏，哭唧唧（各种编码标准）相同字节编码的兼容

一、拉丁（不会用中文的国家的多样编程）一个字节代表一个字符

1.ASCII 这个标准就是最基本的字节是有八位，它用不完然后就只用七位（01000000)，所以容量较小128，但英语字母也不复杂,为基本拉丁字符，所以在基础上够用。

2.EASCII 这个就是主要用于在运用派生拉丁字符的国家（欧洲），他们七位不够用，所以他们在字节上用了八位。ps.扩大了范围段256·

3.ISO 8859（Latin-1）这个编程规则很厉害，它是第一个由一系列字符集（15）来编写的，上两个编程规则里都是只能代表一种语言。而这个编程打破了在语言上的权限，它通过不同字符集来表达不同语言（仅限欧洲），而范围段00000000-01111111和ASCII一样。10000000-11111111是扩展到不同字符集的。ps.我认为它主要就改变了语言单一这一功能，别的没有什么进展。

二、中文（GB开头的一般互相兼容）

1、GB2312 在针对简体中文（6763)时用两个字节表示一个字符，但在表示拉丁是仍是单字节.ps.7445个符号

2.BIG5 繁体字用两个字节。ps。兼容ASCII，与GB2312有冲突。21886范围段

3.GBK99(GB2312升级版）加入了繁体字，范围段扩充到了21886。ps。兼容GB2312

4.GB18030 中日韩文字，有单字节，两个字节，四个字节。ps。范围段27484，兼容GB2312。

三、Unicode唯一个统一字符的编码编程。用四个字节表示一个字符，内存大，电脑不好识别，感觉就是一个实验的残缺品，基本就没人用。完全表达了一句话，理想很丰满，现实很骨干。

1，UCS

2.UTF-32

3.UTF-16

4.UFT-8 将Unicode推广开了的编程规则（麻烦）规则1：对于单字节字符，字节的第一位为0，后7位为这个符号的Unicode码，所以对于拉丁字母，UTF-8与ASCII码是一致的。规则2：对于n字节(n>1)的字符，第一个字节前n位都设为1，第n+1位为0，后面字节的前两位一律设为10，剩下没有提及的位，全部为这个符号的Unicode编码。ps。就是这样。改进了Unicode的缺点。但是和GB系列的不兼容，感觉这些外国人建立编码规则的时候一点不顾及中国市场。

技术名词；额就是些发音问题

字符编码与技术名词

友情链接更多精彩内容