计算机常用编码

内容

常用编码介绍
认识ASCII码表
乱码产生原因
解决乱码方法
Notepad++使用过程中乱码问题

常用编码介绍

1、ASCII

最早的也是最基本最重要的一种英美文字的字符集[charset]，也可以说是编码[code]。ASCII被定为国际标准之后的代号为IS0-646。由于ASCII码只使用了低7位二进制位，其他的认为无效，它仅使用了0~127这128个码位。剩下的128个码位便可以用来做扩展，并且ASCII的字符集序号与存储的编码完全相同。

2、ISO-8859-*系列

使用ASCII码表剩余的128做的扩展
随着西欧国家的崛起，在ASCII的基础. 上对剩余的码位做了扩展，就形成了一系列IS0-8859- -的标准。例如为英语作了专门扩展的字符集编码标准编号为IS0-8859-1，也叫做Latin-1。由于西欧小国众多，稍有发言权的小国就纷纷在ASCI1的基础.上扩展形成自己的编码，这就是IS0- -8859- - 系列。很显然IS0-8859- -*系列的码也是八位的，并且其字符集序号与存储的编码也完全相同。

3、GB2312

简体中文字符集，全称为GB2312(80)字集，共包括国标简体汉字6763个，其中不含繁体字集（BIG5）。

4、Unicode

Unicode字符集(简称为UCS)，国际标准组织于1984年4月成立IS0/IEC JTC1/SC2/WG2工作组，针对各国文字、符号进行统一性编码。1991年美国跨国公司成立Unicode Consort ium,并于1991年10月与WG2达成协议，采用同一编码字集。

5、GBK【936】

GBK字集是简繁字集，包括了GB字集、BIG5字集和一些符号,共包括21003个字符。GBK编码是GB2312编码的超集，向下完全兼容GB2312，同时GBK收录了Unicode基本多文种平面中的所有CJK汉字。同GB2312一样， GBK也支持希腊字母、日文假名字母、俄语字母等字符，但不支持韩语中的表音字符(非汉字字符)。。GBK还收录了GB2312不包含的汉字部首符号、竖排标点符号等字符。

6、UTF-8【65001】万国码

不兼容GBK（存储位置不一样）

UTF-8是用以解决国际上字符的一种多字节编码，它对英文使用8位(即一个字节)，中文使用24为(三个字节)来编码。UTF-8包含全世界所有国家需要用到的字符，是国际编码，通用性强。UTF-8编码的文字可以在各国支持UTF8字符集的浏览器上显示。如，如果是UTF8编码，则在外国人的英文IE.上也能显示中文，而且无须下载IE的中文语言支持包，在实际开发中采用UTF-8编码是最常见的。

认识ASCII码表

常用:0~9 、A_Z、az、对应的ASCII码分别为:48~ 57, 65~90, 97~122

规律:数字本身连续，数字到大写字母不连续;大写字母本身连续，大写字母到小写字母不连续;小写字母本身连续。

乱码产生原因

源文件的编码和打开是解码的格式不相同【不完全兼容】

计算机中文件的存储都是以二进制的形式保存的,在保存到硬盘上时，计算机会将内存中的文件，按照特定的格式【编码方式】转换为二进制文件，保存到到硬盘中;
当文件再次打开时,计算机会把硬盘中的二进制文件加载到内存，按照特定的格式，重新编码成可读的普通文件;
重新编码时，系统会搜索当前系统中，对于不同后缀名文件的默认打开方式[每种打开方式包含的编码不一定相同],如果默认的打开方式中包含的编码方式与原编码格式相同,则文件可以正常打开,没有乱码;
如果默认打开方式的编码方式和原文件不同,这时可以简单氛围两种情况：
- 如果默认打开方式中的编码全部包含原文件的编码方式，则也可以正常打开;
  - 例如GBK [GB2312]；
- 如果默认打开方式中的编码不包含,或者没有全部包含,则会出现乱码；

乱码的解决方式

在保存文件时，确定编辑保存的编码方式
在打开文件时，要根据不同的文件后缀名，选择对应的打开方式

Notepad++使用过程中乱码问题

编写一段文本，使用UTF-8编码格式进行保存；
打开时选用不同的编码方式查看显示的效果；