内容
常用编码介绍
认识ASCII码表
乱码产生原因
解决乱码方法
Notepad++使用过程中乱码问题
常用编码介绍
1、ASCII
最早的也是最基本最重要的一种英美文字的字符集[charset],也可以说是编码[code]。ASCII被定 为国际标准之后的代号为IS0-646。由于ASCII码只使用了低7位二进制位,其他的认为无效,它仅使用了0~127这128个码位。剩下的128个码位便可以用来做扩展,并且ASCII的字符集序号与存储的编码完全相同。
2、ISO-8859-*系列
使用ASCII码表剩余的128做的扩展
随着西欧国家的崛起,在ASCII的基础. 上对剩余的码位做了扩展,就形成了一系列IS0-8859- -的标准。例如为英语作了专门扩展的字符集编码标准编号为IS0-8859-1, 也叫做Latin-1。由于西欧小国众多,稍有发言权的小国就纷纷在ASCI1的基础.上扩展形成自己的编码,这就是IS0- -8859- - 系列。很显然IS0-8859- -*系列的码也是八位的,并且其字符集序号与存储的编码也完全相同。
3、GB2312
简体中文字符集,全称为GB2312(80)字集,共包括国标简体汉字6763个,其中不含繁体字集(BIG5)。
4、Unicode
Unicode字符集(简称为UCS),国际标准组织于1984年4月成立IS0/IEC JTC1/SC2/WG2工作组,针对各国文字、符号进行统一性编码。1991年 美国跨国公司成立Unicode Consort ium,并于1991年10月与WG2达成协议,采用同一编码字集。
5、GBK【936】
GBK字集是简繁字集,包括了GB字集、BIG5字集和一些符号,共包括21003个字符。GBK编码是GB2312编码的超集,向下完全兼容GB2312,同时GBK收录了Unicode基本多文种平面中的所有CJK汉字。同GB2312一样, GBK也支持希腊字母、日文假名字母、俄语字母等字符,但不支持韩语中的表音字符(非汉字字符)。。GBK还收录了GB2312不包含的汉字部首符号、竖排标点符号等字符。
6、UTF-8【65001】万国码
不兼容GBK(存储位置不一样)
UTF-8是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24为(三个字节)来编码。UTF-8包含全世界所有国家需要用到的字符,是国际编码,通用性强。UTF-8编码的文字可以在各国支持UTF8字符集的浏览器上显示。如,如果是UTF8编码,则在外国人的英文IE.上也能显示中文,而且无须下载IE的中文语言支持包,在实际开发中采用UTF-8编码是最常见的。
认识ASCII码表
常用:0~9 、AZ、az、对应的ASCII码分 别为:48~ 57, 65~90, 97~122
规律:数字本身连续,数字到大写字母不连续;大写字母本身连续,大写字母到小写字母不连续;小写字母本身连续。
乱码产生原因
源文件的编码和打开是解码的格式不相同【不完全兼容】
计算机中文件的存储都是以二进制的形式保存的,在保存到硬盘上时,计算机会将内存中的文件,按照特定的格式【编码方式】转换为二进制文件,保存到到硬盘中;
当文件再次打开时,计算机会把硬盘中的二进制文件加载到内存,按照特定的格式,重新编码成可读的普通文件;
重新编码时,系统会搜索当前系统中,对于不同后缀名文件的默认打开方式[每种打开方式包含的编码不一定相同],如果默认的打开方式中包含的编码方式与原编码格式相同,则文件可以正常打开,没有乱码;
-
如果默认打开方式的编码方式和原文件不同,这时可以简单氛围两种情况:
- 如果默认打开方式中的编码全部包含原文件的编码方式,则也可以正常打开;
- 例如GBK [GB2312];
- 如果默认打开方式中的编码不包含,或者没有全部包含,则会出现乱码;
- 如果默认打开方式中的编码全部包含原文件的编码方式,则也可以正常打开;
乱码的解决方式
- 在保存文件时,确定编辑保存的编码方式
- 在打开文件时,要根据不同的文件后缀名,选择对应的打开方式
Notepad++使用过程中乱码问题
编写一段文本,使用UTF-8编码格式进行保存;
打开时选用不同的编码方式查看显示的效果;