这些编码方式你不可不知

编程过程中经常会遇到各种编码方式,乱码的问题是最让程序员头疼的问题。我们经常会遇到哪些编码方式呢?这些编码方式你到底懂多少?

头疼的各类编码方式

1. Unicode

Unicode

Unicode(统一码、万国码、单一码)是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。

2. UTF-8

UTF-8

UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码。由Ken Thompson于1992年创建。现在已经标准化为RFC 3629。UTF-8用1到4个字节编码Unicode字符。用在网页上可以统一页面显示中文简体繁体及其它语言(如英文,日文,韩文)。

3. GB2312

GB2312

GB2312编码适用于汉字处理、汉字通信等系统之间的信息交换,通行于中国大陆;新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB 2312。

基本集共收入汉字6763个和非汉字图形字符682个。整个字符集分成94个区,每区有94个位。每个区位上只有一个字符,因此可用所在的区和位来对汉字进行编码,称为区位码。

4. ANSI

ANSI

ANSI是一种字符代码,为使计算机支持更多语言,通常使用 0x00~0x7f 范围的1 个字节来表示 1 个英文字符。超出此范围的使用0x80~0xFFFF来编码,即扩展的ASCII编码。

为使计算机支持更多语言,通常使用 0x80~0xFFFF 范围的 2 个字节来表示 1 个字符。比如:汉字 '中' 在ANSI编码中文操作系统中,使用 [0xD6,0xD0] 这两个字节存储。

5. ASCII

ASCII

ASCII(American Standard Code for Information Interchange,美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统,并等同于国际标准ISO/IEC 646。

ASCII 码使用指定的7 位或8 位二进制数组合来表示128 或256 种可能的字符。标准ASCII 码也叫基础ASCII码,使用7 位二进制数(剩下的1位二进制为0)来表示所有的大写和小写字母,数字0 到9、标点符号, 以及在美式英语中使用的特殊控制字符。

6. GBK

GBK

GBK全称《汉字内码扩展规范》(GBK即“国标”、“扩展”汉语拼音的第一个字母,英文名称:Chinese Internal Code Specification)

GBK编码,是在GB2312-80标准基础上的内码扩展规范,使用了双字节编码方案,其编码范围从8140至FEFE(剔除xx7F),共23940个码位,共收录了21003个汉字。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 转眼间,已经到了大三第二学期,走到了人生中的小分水岭。 身边的同学,有的早早准备考研,天天泡图书馆;有的同学开始着...
    Dandelion_cc41阅读 1,517评论 0 1
  • 在网上很多人公布了太多的PHP学习路线图,本人在互联网公司工作十余年,也带了很多PHP入门的新手,将他们的一些问题...
    Dovy7阅读 1,526评论 0 0
  • 2017年是我在简书上逗留时间最多的时候,我曾有段时间坚持在简书上做到日更。即便是二胎预产期在即也不例外。 4月3...
    梁兰芳阅读 2,795评论 0 0
  • 终于到了知北游的第一天,在家里,我边整理衣服裤子边想象:草原的大,一望无际;草原的羊,洁白无瑕;草原的蒙古...
    懒猫鳶阅读 3,184评论 3 6
  • 我想我对“金钱”二字不够敏感,而“金钱观”意识更为淡泊。我也曾认为钱被花出那一刻,才体现了它的真正价值。...
    Willa_李影阅读 3,118评论 0 0

友情链接更多精彩内容