Unicode

专业术语

统一码/国际通用码(Unicode)
统一码/国际通用码联盟(Unicode Consortium)
字符编码(Characters Encoding):字符编码(英语:Character encoding)也称字集码,是把字符集中的字符编码为指定集合中某一对象(例如:比特模式、自然数序列、8位组或者电脉冲),以便文本计算机中存储和通过通信网络的传递。
字符集(CharacterSets)
乱码(Mojibake):由於编码之间的相容性及应用程序如浏览器的支援不一,会发生编码错误以致显示内容不正确,又称乱码(Mojibake)
汉字(Han)
表情符号(Emoji)
统一汉字(Unihan)
中日韩三种语言所用的汉字,又称CJK,後期以有越南用的汉字加入,称CJKV。

Unicode的定义

Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发,1994年正式公布。

Unicode 的常见表达形式

一般而言,Unicode编码的书写表达形式以U+开头,接16进制符,如Unicode的笑脸😀:

U+1F600

Unicode列表时如Unicode 5.0的全部表情符号都采取这种编码书写方式
URL在编码时,会把非ASCII字符及一些保留字符做转换,加以%符号以16进制符表示,如:

%F0%9F%98%80

(URL编码工具可用URL Decoder/EncoderATOOL

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容