随笔:UNICODE

unicode及unicode consortium:unicode与emoji

  1. 全球有近90%的人口使用表情符号;
  2. unicode emoji的支援需要厂商提供对应的unicode字型;
  3. unicode是一种象形文字;是万维网网页标准的基础;
  4. unicode可以解决不同语言之间的乱码问题;
  5. unicode码最大的好处就是对于每一个字元提供了一个跨平台、语音与程序的统一数码。

unicode:常见的表达形式

  1. url在编码时,会把非ascll字符及一些保留字符做转换,加以%符号以16进制符号表示,如:%F0%9F%98%80(url编码工具可用URL decoder/encoder或atool);
  2. 一般而言,unicode编码的书写表达形式以U+开头,如unicode的笑脸:
  3. U+1F600。unicode列表时如unicode5.0的全部表情符号都采取这种编码方式。

unicode标准统一编码的基础设施

  1. unicode基础设施的工作包括两部分,一为为文本中使用的每个字符提供一个数字,而unicode标准是这些数字的字典。二是协助设备处理世界上所有的语言;
  2. unicode标准是w3c规范的组成部分;
  3. 让文本以全球化方式放在网上这方面,w3c遵循unicode的道路。自html的早期开始到不断扩大xml系统规范,unicode标准是w3c规范的一个组成部分;
  4. unicode编码标准为文本中使用的每个字符提供一个数字。
  • 美国信息交换标准代码—ascl
  • 通用区域资料—cldr

unicode在东亚

  1. 专用汉字的特点在于,如是几种语言共享的符号且经同意,是共享同一编码,统一的汉子则否;
  2. unihan的早期发展涉及中日韩三种语言所用的汉字,又称cjk,后期以有越南用的汉字加入,称cjkv。
  • URL的编码工具:URL decoder

unicode字符集

  1. 中文简体字早期标准gb-2312盒繁体字/正体字早期标准blg5放在一起会发生编码错误以致显示内容不正确;
  2. 中文简体字早期标准gb-2312盒繁体字/正体字早期标准blg5这两种标准的文字是无法同时出现在同一份文件中.
  • 乱码—Mojibake
  • 国际通用码—Unicode
  • 编码—Encoding
  • unicode cldr数据库存有不少数据,可以使用xml和json格式取用
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。