JavaScript(ES6标准)处理占多个字节的汉字

写这篇文章的动机是看到了这篇博客:CVTE前端开发在线笔试-2017.9.14

其中一个题目是写一个截取子串的函数subStr(str,len),如果串中有汉字,则汉字长度按2计算。假设str为‘我ABC汗DEF’,当len为4时应输出‘我AB’,当len为6时输出‘我ABC’

我们都知道JS支持Unicode编码,答案中判断中文的方式是,遍历字符串,用str[i]获取字符,用正则表达式(如下)检验字符。

 /[^\u4E00-\u9FA5]/

这个正则的含义是匹配不在这个范围内的中文字符,如果是汉字,返回false,如果不是汉字,返回true。

因为Unicode编码中 4E00-9FA5 表示的是20902个基本汉字,所以一般情况下,上面的方法是不会出错的,能够正确识别到字符串中的汉字。

当然特殊情况下就会出现问题了。

我来引出今天的主角 '𠮷',首先我们得确定的是,它是一个汉字。点这里可以看对它的解释。

'𠮷'的Unicode编码是 \u20BB7,这意味着,上面的正则表达式并不能检测出这个汉字:

const re =  /[^\u4E00-\u9FA5]/
console.log(re.test('𠮷'))//true 表示这个不是汉字

出现问题的原因在于, Unicode编码中 \u4E00-\u9FA5 表示基本汉字,是Unicode1.0标准的,而Unicode在之后扩展加入了许多新的汉字,'𠮷'属于Unicode 3.1版引进的“扩展B区汉字”。Unicode目前已经发展到11.0版本,扩展也到了F:

字符集 字数 Unicode 编码
基本汉字 20902字 4E00-9FA5
基本汉字补充 74字 9FA6-9FEF
扩展A 6582字 3400-4DB5
扩展B 42711字 20000-2A6D6
扩展C 4149字 2A700-2B734
扩展D 222字 2B740-2B81D
扩展E 5762字 2B820-2CEA1
扩展F 7473字 2CEB0-2EBE0

所以钻牛角尖地想,要完整地匹配目前Unicode中所有的汉字,特别是Unicode编码超过一个字节的汉字,需要换种方式。

这里我没找到正则表达式匹配扩展B到F字符的方法,只能用笨办法,写个函数来判断:

/**
 * 判断传入字符串是否是汉字
 * @param {string} str
 * @returns {boolean}
 */
function isChineseCharacter(str) {
    if(Object.prototype.toString.call(str) !== '[object String]' ) {
        return false
    }
    //只允许传入一个字符
    let flag=true
    for (const i of str) {
        if(flag) {
            flag=false
        }else {
            return false
        }
    }
    const testCases=[
        ['\u4E00','\u9FEF'],//基本汉字&基本汉字补充
        ['\u3400','\u4DB5'],//扩展A
        ['\u{20000}','\u{2A6D6}'],//扩展B
        ['\u{2A700}','\u{2B734}'],//扩展C
        ['\u{2B740}','\u{2B81D}'],//扩展D
        ['\u{2B820}','\u{2CEA1}'],//扩展E
        ['\u{2CEB0}','\u{2EBE0}']//扩展F
    ]
    for (const t of testCases){
        if(t[0]<=str&&t[1]>=str){
            return true
        }
    }
    return false
}

这样就可以正确判断'𠮷'了:

isChineseCharacter('汉') //true
isChineseCharacter('𠮷') //true
isChineseCharacter('0')  //false

现在判断汉字是没问题了,但还是存在另一个问题,就是遍历字符串的问题,遍历字符串看起来简单,但面对'𠮷'这样的汉字,传统的方法可能会出现问题:

function log(str) {
    for(let i =0;i<str.length;i++){
        console.log(str[i])
    }
}
log('汉') //汉
log('𠮷') //��

这是因为,JavaScript 允许采用\uxxxx形式表示一个字符,其中xxxx表示字符的 Unicode 码点。而'𠮷'的Unicode编码是\u20BB7,超过了\u0000~\uFFFF这个范围。由于utf-8编码是变长的,所以需要用两个码点来表示'𠮷'。

console.log('汉'.length)//1
console.log('𠮷'.length)//2

for循环会认为'𠮷'包含两个字符(都不可打印),而for...of循环会正确识别出这'𠮷'。
如果一个字符串中含有由多个码点来表示的字符,遍历字符串的方式需要改进:

function log(str) {
    for(const char of str){
        console.log(char)
    }
}
log('汉') //汉
log('𠮷') //𠮷

至此,关于JavaScript(ES6标准)处理占多个字节的汉字的知识整理完毕。

参考:

  1. Unicode - 维基百科
  2. 字符串的扩展 - 阮一峰
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,542评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,596评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,021评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,682评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,792评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,985评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,107评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,845评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,299评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,612评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,747评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,441评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,072评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,828评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,069评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,545评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,658评论 2 350

推荐阅读更多精彩内容

  • 前言 最先接触编程的知识是在大学里面,大学里面学了一些基础的知识,c语言,java语言,单片机的汇编语言等;大学毕...
    oceanfive阅读 3,049评论 0 7
  • 字符集和编码简介 在编程中常常可以见到各种字符集和编码,包括ASCII,MBCS,Unicode等字符集。确切的说...
    兰山小亭阅读 8,466评论 0 13
  • 一、快捷键 ctr+b 执行ctr+/ 单行注释ctr+c ...
    o_8319阅读 5,793评论 2 16
  • 现在在外面都不知道该吃什么了,所以还是回家自己做了一个色香俱全的面,只是味差那么一丢丢,不过有霉豆腐在,什么都可以...
    兰心_4d38阅读 191评论 0 0
  • 第六章 玉郎枝章梦殒汰山谷 话说玉郎公子浩浩荡荡带着家丁仆人前往苏州迎娶美娇娘。不知不觉间车队来到了汰山脚下。 这...
    兔贰爷阅读 518评论 0 1