JavaScript(ES6标准)处理占多个字节的汉字

写这篇文章的动机是看到了这篇博客：CVTE前端开发在线笔试-2017.9.14

其中一个题目是写一个截取子串的函数subStr(str,len),如果串中有汉字，则汉字长度按2计算。假设str为‘我ABC汗DEF’，当len为4时应输出‘我AB’，当len为6时输出‘我ABC’

我们都知道JS支持Unicode编码，答案中判断中文的方式是，遍历字符串，用str[i]获取字符，用正则表达式（如下）检验字符。

 /[^\u4E00-\u9FA5]/

这个正则的含义是匹配不在这个范围内的中文字符，如果是汉字，返回false，如果不是汉字，返回true。

因为Unicode编码中 4E00-9FA5 表示的是20902个基本汉字,所以一般情况下，上面的方法是不会出错的，能够正确识别到字符串中的汉字。

当然特殊情况下就会出现问题了。

我来引出今天的主角 '𠮷'，首先我们得确定的是，它是一个汉字。点这里可以看对它的解释。

'𠮷'的Unicode编码是 \u20BB7，这意味着，上面的正则表达式并不能检测出这个汉字：

const re =  /[^\u4E00-\u9FA5]/
console.log(re.test('𠮷'))//true 表示这个不是汉字

出现问题的原因在于, Unicode编码中 \u4E00-\u9FA5 表示基本汉字,是Unicode1.0标准的,而Unicode在之后扩展加入了许多新的汉字，'𠮷'属于Unicode 3.1版引进的“扩展B区汉字”。Unicode目前已经发展到11.0版本，扩展也到了F：

字符集	字数	Unicode 编码
基本汉字	20902字	4E00-9FA5
基本汉字补充	74字	9FA6-9FEF
扩展A	6582字	3400-4DB5
扩展B	42711字	20000-2A6D6
扩展C	4149字	2A700-2B734
扩展D	222字	2B740-2B81D
扩展E	5762字	2B820-2CEA1
扩展F	7473字	2CEB0-2EBE0

所以钻牛角尖地想，要完整地匹配目前Unicode中所有的汉字，特别是Unicode编码超过一个字节的汉字,需要换种方式。

这里我没找到正则表达式匹配扩展B到F字符的方法，只能用笨办法，写个函数来判断：

/**
 * 判断传入字符串是否是汉字
 * @param {string} str
 * @returns {boolean}
 */
function isChineseCharacter(str) {
    if(Object.prototype.toString.call(str) !== '[object String]' ) {
        return false
    }
    //只允许传入一个字符
    let flag=true
    for (const i of str) {
        if(flag) {
            flag=false
        }else {
            return false
        }
    }
    const testCases=[
        ['\u4E00','\u9FEF'],//基本汉字&基本汉字补充
        ['\u3400','\u4DB5'],//扩展A
        ['\u{20000}','\u{2A6D6}'],//扩展B
        ['\u{2A700}','\u{2B734}'],//扩展C
        ['\u{2B740}','\u{2B81D}'],//扩展D
        ['\u{2B820}','\u{2CEA1}'],//扩展E
        ['\u{2CEB0}','\u{2EBE0}']//扩展F
    ]
    for (const t of testCases){
        if(t[0]<=str&&t[1]>=str){
            return true
        }
    }
    return false
}

这样就可以正确判断'𠮷'了:

isChineseCharacter('汉') //true
isChineseCharacter('𠮷') //true
isChineseCharacter('0')  //false

现在判断汉字是没问题了，但还是存在另一个问题，就是遍历字符串的问题，遍历字符串看起来简单，但面对'𠮷'这样的汉字，传统的方法可能会出现问题：

function log(str) {
    for(let i =0;i<str.length;i++){
        console.log(str[i])
    }
}
log('汉') //汉
log('𠮷') //��

这是因为,JavaScript 允许采用\uxxxx形式表示一个字符，其中xxxx表示字符的 Unicode 码点。而'𠮷'的Unicode编码是\u20BB7,超过了\u0000~\uFFFF这个范围。由于utf-8编码是变长的，所以需要用两个码点来表示'𠮷'。

console.log('汉'.length)//1
console.log('𠮷'.length)//2

for循环会认为'𠮷'包含两个字符（都不可打印），而for...of循环会正确识别出这'𠮷'。
如果一个字符串中含有由多个码点来表示的字符，遍历字符串的方式需要改进：

function log(str) {
    for(const char of str){
        console.log(char)
    }
}
log('汉') //汉
log('𠮷') //𠮷

至此,关于JavaScript(ES6标准)处理占多个字节的汉字的知识整理完毕。

参考：

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 212,542评论 6赞 493
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,596评论 3赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 158,021评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,682评论 1赞 284
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,792评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,985评论 1赞 291
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,107评论 3赞 410
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,845评论 0赞 268
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,299评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,612评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,747评论 1赞 341
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,441评论 4赞 333
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,072评论 3赞 317
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,828评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,069评论 1赞 267
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,545评论 2赞 362
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,658评论 2赞 350

JavaScript(ES6标准)处理占多个字节的汉字

推荐阅读更多精彩内容