写这篇文章的动机是看到了这篇博客:CVTE前端开发在线笔试-2017.9.14
其中一个题目是写一个截取子串的函数subStr(str,len),如果串中有汉字,则汉字长度按2计算。假设str为‘我ABC汗DEF’,当len为4时应输出‘我AB’,当len为6时输出‘我ABC’
我们都知道JS支持Unicode编码,答案中判断中文的方式是,遍历字符串,用str[i]获取字符,用正则表达式(如下)检验字符。
/[^\u4E00-\u9FA5]/
这个正则的含义是匹配不在这个范围内的中文字符,如果是汉字,返回false,如果不是汉字,返回true。
因为Unicode编码中 4E00-9FA5 表示的是20902个基本汉字,所以一般情况下,上面的方法是不会出错的,能够正确识别到字符串中的汉字。
当然特殊情况下就会出现问题了。
我来引出今天的主角 '𠮷',首先我们得确定的是,它是一个汉字。点这里可以看对它的解释。
'𠮷'的Unicode编码是 \u20BB7,这意味着,上面的正则表达式并不能检测出这个汉字:
const re = /[^\u4E00-\u9FA5]/
console.log(re.test('𠮷'))//true 表示这个不是汉字
出现问题的原因在于, Unicode编码中 \u4E00-\u9FA5 表示基本汉字,是Unicode1.0标准的,而Unicode在之后扩展加入了许多新的汉字,'𠮷'属于Unicode 3.1版引进的“扩展B区汉字”。Unicode目前已经发展到11.0版本,扩展也到了F:
字符集 | 字数 | Unicode 编码 |
---|---|---|
基本汉字 | 20902字 | 4E00-9FA5 |
基本汉字补充 | 74字 | 9FA6-9FEF |
扩展A | 6582字 | 3400-4DB5 |
扩展B | 42711字 | 20000-2A6D6 |
扩展C | 4149字 | 2A700-2B734 |
扩展D | 222字 | 2B740-2B81D |
扩展E | 5762字 | 2B820-2CEA1 |
扩展F | 7473字 | 2CEB0-2EBE0 |
所以钻牛角尖地想,要完整地匹配目前Unicode中所有的汉字,特别是Unicode编码超过一个字节的汉字,需要换种方式。
这里我没找到正则表达式匹配扩展B到F字符的方法,只能用笨办法,写个函数来判断:
/**
* 判断传入字符串是否是汉字
* @param {string} str
* @returns {boolean}
*/
function isChineseCharacter(str) {
if(Object.prototype.toString.call(str) !== '[object String]' ) {
return false
}
//只允许传入一个字符
let flag=true
for (const i of str) {
if(flag) {
flag=false
}else {
return false
}
}
const testCases=[
['\u4E00','\u9FEF'],//基本汉字&基本汉字补充
['\u3400','\u4DB5'],//扩展A
['\u{20000}','\u{2A6D6}'],//扩展B
['\u{2A700}','\u{2B734}'],//扩展C
['\u{2B740}','\u{2B81D}'],//扩展D
['\u{2B820}','\u{2CEA1}'],//扩展E
['\u{2CEB0}','\u{2EBE0}']//扩展F
]
for (const t of testCases){
if(t[0]<=str&&t[1]>=str){
return true
}
}
return false
}
这样就可以正确判断'𠮷'了:
isChineseCharacter('汉') //true
isChineseCharacter('𠮷') //true
isChineseCharacter('0') //false
现在判断汉字是没问题了,但还是存在另一个问题,就是遍历字符串的问题,遍历字符串看起来简单,但面对'𠮷'这样的汉字,传统的方法可能会出现问题:
function log(str) {
for(let i =0;i<str.length;i++){
console.log(str[i])
}
}
log('汉') //汉
log('𠮷') //��
这是因为,JavaScript 允许采用\uxxxx形式表示一个字符,其中xxxx表示字符的 Unicode 码点。而'𠮷'的Unicode编码是\u20BB7,超过了\u0000~\uFFFF这个范围。由于utf-8编码是变长的,所以需要用两个码点来表示'𠮷'。
console.log('汉'.length)//1
console.log('𠮷'.length)//2
for循环会认为'𠮷'包含两个字符(都不可打印),而for...of循环会正确识别出这'𠮷'。
如果一个字符串中含有由多个码点来表示的字符,遍历字符串的方式需要改进:
function log(str) {
for(const char of str){
console.log(char)
}
}
log('汉') //汉
log('𠮷') //𠮷
至此,关于JavaScript(ES6标准)处理占多个字节的汉字的知识整理完毕。
参考: