Emoji表情转UTF-8编解码、过滤

前言

开发过程中，遇到了带有Emoji表情的字符串无法存入后台数据库问题。原因是Mysql的utf8编码最多3个字节，而Emoji表情或者某些特殊字符是4个字节，所以数据插不进去。这种问题应该交给后台处理，如果后台不处理，则ios和Andriod要统一对emoji表情编码，这里采用UTF-8编码，在解决这个问题之前，先对以下相关知识做个了解。

实例

对含有emoji表情的字符串进行UTF-8编解码

image.png

对整段字符进行编码

这种方式简单便捷，如无特殊情况，这么处理就足够了。最后显示的都是带%号的字符串，例如：%E5%93%88

try {
     //编码
    String encodeStr = URLEncoder.encode(src, "UTF-8");
    //解码
    String decodeStr = URLDecoder.decode(encodeStr, "UTF-8");
} catch (UnsupportedEncodingException e) {
    e.printStackTrace();
}

对Emoij表情单独编码

如果遇到特殊要求，只对emoji表情编码，其他字符不编码，那就要用到codePointCount()了，解码的时候直接对整段解码即可。

public class EmojiUtils {

    /**
     * 对emoji表情单独编码
     * @param src
     * @return
     */
    public static String escape(String src){
        //1.得到代码点数量，也即是实际字符数，注意和length()的区别
        //举例：
        //一个emoji表情是一个字符，codePointCount()是1，length()是2。
        //但是遇到过一个emoji表情居然带着空格符号，结果它的codePointCount()是2，length()也是2，实际上单独拎emoji来说，它的length()应该说是1才对了。
        //推测这就是它们是否属于增补字符范围内，length=2的是增补字符，length=1的不是。
        int cpCount = src.codePointCount(0, src.length());

        //2.得到字符串的第一个代码点index，和最后一个代码点index
        //举例：比如3个emoji表情，那么它的cpCount=3；firCodeIndex=0；lstCodeIndex=4
        //因为每个emoji表情length()是2，所以第一个是0-1，第二个是2-3，第三个是4-5
        int firCodeIndex = src.offsetByCodePoints(0, 0);
        int lstCodeIndex = src.offsetByCodePoints(0, cpCount - 1);

        StringBuilder sb = new StringBuilder();
        int index = firCodeIndex;
        while (index<=lstCodeIndex){
            //3.获得代码点，判断是否是emoji表情
            //注意，codePointAt(int) 这个int对应的是codeIndex
            //举例:3个emoji表情，取第3个emoji表情，index应该是4
            int codepoint = src.codePointAt(index);
            if (!isEmojiCharacter(codepoint)) {
                sb.append((char) codepoint);
            }else{
                try {
                    //4.对emoji表情UTF-8编码，判断是否是增补字符范围内
                    int length = Character.isSupplementaryCodePoint(codepoint)? 2 : 1;
                    String encoderStr = URLEncoder.encode(src.substring(index,index + length), "UTF-8");
                    sb.append(encoderStr);
                } catch (UnsupportedEncodingException e) {

                }
            }
            //4.确定指定字符（Unicode代码点）是否在增补字符范围内。
            //因为除了表情，还有些特殊字符也是在增补字符方位内的。
            index += Character.isSupplementaryCodePoint(codepoint)? 2 : 1;
        }
        return sb.toString();
    }
    
    /**
     * 过滤掉emoji表情
     * @param src
     * @return
     */
    public static String filter(String src) {
        if (src == null) {
            return null;
        }
        //得到codePointCount
        int cpCount = src.codePointCount(0, src.length());
        int firCodeIndex = src.offsetByCodePoints(0, 0);
        int lstCodeIndex = src.offsetByCodePoints(0, cpCount - 1);
        StringBuilder sb = new StringBuilder(src.length());
        for (int index = firCodeIndex; index <= lstCodeIndex;) {
            //遍历每个codePoint
            int codepoint = src.codePointAt(index);
            if (!isEmojiCharacter(codepoint)) {
                System.err.println("codepoint:" + Integer.toHexString(codepoint));
                sb.append((char) codepoint);
            }
            index += ((Character.isSupplementaryCodePoint(codepoint)) ? 2 : 1);

        }
        return sb.toString();
    }


    /**
     * 是否是Emoji表情
     * @param codePoint
     * @return
     */
    private static boolean isEmojiCharacter(int codePoint) {
        return (codePoint >= 0x2600 && codePoint <= 0x27BF) // 杂项符号与符号字体
                || codePoint == 0x303D || codePoint == 0x2049 || codePoint == 0x203C
                || (codePoint >= 0x2000 && codePoint <= 0x200F)//
                || (codePoint >= 0x2028 && codePoint <= 0x202F)//
                || codePoint == 0x205F //
                || (codePoint >= 0x2065 && codePoint <= 0x206F)//
                /* 标点符号占用区域 */
                || (codePoint >= 0x2100 && codePoint <= 0x214F)// 字母符号
                || (codePoint >= 0x2300 && codePoint <= 0x23FF)// 各种技术符号
                || (codePoint >= 0x2B00 && codePoint <= 0x2BFF)// 箭头A
                || (codePoint >= 0x2900 && codePoint <= 0x297F)// 箭头B
                || (codePoint >= 0x3200 && codePoint <= 0x32FF)// 中文符号
                || (codePoint >= 0xD800 && codePoint <= 0xDFFF)// 高低位替代符保留区域
                || (codePoint >= 0xE000 && codePoint <= 0xF8FF)// 私有保留区域
                || (codePoint >= 0xFE00 && codePoint <= 0xFE0F)// 变异选择器
                || codePoint >= 0x10000; // Plane在第二平面以上的，char都不可以存，全部都转
    }
}

参考

https://blog.csdn.net/u014166319/article/details/71308112
https://www.cnblogs.com/mojxtang/p/10154907.html

最后编辑于：2019.09.28 23:04:48

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 214,951评论 6赞 497
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 91,606评论 3赞 389
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 160,601评论 0赞 350
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,478评论 1赞 288
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,565评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,587评论 1赞 293
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,590评论 3赞 414
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,337评论 0赞 270
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,785评论 1赞 307
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,096评论 2赞 330
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,273评论 1赞 344
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,935评论 5赞 339
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,578评论 3赞 322
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,199评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,440评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,163评论 2赞 366
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,133评论 2赞 352

Emoji表情转UTF-8编解码、过滤

Emoji表情转UTF-8编解码、过滤

前言

相关知识

1.位、字节、字符的概念和区别。

2.UTF-8编码中，字节和字符的对应关系。

3.String类的length() 和 codePointCount() 的区别

实例

对整段字符进行编码

对Emoij表情单独编码

参考

推荐阅读更多精彩内容