中级12 - 字符串原理与实战

文字是人类文明的标志,在Java中,它就是字符串,字符串是 Java 中最重要的引用类型。
互联网最重要的一件事:处理字符串,因此能处理好字符串是 Web 服务器的基本要求:

  • PHP
  • Python
  • Ruby
  • Perl
  • Java

1. 字符串的不可变性

字符串不可变,保证了线程安全,存储安全。但缺点是每当修改的时候,都需要重复创建新的字符串对象。


image.png
image.png

字符串是字符的容器:

String str = "abc";

char data[] = {'a', 'b', 'c'};
String str = new String(data);

为什么不可变:

  • String 类是 final 的,不可被继承
  • String 类所有的 public 方法都没有修改内部 char[] 容器的操作

总是创建新的 String 对象:

String s = "0";

for (int i = 1; i < 10; i++) {
    s = s + i; // IDEA 会提示在 for 循环中如此拼接字符串是低效率的,因为每次都会创建新的字符串对象
}

// alt + enter 快捷键把 String 转换为 StringBuilder
StringBuilder s = new StringBuilder("0");

for (int i = 1; i < 10; i++) {
    s.append(i);
}

如果就是想修改字符串呢?

2. StringBuilder 和 StringBuffer

2.1 StringBuilder

字符的可变序列,API 和 StringBuffer 兼容,但是不保证同步(线程安全)。单线程情况下使用 StringBuilder 即可。
可以不断的 append,因此作为 hashMap 的 key 是不安全的,违反了 hashCode 约定:

  • 同⼀个对象必须始终返回相同的 hashCode
  • 两个对象的 equals 返回 true,必须返回相同的 hashCode
  • 两个对象不等,也可能返回相同的 hashCode

而 String 是安全的 key。

2.2 StringBuffer

线程安全的字符串可变序列,但为了保持同步所以速度比 StringBuilder 慢。

3. 字符串与编码

人类世界中的字符通过一种映射关系,转换为计算机世界中的字节,这种映射关系就是字符集。
如果世界上只有一套字符集,就不会出现乱码问题了。

  • 编码:字符 -> 字节
  • 解码:字节 -> 字符

3.1 字符集 Unicode

Unicode 使用 int 4个字节。GBK 2个字节存储一个汉字,UTF-8 是3个字节存储一个汉字。
code point(码点)即字符编号。Unicode 有种表示形式,比如可以使用 '\uxxx' 表示一个字符,参看 Character 类。

Unicode 占地方,因此出现了 UTF-8 和 UTF-16 编码形式用于对 Unicode 进行格式转化,从而更合理的存储和传输。因为直接使用固定用4个字节的 Unicode 编码效率低下,大量浪费内存空间。所以需要更精妙的转换格式。

3.2 UTF-16

是 Java 程序内部对于字符(Character)的存储方法。

UTF-16** **是对 Unicode 字符集进行编码的一种实现方案。即把 Unicode 字符集的抽象码位映射为16位长的整数(即码元)的序列,用于数据存储或传递。Unicode 字符的码位,需要1个或者2个16位长的码元来表示,因此 UTF-16 是一个变长表示。

UTF是"Unicode/UCS Transformation Format"的首字母缩写,即把Unicode字符转换为某种格式之意。

UTF-16 常用字符是2个字节(BMP,基本多语言平面,1个16位长的码元),不常用字符是4个字节(辅助平面,2个16位长的码元)。

3.3 UTF-8

Mac/Linux 默认编码是 UTF-8,Windows 默认的中文编码是 GBK( 因为Windows 在 UTF-8 之前就诞生了)。如果没有意外,把你所有的编码方案都改成 UTF-8,宇宙级通用。

UTF-8 也是针对 Unicode 的一种变长编码方案。它可以用1至4个字节对 Unicode 字符集中的所有有效码点进行编码,是目前最好的多语言解决方案,支持最广泛。

与 UTF-16 相比,在 UTF-8 中 ASCII 字符占用的空间只有一半,可是某些字符的 UTF-8 编码占用的空间就要多出1/3,特别是方块文字如汉字要占3个字节。

3.4 思考字符串和 byte[]、char[] 的关系

字符串本质上是字节数组 byte[]。
而 Java 中的 char 可以认为是为了方便计算和表达 byte[] 抽离出来的更大容量的数据类型,在 Java 中可以方便地用1个 char 就能对应1个 Unicode 常用字符。而真正存储或网络传输时是 byte[],即字节流,字节才是计算机世界中的通用单位,而不同语言中的 char 却可能不太一样。

Java 中的 char 固定用2个 byte 表示 Unitcode 中 0 ~ 65535 码点的字符,常用汉字和英文等字符足够了,但像 emoji 表情符号就不行,因为其 Unicode 码点超出了16位,2个 byte 放不下,需要占用4个 byte,也就是需要2个 Java 的 char 才能表达。

因此 Java 字符串 "晓风ABC😍" 内部的 char[] 长度是7(因为1个 emoji 需要2个 char)。

但是要注意如下的 经过 UTF-8 编码(encode)之后的字节数组 byte[] 长度是 3,而 A 都是 2,所以合起来的经过 UTF-8 编码后的 byte[] 长度是 7。

char[] chars = { '我', '中', 'A' };
byte[] bytes = { -26, -120, -111, -28, -72, -83, 65 };

为什么?1个 char 不是固定 2 个 byte 吗?怎么还能转出来 3 个 byte ?

在 Unicode 字符集中, 16位 Unicode 编码是 62114E2DA 是 0065,它们都没有超出16位的范围,所以各用2个 byte 存储这2个汉字的 Unicode 码点,空间方面显然是够的,用 Java 的 char 是可以表示的。因此这种差异只是来自于 UTF-8 自身的编码策略。

4. 实战

4.1 实现一个 StringBuilder

package com.github.hcsp.string;

import java.io.UnsupportedEncodingException;
import java.util.Arrays;

public class MyStringBuilder {

    private char[] value;

    private int count;

    private static final int MAX_ARRAY_SIZE = Integer.MAX_VALUE - 8;

    public MyStringBuilder() {
        value = new char[16];
    }

    public MyStringBuilder(int capacity) {
        value = new char[capacity];
    }

    private void ensureCapacityInternal(int minimumCapacity) {
        // overflow-conscious code
        if (minimumCapacity - value.length > 0) {
            value = Arrays.copyOf(value,
                    newCapacity(minimumCapacity));
        }
    }

    private int newCapacity(int minCapacity) {
        // overflow-conscious code
        int newCapacity = (value.length << 1) + 2;
        if (newCapacity - minCapacity < 0) {
            newCapacity = minCapacity;
        }
        return (newCapacity <= 0 || MAX_ARRAY_SIZE - newCapacity < 0)
                ? hugeCapacity(minCapacity)
                : newCapacity;
    }

    private int hugeCapacity(int minCapacity) {
        if (Integer.MAX_VALUE - minCapacity < 0) { // overflow
            throw new OutOfMemoryError();
        }
        return Math.max(minCapacity, MAX_ARRAY_SIZE);
    }

    // 在末尾添加一个字符
    public MyStringBuilder append(char ch) {
        ensureCapacityInternal(count + 1);
        value[count++] = ch;
        return this;
    }

    // 在末尾添加一个字符串,其数据需要从bytes字节数组中按照charsetName字符集解码得到
    // 请思考一下字节和字符串(字符串本质上是字节数组)之间的关系
    // 并查找相关API
    public MyStringBuilder append(byte[] bytes, String charsetName) throws UnsupportedEncodingException {
        // 给定的字节数组是按指定的编码方式encode后的,
        // 需要再原路decode成字符串,该字符串此后按照当前项目默认的编码方式进行编解码
        String string = new String(bytes, charsetName);
        append(string);
        return this;
    }

    // 在末尾添加字符串
    public MyStringBuilder append(String str) {
        if (str == null) {
            return this;
        }
        int len = str.length();
        ensureCapacityInternal(count + len);
        str.getChars(0, len, value, count);
        count += len;
        return this;
    }

    // 在index指定位置添加一个字符ch(index及之后整体往后挪一位)
    public MyStringBuilder insert(int index, char ch) {
        ensureCapacityInternal(count + 1);
        System.arraycopy(value, index, value, index + 1, count - index);
        value[index] = ch;
        count += 1;
        return this;
    }

    // 删除位于index处的字符(index之后整体往前挪一位)
    public MyStringBuilder deleteCharAt(int index) {
        if ((index < 0) || (index >= count)) {
            throw new StringIndexOutOfBoundsException(index);
        }
        System.arraycopy(value, index + 1, value, index, count - index - 1);
        count--;
        return this;
    }

    public int length() {
        return count;
    }

    @Override
    public String toString() {
        return new String(value, 0, count);
    }

    public static void main(String[] args) throws UnsupportedEncodingException {

        MyStringBuilder sb = new MyStringBuilder();

        for (int i = 0; i < 10; i++) {
            sb.append('a');
        }

        System.out.println(sb.length());

        String str = sb.toString();
        System.out.println(str);
        System.out.println(str.length());
        
        sb.append("今天天气不错".getBytes("GBK"), "GBK");
        System.out.println(sb.toString());

        sb.insert(2, '哈');
        System.out.println(sb.toString());

        sb.deleteCharAt(2);
        System.out.println(sb.toString());

    }
}

4.2 读取一个 GBK 编码的文件

package com.github.hcsp.string;

import java.io.File;
import java.io.IOException;
import java.nio.file.Files;

public class GbkFileReader {
    public static void main(String[] args) throws IOException {
        // 测试1
        File projectDir = new File(System.getProperty("basedir", System.getProperty("user.dir")));
        System.out.println(new GbkFileReader().readFileWithGBK(new File(projectDir, "gbk.txt")));

        // 测试2
        File tmp = File.createTempFile("tmp", "");
        String text = "窗前明月光\n疑似地上霜\n举头望明月\n低头思故乡";
        Files.write(tmp.toPath(), text.getBytes("GBK"));
        System.out.println(new GbkFileReader().readFileWithGBK(tmp));
    }

    // Java 平台的 char[] 和 String 都是使用 UTF-16 来表示的,
    // 所以,这里先纯粹地读取文件的 byte[],然后按 GBK 的编码逻辑进行解码时,重新映射成了 Unicode 码点,
    // 之后以 UTF-16 的形式存储在 Java 的 char[] 中。
    public String readFileWithGBK(File file) throws IOException {
        return new String(Files.readAllBytes(file.toPath()), "GBK");
    }
}

5. 类库

  • StringUtils
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,324评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,356评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,328评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,147评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,160评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,115评论 1 296
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,025评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,867评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,307评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,528评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,688评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,409评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,001评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,657评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,811评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,685评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,573评论 2 353