Guava | Splitter

package com.google.common.base

类注释

通过识别分隔符（separator），从输入字符串中提取非重叠子字符串；分隔符可以是：char、String、regular expression或者CharMatcher
除了按照分隔符分割字符串，Splitter还可以从输入字符串中提取固定长度的子串
通常情况下，Splitter的行为是简易的，如：
Splitter.on(',').split(" foo,,, bar ,")
将会得到几个empty的字符串；可以指定Splitter的行为使之产出我们想要的结果：
private static final Splitter MY_SPLITTER = Splitter.on(',')
.trimResults()
.omitEmptyStrings();
MY_SPLITTER.split("foo,,, bar ,");
// 结果：["foo","bar"]
警告：Splitter实例是不可变的且是线程安全的，调用配置方法对接收实例没有影响；必须存储和使用它返回的新的分离器实例
// Do NOT do this
Splitter splitter = Splitter.on('/');
splitter.trimResults(); // does nothing!
return splitter.split("wrong / wrong / wrong");
Joiner类提供了拆分的逆操作，但是注意两者之间的往返应该被认为是有损的。

获取Splitter实例——策略模式（Strategy）

Splitter可以接受char、String、正则表达式或者是CharMattcher作为分隔符，包括fixedLength（从原字符串中截取若干固定长度的子串），不同的分隔符通过重载on方法、传入策略接口Strategy获取相应的实例：

【1】char作为分隔符：还是转化为CharMatcher作为分隔符的情形

【2】CharMatcher作为分隔符

【3】String作为分割符

【4】正则表达式作为分隔符

【5】截取若干固定长度的子串

可以发现：通过Splitter提供的私有构造方法

private Splitter(Strategy strategy) {
  this(strategy, false, CharMatcher.none(), Integer.MAX_VALUE);
}

中传入自定义的策略接口Strategy，不同之处在于，各自实现接口的下面两个方法：

/**
 * Returns the first index in {@code toSplit} at or after {@code start} that contains the
 * separator.
 */
abstract int separatorStart(int start);

/**
 * Returns the first index in {@code toSplit} after {@code
 * separatorPosition} that does not contain a separator. This method is only invoked after a
 * call to {@code separatorStart}.
 */
abstract int separatorEnd(int separatorPosition);

不同的分割策略（Strategy）对于上述两个方法的实现不同，而这两个方法的作用以及他们对computeNext()方法的影响，最终将影响字符串分割的结果。

所以现在分析的重点是：

1、separatorStart方法和separatorEnd方法的作用；
2、computeNext方法的作用；
3、上述3分方法之间的关系

separatorStart：返回原字符串（toSplit）中在start这个位置之后，分隔符（separator）出现的第一个位置的索引，注意参数start：这个索引要么在start处，要么在start之后（所以start这个参数很重要）；

separatorEnd：返回原字符串中，在separatorPosition这个位置之后的、不包含分隔符的第一个索引。此方法仅在调用separatorStart方法之后调用。

举例解释下：

toSplit ="abc;de;fgh;i";
separator是 “;”
那么，separatorStart(0) 返回的是 ： 3，即第一个“;”的索引；
     separatorEnd(3)返回的是 ： 4

computeNext：源码如下

final CharSequence toSplit;
final CharMatcher trimmer;
final boolean omitEmptyStrings;
int offset = 0;
...

@Override
protected String computeNext() {
  /*
   * The returned string will be from the end of the last match to the beginning of the next
   * one. nextStart is the start position of the returned substring, while offset is the place
   * to start looking for a separator.
   */
  int nextStart = offset;
  while (offset != -1) {
    int start = nextStart;
    int end;

    int separatorPosition = separatorStart(offset);
    if (separatorPosition == -1) {
      end = toSplit.length();
      offset = -1;
    } else {
      end = separatorPosition;
      offset = separatorEnd(separatorPosition);
    }
    if (offset == nextStart) {
      /*
       * This occurs when some pattern has an empty match, even if it doesn't match the empty
       * string -- for example, if it requires lookahead or the like. The offset must be
       * increased to look for separators beyond this point, without changing the start position
       * of the next returned substring -- so nextStart stays the same.
       */
      offset++;
      if (offset >= toSplit.length()) {
        offset = -1;
      }
      continue;
    }

    while (start < end && trimmer.matches(toSplit.charAt(start))) {
      start++;
    }
    while (end > start && trimmer.matches(toSplit.charAt(end - 1))) {
      end--;
    }

    if (omitEmptyStrings && start == end) {
      // Don't include the (unused) separator in next split string.
      nextStart = offset;
      continue;
    }

    if (limit == 1) {
      // The limit has been reached, return the rest of the string as the
      // final item. This is tested after empty string removal so that
      // empty strings do not count towards the limit.
      end = toSplit.length();
      offset = -1;
      // Since we may have changed the end, we need to trim it again.
      while (end > start && trimmer.matches(toSplit.charAt(end - 1))) {
        end--;
      }
    } else {
      limit--;
    }

    return toSplit.subSequence(start, end).toString();
  }
  return endOfData();
}

这个方法返回的字符串，是从上一个匹配的末尾（from the end of the last match）到下一个匹配的开始（the beginning of the next one），也就是说，执行这个方法，将原字符串中位于分隔符之间的子串一个一个提取出来；nextStart是返回的子字符串的开始位置，而offset是开始查找分隔符的位置。

这三个方法之间的关系：很明显，computeNext()方法用来迭代地将被分隔符分割的子串一个一个的提取出来，而separatorStart()方法和separatorEnd()方法为止提供了匹配开始和结束的索引位置。

所以我们回头再看看：不同的策略下，对separatorStart()方法和separatorEnd()方法的实现，到底对分割策略能有什么影响

Splitter on(final CharMatcher separatorMatcher)

// 返回了start之后（含）的分隔符在原字符串中出现的第一个索引位置
@Override
int separatorStart(int start) {
  return separatorMatcher.indexIn(toSplit, start);
}

// 返回了上一个分隔符出现位置的后一个索引
@Override
int separatorEnd(int separatorPosition) {
  return separatorPosition + 1;
}

所以对于CharMatcher来说（char也被处理作CharMatcher），每一个字符的匹配都会被computeNext拿去计算下一个分割得到的子串。

Splitter on(final String separator)

// 会发现：这特么不就是一个搜索子串的算法么
@Override
public int separatorStart(int start) {
  int separatorLength = separator.length();

  positions:
  for (int p = start, last = toSplit.length() - separatorLength; p <= last; p++) {
      for (int i = 0; i < separatorLength; i++) {
          if (toSplit.charAt(i + p) != separator.charAt(i)) {
              continue positions;
          }
      }
      return p;
  }
  return -1;
}

// 上一次分隔符出现的位置 加上 分割字符串 的长度，因为“上一次分隔符出现的位置”是其串首部
@Override
public int separatorEnd(int separatorPosition) {
  return separatorPosition + separator.length();
}

PS：这里的positions是Java Label的用法，参考Java：标号label

到这里，这个策略模式就明了。

其余的点：

omitEmptyStrings()方法如何配置Splitter实例分割后不包含empty子串
limit()方法配置Splitter实例限制子串的数量
trimResults()配置Splitter实例对得到的子串进行trim
Iterable<String> split(final CharSequence sequence)方法进行正式分隔
List<String> splitToList(CharSequence sequence)分割得到String List
等实现都比较好理解，不记录了。

策略模式小结

策略模式（Strategy）定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法的变化不会影响到使用算法的客户。

最后编辑于：2017.12.06 04:48:10

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 218,204评论 6赞 506
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,091评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,548评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,657评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,689评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,554评论 1赞 305
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,302评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,216评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,661评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,851评论 3赞 336
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,977评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,697评论 5赞 347
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,306评论 3赞 330
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,898评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,019评论 1赞 270
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,138评论 3赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,927评论 2赞 355

Guava | Splitter

类注释

获取Splitter实例——策略模式（Strategy）

策略模式小结

推荐阅读更多精彩内容