代码审查关注什么:数据结构

数据结构是编程的基础,所以它是计算机科学课程中一直讲授的领域之一。然而,令人惊讶的是很容易错误使用或者选择错误的数据结构。在本文中,我们将引导你作为代码审查者关注需要关注的那些事情--我们将通过一系列示例代码来讨论“坏的代码味道”,这些“味道”可能暗示我们选择了错误的数据结构或者是数据结构被以错误的方式使用。

列表(Lists)

这也许是最常用的数据结构。因为是最常见的选择,它有时被用在了错误的地方。

反模式:过多搜索

迭代列表本身当然不是一件坏事情。但是如果要求迭代是一个常用操作(比如像上面代码这样通过 ID 查找一个客户),应该有更好的数据结构可以使用。在这个例子中,因为我们常常需要通过 ID 查找某个特定的项目,也许创建一个 ID-->Customer 的 map 更合适。

注意,在 Java 8 中以及其他支持更多表达式搜索的语言中,这一点可能没有 for 循环那么明显,但是问题仍然存在。

反模式:频繁重新排序

如果使用它们的默认排序列表是很棒的,但是如果作为审查者你发现代码中对列表重新排序,确认一下使用列表是否合适。在上面的例子中,在第16行 twitterUsers 总是重新排序以后再返回。再次说明,Java 8 使得这个操作看起来很简单,可能很容易忽略这个信号:

在这种情况下,鉴于 TwitterUser 是独立的并且看起来你需要一个默认已经排序好的集合,你可能需要类似 TreeSet 这样的数据结构。

Maps

如果你选择了正取的 key, map是一种对单个元素的访问只有 O(1)复杂度的多用途数据结构。

反模式:Map 作为全局常量

map 是一个很好的通用数据结构,以致可以用一个全局的 map 来让其他类访问。

在上面的例子中,作者简单的将 CUSTOMERS 这个 map 作为全局常量。CustomerUpdateService需要添加或者更新 customers 时就直接使用这个 map。这看起来没什么问题,因为 CustomerUpdateService的职责就是负责添加和更新操作,这些操作最终会修改 map。问题是当其他类,尤其是系统中自其它模块的类需要访问数据的时候:

在这里,订购服务是知道存储 customers 的数据结构的。事实上,在上面的代码中,作者已经犯了一个错误--他们没有检查 customer 是否为 null,所以第12行可能会引发 NullPointerExeption。作为审查者,你应该建议隐藏数据结构并提供合适的访问方法。那样的话其他访问类会更容易理解,并且将管理 map 的复杂工作隐藏到 map 所属的 CustomerRepository。另外,如果以后你想修改 customers 所使用的数据结构,或者使用分布式缓存或其他的技术,相关的修改都会限制在 CustomerRepository,而不是遍及整个系统。这就是信息隐藏原则。

尽管修改以后的代码并不短,你获得了标准化以及集中的核心函数--例如,你知道在获取一个不存在的 customer 信息时总会返回一个异常。或者你也可以选择返回一个新的 Optional 类型。

注意这是属于在代码审查中就应该发现的一类问题,如果一个全局变量的访问已经遍及整个系统,需要隐藏它是比较困难的,但是当它第一次被引入时还是很容易实现的。

其他的反模式:迭代和重新排序

和列表一样,如果在 map 上进行了大量的排序或者迭代操作,你应该建议采用其他可替换的数据结构。

Java 代码需要特别关心的事情

在 Java 中,map 的行为依赖于 key 和 value 的 equalshashCode 方法的实现。作为审查者,应该检查 key 和 value 类的这些方法,以确保获得预期的行为。

Java 8 给 Map 接口添加了一些有用的方法。例如,上面代码中的第11行使用的 getOrDefault方法可以简化 CustomerRepository 的代码。

Sets

一个常常不被充分使用的数据结构,它的优点是不会包含重复的元素。

反模式:有时你真的需要重复元素

我们假设你有一个 user 类,使用了 set 来跟踪其访问过的网站。现在有一个新的功能要求返回这些网站中最近访问的一个。


这段代码的作者将跟踪一个用户访问网站的 set 从 HashSet 修改为 LinkedHashSet,后者的实现保留了插入顺序,所以现在我们的 set 按照访问的顺序跟踪每一个 URI。

然而这段代码中有很多信号说明它是错误的。首先--由于 set 不是为按照位置访问设计的,为了获取最后一个元素必须迭代整个 set(第13-15行),这样的访问开销太大,有时候 list 是一个完美的选择。其次,由于 sets 中不包含重复的值,如果最后访问的页面在之前已经访问过,那么它在 set 中的位置并不在最后。相反,它会处在第一次被添加的位置。

在这个例子中,list 或者 stack(参考下文)或者就是一个简单的属性都可以让我们更好的获得最后浏览过的页面。

Java 需要特别注意
因为 set 的一个关键操作是 contains,作为审查者你应该检查 set 所包含的类型的 equals 方法实现。

栈(Stacks)

Stacks是计算机科学课程最喜欢的数据结构之一,但是在现实世界中常常被忽略-在 Java 中,也许是因为 Stack 继承自 Vector,所以有一点点过时。在这里我不讨论具体的细节,只是列出一些关键的点:

  • Stacks 支持 LIFO,所以非常适合 push/pop 操作,但是真的不适合迭代操作。
  • Java 在1.6版本以后是使用 Deque来实现 stack。它既可以作为 queue 又可以作为 stack 使用,所有审查者需要检查 dequene 在代码中的使用方式是一致的。

队列(Queues)

计算机科学最喜欢的另一个数据结构。Queues 常常在讨论并发相关的话题时出现(确实,Java 中大多数 Queue 的实现都在 java.util.concurrent 中使用),因为它最常见的用法是在线程和模块之间传递数据。

  • 队列是 FIFO 的数据结构,通常在你想往尾部添加数据或者从头部移除数据时非常合适。如果你在审查代码是发现对队列进行迭代操作(特殊情况下访问队列中间的元素),需要确认一下队列是否是正确的数据结构。
  • 队列可以是限定大小的,也可以是不限定大小的。不限定大小的队列可能会一直增长,所以如果审查代码时发现使用了不限定大小队列,请注意我们在上一篇文章中讨论的性能问题。限定大小的队列也有它的问题--在审查代码时,需要关注什么条件下队列会满,并且了解队列满的情况下系统会做出什么反应。

Java 开发者特别注意

作为审查者,你不仅仅要了解通用的数据结构特性,还需要注意各种实现的优点和弱点,这些知识在 Javadoc 中都有详细的说明:

如果你使用的是 Java8,记住很多集合类都添加了新的方法。作为审查者,你应该意识到这一点--你可以在一些复杂的代码中建议使用新的方法。

为什么要选择正确的数据结构?

我们已经在这篇博客中讨论了数据结构--怎样确定被审查的代码是否使用了错误的数据结构,以及各种数据结构的优缺点的要点,这样作为审查者不仅仅可以确认数据结构没有正确使用,而且可以给出更好的替代方案。我们一起来看一下为什么选择正确的数据结构如此重要。

性能

如果你在计算机科学课程中学习了数据结构,你应该知道选择数据结构对性能的影响,事实上,我们在这篇博客中甚至用“大O表示法”来强调特定数据结构的某些优点。在代码中使用正确的数据结构当然会对性能有帮助,但是这不是选择正确工具的唯一理由。

表述预期的行为

代码的维护者,或者是使用你的系统 API 的开发者会根据数据结构做出相应的假设。如果一个方法调用通过 list 返回数据,开发者会假设数据已经以某种方式排序。如果是以 map 返回数据,开发者会假设会频繁的根据 key 查找单个元素。如果数据是以 set 返回,开发者会假设一个元素只会存储一次而不是多次。一个不错的建议是在这个假设内工作而不是破坏它

降低复杂性

任何开发者,尤其是代码审查者的总体目标应该是确保在最小的复杂度下代码按照预期的行为工作-这样可以使得代码以后更易读、更易理解、更容易修改、维护。在前面列出的一些反模式中(如错误使用 Set),我们可以发现选择错误的数据结构会导致编写更多的代码。通常情况下选择正确的数据结构都会简化代码。

总结

选择正确的数据结构不仅仅是为了获取性能或者在同行面前看起来很聪明。还会产生更易理解、更易维护的代码。代码编写者选择了错误数据结构的一些常见信号:

  • 频繁通过迭代在一堆值中查找某几个值
  • 频繁重新排序数据
  • 没有使用提供关键功能的方法--如栈的 push 或者 pop 方法
  • 不管是读还是写数据的代码都很复杂

另外,不管是通过提供对数据结构本身的全局访问,还是通过将类的接口紧密耦合到操作底层数据结构来暴露所选数据结构的细节,都会导致很脆弱的设计,并且以后难以修改。 在代码审查过程中应尽早发现这些问题,而不是产生可避免的技术债务。

本文译自 What to look for in a Code Review: Data Structures

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,875评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,569评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,475评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,459评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,537评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,563评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,580评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,326评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,773评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,086评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,252评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,921评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,566评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,190评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,435评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,129评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,125评论 2 352

推荐阅读更多精彩内容