Python 的 Range 是左开右闭的,而且除了 Python 的 Range,还有各种语言,如 Swift 语言的 ..<
运算符之类的也有类似这样的设计。关于 Range 为什么要这样设计这个问题,Edsger W. Dijkstra 在1982年写过一篇短文章分析了一下其中的原因——当然,那时候没有 Python,E. W. Dijkstra 当年以其他语言为例,但是思路是相通的——这里做摘录与翻译如下。
本翻译同时发布于个人博客
原文
Why numbering should start at zero by Dijkstra
翻译版
为了表示 2,3,...,12 这样一个序列,有四种方法
- 2 ≤ i < 13(左闭右开区间)
- 1 < i ≤ 12(左开右闭区间)
- 2 ≤ i ≤ 12(闭区间)
- 1 < i < 13(开区间)
其中有没有哪一种是最好的表示法呢?有的。前两种表示法的两端数字的差刚好是序列的长度。而且在这两种的任何一种表示法中,两个相邻子序列的其中一个子序列的上界就是另一个子序列的下界。这只是让我们挑出了前两种,而不能让我们从前两种中选出最好的一种表示法来,让我们继续分析。
注意到自然数是有最小值的。当我们在下界取 <
(像第二和第四那样),如果我们想表示一个从最小的自然数开始的序列,那这种表示法的下界就会是非自然数(比如 0,1,...,5 会被表示成 -1 < i ≤ 5),这种表示法显得太丑陋了,所以对于下界,我们喜欢 ≤
。
那我们再来看看上界,在下界使用 ≤
时,如果我们对上界也使用≤
会发生什么呢?考虑一下当我们想要表示一个空集时,比如 0 ≤ i ≤ -1 上界会小于下界。显然,这也是很难令人接受的,太反直觉了。而如果上界使用 <
,就会方便很多,同样,表示空集:0 ≤ i < 0。所以,对于上界,我们喜欢 <
。
有疑问的话,注意一下,0 ≤ i < 0 的含义是,i < 0 && i >= 0,他们之间是逻辑与的关系,所以当上下界数字相等时可以表示空集。
好的,我们通过这些分析发现,第一种表示法是最直观的。我们再来看看讨人烦的下标问题,到底我们应该给第一个元素什么值呢? 0 还是 1 ?对于含有 N 个元素的序列,使用第一种表示法:
- 当从 1 开始时,下标范围是 1 ≤ i < N+1;
- 而如果从零开始,下标范围是 0 ≤ i < N;
让我们的下标从零开始吧,这样,一个元素的下标就等于当前元素之前的元素的数量了。(an element's subscript equals the number of elements preceding it in the sequence. )
总结
抛开冗长的分析过程,总结一下,选择第一种表示法(左闭右开区间)有以下几个原因
- 上下界之差等于元素的数量
- 易于表示两个相邻子序列,一个子序列的上界就是另一个子序列的下界
- 序列从零(最小自然数)开始计数时,下界的下标不是 -1(非自然数)
- 表达空集时,不会使得上界小于下界