原文:https://www.brandonsmith.ninja/blog/three-types-of-data
常量,状态,缓存
我在自己的日常工作总曾经开发过一个用于数据建模的智能框架,它可以帮助你快速地建立数据模型,并且运用这些数据模型快速做出决策。在这里我将总结软件开发中三种不同的数据类型,它们分别是:常量,状态,缓存。在说到“数据”的时候,我通常指的是“代码中的变量”,但实际上它同样可以指的是硬盘中的文件,或者是数据库中数据表,甚至是其他任何与数据存储相关的东西。注意,以上谈的数据类型和我们编程语言中谈的数据类型不太一样,它更偏向于硬件层,更底层,有更本质的区别。
这三种数据类型是相互独立的:这意味着,如果一块数据被存储为其中一种类型,那么它就不能再当作其他类型的数据进行处理。不同的编程语言通过类型系统的约束来对这三种类型数据进行区分,因此你最好把这些类型系统当作一种惯例和约定把它们牢记在心(哪怕你不能理解而强迫自己接受它,那也是好的)。在日常开发中,你要时刻问自己,给你的一块数据是属于三种基本数据类型的哪一种,在搞清这个问题之后,你再围绕该类型给数据添加相应规则并对它进行运算。据我的个人经验,所有的程序数据都可以用上述的的三种基本数据类型来对它们进行区分。
关于数据的用处,记住以下几点非常重要:1.它的目的是什么。2.对数据的操作,哪些是允许的,哪些是不允许的。3.对于数据的处理,我们可以做何种假设。“常量”,“状态”,“缓存”,它们的用处各不相同,而且我们通常认为不可变类型是低耦合的,在这里,我将以一种无关语言和风格的方式对它进行讨论。
需要注意的是,本文表达的观点,和我之前发表过的关于“过程,函数,数据”的文章有一些理论重叠的部分。比如前文中提到的一种逻辑类型,和本文提到的一种数据类型,虽然是两种提法,但它们表示的观点是非常相似的。尽管如此,我认为本文所要表达的观点仍有它的独特之处。
那么,让我们开始吧!
常量
一个常量,在程序上下文中,指的是在程序运行时候不可以对它进行修改的数据。
许多编程语言通过“const”关键字对变量进行定义。但是像JavaScript,我们无法通过对象树来确保变量的不可改变。不可变数据结构可以实现常量的不可改变特性,虽然这并不是它设计的本来意图。常量通常用来设置配置文件和命令行参数。常量可以在开发阶段进行设定,但不能在运行时对它进行修改。
状态
状态指的是在程序运行时候可以修改的数据。
通常,状态都是由可变的值组成。在程序不允许状态进行修改的情况下也可以由不可变数据结构组成(在这种情况下,新的状态的改变依赖于旧的状态以及一些新的操作信息)。即使是基于Monad的IO操作,比如像Haskell这样的语言,也不能脱离这种类型。
任何一个程序,只要不是直接将一堆输入直接转换为一堆输出,那么它都有状态。这些程序不仅包括图形界面和视频游戏,还包括web服务,操作系统和控制软件。即使是用Clojure和Haskell语言编写的程序也有状态,它们只是将程序处理成了一种看上去似乎没有状态的特殊形式。
为什么他们要这么做呢?原因是:状态是由副作用的。即使是在必须的情况下,一个程序也应该尽量减少对于状态的使用。在最理想的情况下,不应该有任何信息是需要用两种状态来表示的。如果你发现自己的代码中有用两个变量去“同步状态”,那么你的代码还有很大的改善空间,你需要好好检查它。
缓存
缓存指的是从常量或者状态直接衍生出来的数据。
缓存有点类似于常量,但同时它又有状态的特性,因为在应用的上层,它是允许改变的(否则,它就和常量一样了)。
一个缓存值就像一个只能通过特殊途径改变的状态:状态一旦改变(通过一个纯函数改变),即引起数值的重新计算。它不允许被转换,只允许被替换。缓存非常适合不可变数据结构,但有一条重要的原则:和状态不一样,缓存的新值不能依赖旧值。
缓存值是通过一个纯函数实现的最佳优选法(或通过一个无状态请求,数据库读取等)。在大多数情况下,你并不需要使用它们,即使是使用到,也仅需要直接调用纯函数。你需要做的就是重复请求并等待网络返回的结果。这些返回的状态都是用完后即丢弃,并不影响下次请求的结果。和状态不一样,状态所体现的一系列操作的不可回溯的累积和变化,缓存是一些被丢弃的值。它们随时可以清除掉或者重新计算。这也就是为什么它们不能当作状态使用:它们甚至会在没有任何提示的情况下被修改掉。
从某种意义上说,它们是信息的重复(之前我们说过,如果是状态,我们应该避免这种情况)。但是在这里没有问题,因为它们是特殊的,一次性的状态副本。对它们进行同步总是以一种简单的单一控制操作。它随时随地都可以同步,除了表现层它不会对任何东西造成影响。
总结
要点:
1.常量不能被替换和修改。
2.状态可以被替换和修改。
3.缓存可以在特殊情况下替换但不能修改。
程序中任意一块数据都可以表示为为上述三种格式的一种(从技术层面来说,每一块数据都可以用状态来表示,但这正是我们应该尽量避免的)。但是具体的我们该怎么做呢?
对于常量
1.永远不需要检测和比较值的修改。
2.通常总是作为全局变量使用。
3.在某些语言中,可以在类型级别进行推理:不仅可以在编译生成时枚举其类型,还可以枚举其具体值。
4.具有传染性:如果一个纯函数返回的是一个常数,那么我们也可以把该纯函数当作一个常数。
对于缓存:
1.可以轻易替代纯函数,在不重构代码的情况下,调用后的结果变得不重要,不影响之后的调用。
2.可以随时进行刷新,对于”如何“决定值以及”何时“决定值,两者是独立分开的。
3.即使为了节省内存而清除它,也不会丢失任何信息(如果是状态,信息会丢失)。
通过添加一些约束,我们减少了一些操作的可能性,但也意味着我们和我们的代码都可以做某些操作,如果毫无约束,那么我们的代码将会面临各种风险。
所有的状态都可以转化为缓存。所有的状态和缓存都可以传化为常量。通过将程序的一部分添加更多的约束,我们实际上是简化了它,并且由于这种简化,错误也就更少,代码重构也更加容易,而且也更容易理解。
好了,以上便是全文翻译,如果你觉得有必要,可以点击文章开头的原文链接阅读原文,希望你有所收获。。。