一个事物可能有数千个属性,但其中对我们有用的可能就那么两三个。
为什么会有数千个属性?因为每一个可见的事物可能有无数个底层的原子、分子、化合物以及其他物理属性。
一个苹果可能有梗的长短、粗细、干湿、坚硬与柔软、色泽;有果实的大小、颜色、光滑与否、有无腐烂、气味、口感;有花萼的颜色,长短,是否脱落。甚至还有许多我们察觉不到的属性。
但我们最关注的,是果实的大小、颜色、有无腐烂和口感等。这跟人的欲望有关,我们是想吃得很饱还是一点,喜欢吃熟的还是青涩的,可以接受小部分腐烂吗,对口感的要求有多高?不同的人、时期、状态,欲望都有所不同。
只要属性可以被区分,我们总能找出什么是最好的。我们从那些可以察觉的属性里面,找到迎合我们需求的。
大自然中每项可见事物的属性有很多,但为什么对人有用的只有那么多,甚至对于计算机也是一样,数据集对计算机有作用的也是很少的一部分,这符合二八原则。
要理解这件事,必须要了解有用、好、需求和欲望的物理含义。
一块砖对我有用,因为我可以拿它来盖房。这款砖之所以有用,是因为它构成了我将来要集合的物质的一部分,也就是它的物理性质,硬、长方体、抗压,构成我将来要做的物质性质集合中的一部分。
苹果的果实,而不是花萼或者梗对我有用,是因为苹果的果实,构成了我身体组成化合物的一部分。具体的来说就是蛋白质、糖分、水分等。
而大数据中的数据集,是因为它其中的某一特征对我们有用,也就是说它构成了我们运算始点的一部分,也就是运算的数据基础。
有时甚至能从这些数据中发现统计规律,A发生则99.9%B发生,我们可以把它抽象为因果律。实际上从哲学上来说,因果关系是不存在的,只能理解为统计关系。
而发现有用的特征,并把它分离出来,这种分类方法,就是智能运算的关键。有我这种分类方法,我们就能根据分类的特征,区分什么是苹果、食物、房子。这种分类方法,我们把它叫做抽象(概念)。
苹果
特征:
圆,直径xxCM,红绿,有梗,有花萼,其中有核。
红苹果,绿苹果。
好吃的红苹果。
好吃的大的成熟的红苹果⇔富士
有用的只有几个是混沌的作用。越是微妙复杂的事物,就越不可能被所有的属性都符合。
苹果的红是它表面的分子辐射出的光的光谱范围,这是个比较低级的属性。而苹果的直径,则是一个集群属性,它不可能是一个分子所能具有的。
从这个意义上来说,可以把人类和国家看作超越人的一种特大分散生物。而国家和人类所具有的某些属性显然是人不可能拥有的。
而既然存在这种集群的属性,它就必然和别的集群属性进行组合的混沌作用。
因而也就清楚了,需求并不仅仅是主观的概念,他从客观上来说也就是由那么多基础属性混沌生成的。
可以把它理解为人吃苹果、楼吃砖、计算机吃硅。苹果的红分浅红、大红、深红、棕红,其实我们只需要知道他是红的,那我们就知道它可能是成熟了。
从主观上来说,好像是把输入的底层数据抽象为一个更高层的数据输出了。实际上,这个更高层的抽象数据,是底层数据的集群特征,也就是它混沌生成的作用。
浅红、大红、深红、棕红抽象为红色是有效的,是因为红色足以代表苹果成熟、甜了。如果在计算机绘图中,那么对颜色的需求又会精细的多。
最后我们是根据需求的特征,需求的精细程度来进行分类。这种精细程度反映到计算机里面就是,抽象的边界是什么范围?范围内可以进行平均,或者用抽象概念进行命名封装。
这让我想起了面向对象中的,动物-狗-德国牧羊犬,类的概念和属性。