能被量化的都是数据
《智能时代》买了一段时间了,一直以为已经大略知道了主要内容,没有仔细阅读。昨天加班翻看,停不下来的节奏,里面的概念今天还在咀嚼。
数据、信息与知识。都是常见的词儿,经吴军在宏观视角的解读,有了清晰的认知。数据不只是数字,文本、图像、视频都是,大概能够量化(0-1表示)的都算吧;信息又抽象了一层,从一堆数据中抽取出来有关联的东西,对我们有用途的,就是信息;对于信息再归纳抽象,经过积累就形成了知识。
如资本于工业时代,数据就是信息时代的基石。拿到了数据,就可以开展许多的生产,比如谷歌翻译突飞猛进的原因就在于掌握和使用了足够多的数据(训练样本),阿尔法狗也是。谷歌其实就是一家数据公司,把采集、加工数据就如同工业时代的采矿、冶炼与制造。
所谓的大数据,就是具备大量、多维、完备特征的数据。大数据处理就是为了找出之前某些维度之间我们尚不能了解的关联,如流感与搜索词。
对于自己,我怎么利用数据思维呢?某些应用样本很少(获取难度太大),能否通过精确三维建模与场景仿真,获取多个视角、多场景下的训练样本,以机器学习框架来训练我们自己的应用呢(如目标识别)。如果说图像识别的主流的大数据训练的话,我感觉这也是对特定场景下的一个方向,继续关注。