算力和数据(4)——李尚龙讲座学习笔记
讲完算力之后,再讲讲数据。现在“大数据”这个词出现频率很高,我们在网上说的每一句话,打的每一个字,拍的每一帧视频,全都是数据。随着数据的不断积累和产生,数据的容量越来越大,类型越来越多,这就是大数据。大数据的特点是容量大、类型多,而且随时随地都在产生新的数据。
原来买一张火车票,只是一个通行证;现在,它是你的出行数据。原来去吃饭,吃完就结束了;现在,你吃饭、购物的记录都在网上,被转化为你的消费数据。如果你还打开了微信运动或智能手表,你的心跳、运动、行程全都变成了数据。这些数据只有在近些年才被转化为可以利用的资源。以前你做了什么事,做了就做了,没人知道;但现在,只要你的手机还在,你的数据就会被记录下来。
这些数据越来越多,如果没有足够的算力支持,就无法对这些数据进行收集、描述和归类,无法将这些数据转化为现实生活中有用的信息和知识。因此,数据放在自己那里没用,数据必须公开才有用。有人说隐私怎么办?我的理解是,隐私就不要变成数据,但只要你的数据做好准备被公开,它才有可能有用。
数据的应用是怎么体现的呢?很简单,从数据到信息再到知识,这是一个过程。比如你在一家餐厅吃饭,餐厅老板收集了顾客的点单时间、点的菜品、付款金额,这是数据。通过这些数据,人工智能可以推断出顾客对菜品的喜好和一天中不同时段的流量变化,这是信息。根据这些信息得出规律,餐厅可以制定出应该做什么菜、什么时候开门、什么时候关门,这就是知识。所以,数据、信息和知识是层级关系。先有数据,通过人工智能把它们总结成信息,再由人脑总结成知识。因此,光有数据是不够的,必须将其系统性地整理。
这是在这个时代数据是新的生产资料的原因。因为数据越来越多,需要算力作为支持,需要内部的处理芯片让算力变得越来越强大。当然,在大数据时代,光靠手机内部的芯片来计算是不够的,所以出现了“云计算”。把这些数据上传到云端,是大数据时代的重要算力输出形式之一。通过网络把计算任务从本地挪到远方某个大的计算中心完成,然后把计算结果再传回本地,这样就节省了个人手机本地的算力,不用花大功夫在本地处理数据。
云计算的例子很多,比如谷歌,现在的云计算拥有的服务器已经超过了100万台,在加州、爱荷华州,甚至欧洲的爱尔兰、芬兰、比利时,以及亚太地区的日本、韩国,还有巴西也有数据中心。中国的云端服务器目前是保密的,但根据中国信息通信研究院的估算,2020年我国的算力产业达到两万亿元,各种直接间接带动的经济产出加起来是八万亿元。所以平均来看,在算力产业上每投入一块钱会带动3到4块钱的GDP增长,算力产业规模每增长1%,能撬动GDP增长0.2%。这个数据是中国信息通信研究院发布的。这也是为什么我们要拥抱AI,为什么商业要和AI结合。这么多钱投入其中,你不看、不去拥抱,财富怎么来呢?