关于何为有效数据的一些思考

读了李开复先生在《人工智能》一书中一段关于AI创业的五大基础的论述,突然想起年初一位朋友说他有个朋友是做大数据的,问我可不可以一起做些事情。我说可以啊,问问他们是哪类的数据咱再研究下如何利用呗?于是他给我要了一个PPT过来,发过来一看我就惊呆了,上面写了好多条目,其中包括学历信息、车辆信息、个税/社保信息等等(可能吹牛逼的成份居多)……。我说亲,这些信息是否涉密咱姑且不论,从这些信息的形式来看,假乎只能用做电话营销啊(至于如何做,大家应该都懂的,我们每天都会接到的N个营销电话很可能都来自这些信息的泄露),这都是些死数据啊。
我还举了个例子,我们所需要的数据,比如医疗方面,我们不光是需要病患的基本信息,还需要病患的就诊信息、诊断、用药、疗效等信息。通过这些数据建立模型,进行深度学习。从而得出某些病患可能用某些药效果好,用哪些药效果不好,再抽取出共同的特征总结成某些体质用某些药效果好,用哪些药效果不好。然后通过得出的结论,辅助医师或机器对病患下医嘱。
其实当时我也不大懂这些,只是在想像中,数据应该要被这样儿分析和利用才会产生价值,至于为什么需要这样儿一直也没太想清楚,直到前几天读李开复先生在《人工智能》一书中的描述,才算是对这部分理清了些门道,整理如下:
每个时代的创业有每个时代的特点。人工智能创业就与此前的互联网时代创业、移动互联网时代创业很不相同。


人工智能创业的五大基石

按照我的归纳和总结,人工智能时代的创业有五个前提条件:

1、清晰的领域界限

人工智能创业,要解决的领域问题一定要非常清晰,有明确的领域边界,因为这一类问题是今天以深度学习为代表的人工智能算法最善于解决的。例如,同样是做机器人,如果做一个借助视觉传感器更好地规划扫地线路、提高清洁效率的扫地机器人,将机器人的需求限定在一个有限的问题边界内,这样的解决方案就相对靠谱;如果上来就要做一个长得像人一样、可以与人交流的人形机器人,那以今天的技术,做出来的多半不是人工智能,而是“人工智障”。

2、闭环的、自动标注的数据

针对要用AI解决的领域问题,最好要在这个领域内,有闭环的、自动标注的数据。例如,基于互联网平台的广告系统可以自动根据用户点击以及后续操作,收集到第一手转化率数据,而这个转化率数据反过来又可以作为关键特征,帮助AI系统进一步学习。这种从应用本身收集数据,再用数据训练模型,用模型提高应用性能的闭环模式更加高效。谷歌、百度等搜索引擎之所以拥有强大的人工智能潜力,就是因为他们的业务,比如搜索和广告本身,就是一个闭环的系统,系统内部就可以自动完成数据收集、标注、训练、反馈的全过程。

3、千万级的数据量

今天人工智能的代表算法是深度学习。而深度学习通常要求足够数量的训练数据。一般而言,拥有千万级的数据量是保证深度学习质量的前提。当然,这个“千万级”的定义过于宽泛。事实上,在不同的应用领域,深度学习对数据量的要求也不尽相同。而且,也不能仅看数据记录的个数,还要看每个数据记录的特征维数,特征在相应空间中的分布情况,等等。

4、超大规模的计算能力

深度学习在进行模型训练时,对电脑的计算能力有着近乎“痴狂”的渴求。创新工场曾经给一个专注于研发深度学习技术的团队投资了1000万人民币。结果,团队建设初期才两三个月时间,仅购买深度学习使用的计算服务器就花掉了700多万。今天,一个典型的深度学习任务,通常都要求在一台或多台安装有4块甚至8块高性能GPU芯片的计算机上运行。涉及图像、视频的深度学习任务,则更是需要数百块、数千块GPU芯片组成的大型计算集群。在安装了大型计算集群的机房内,大量GPU在模型训练期间发出远比普通服务器多数十倍的热量。许多机房的空调系统都不得不重新设计、安装。在一些空调马力不足的机房里,创业团队甚至购买巨大的冰块来协助降温。

5、顶尖的AI科学家

今天的人工智能研发还相当依赖于算法工程师甚至是AI科学家的个人经验积累。水平最高的科学家与普通水平的算法工程师之间,生产力的差异不啻千百倍。人工智能创业公司对顶尖AI科学家的渴求直接造成了这个领域科学家、研究员的身价与日俱增。谷歌雇佣杰弗里·辛顿、李飞飞,Facebook雇佣扬·勒丘恩,据说都开出了数百万美元的年薪。国内AI创业公司如旷视科技,也用令人瞠目的高薪,将机器视觉领域的顶尖科学家孙剑“挖”了过来,担任公司的首席科学家。

实际上我之前所谓的那一套有效的数据理论,应对的应该就是其中的第2点,闭环的、自动标注的数据。除去数据的收集,还要完成相应的标注、训练 、反馈的数据才可以算得上是有效数据才对~

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容