大数据为什么这么受欢迎?大数据未来的发展机遇在哪里?百度高级经理刘占亮发表了自己独特的观点与想法。
大数据为什么能?大家都在讲现在是大数据的时代,我认为大数据时代,实际上它有这两点:
(1)一个是这么多年的IT技术的发展,大量的新技术使得现在数据的收集和分享变的非常容易,得益于互联网和各种各样的传感器,我们能把物理世界的信号变成数字世界的信号,我们才能用计算机和互联网处理它。因为我们有数据了,所以我们才用大数据的方法。
(2)数据越多,我们越不需要模型,怎么理解呢?就像小学的时候做数学题,这个题我做过,我还需要推导一遍吗,直接把答案写了就行了。数据越多,我越不需要模型,就是覆盖度和精准的问题。如果对下来将要面临的事件和问题,我有足够的样本覆盖,其实我可以直接从历史上拿过来之前东西的判断或者是结论定就好了。
传统方法和大数据方法差异在哪里?传统方法是什么样的,我拿来一个新的样本。我把这个样本就某种程度做一个特征表示。再就是利用我们之前见过的小数据训练模型进行判断得出结论。
大数据的方法,是什么呢?是拿来一个新样本,我根本没有什么模型。我查找拥有这么多大数据里面,以及我当前面临的新样本,哪一个最像,我把最像的拿出来或者完全相同的,它就是我的结论。我们在大数据的算法里面,最重要的算法只有一个。
我认为大数据是在现代社会已经掌握了海量数据收集、存储和处理技术之上所产生的以群体智慧来进行判断和预测的能力。它反应一个内在含义是什么呢?(1)传统经验主义的复活,经验主义大于理性主义,我知道这个事情是什么,它就是什么。你不要跟说背后的缘由是什么。
(2)数据远比模型重要,模型可能是错的,但是数据毕竟是发生的事情。数据在大数据里面是最重要的一样东西。
(3)相关关系大于因果关系,我可能真的不知道这个事情,它到底是怎么一回事。但是只要能够对我的预测,对我的判断能够有作用,我觉得从可用性的角度上来说,它就已经足够了。
基于这三点,对于我们做大数据的数据平台来说,我认为你能够把这些数据拿过来,并且做处理,是要大于你这个平台的。可能你选用合适的平台或者是自己从头开始打造,但是远远没有数据重要。模型无用?大数据什么解决不了?
其实有两个很现实的问题,数据总是不够,远远没有一个够的时候。因为时间永远是往前的,哲学上来说,人是不可能同时迈进同一条河流的。即使是时间不太敏感的时候,数据也还总是不够。
有两种情况。第一种是机器翻译里面所有可能的句子,我觉得这个样本空间可能太大了。我做过一个统计,我们做数据分析或者说做搜索引擎,我们会从互联网上把所有最新的新闻或者是最新的语料抓过来,进行分句切词做处理,我能不能进行压缩,我别把句子的原文存下来,我把这个句子算一个ID,每次只有新的句子才入到数据库里面。结果我发现,现在每天晚上新产生的,我拿新闻的语料为例,其实它节省不了什么空间。说明什么呢?说明每一条的句子都在历史上从来没有出现过,句子是非常长尾的。所以机器翻译的句子里面,所有的句子其实也是很不可能穷尽的。
再举一个例子,这个可能跟我们人类做研究或者自动求解学生考试题目,这个事情大数据可以解决吗?反正我个人对这块持悲观态度。比如说我用大数据的方法解一道方程组,大家想一下,我们就拿简单的一解方程来说,加减乘除,五个运算数,左边等于右边,大家算一算每个位置上可以出现多少东西,乘起来的样本量有多大。样本空间在实时的变化,对于搜索引擎来讲,它其实也是在变化的。对于查询结果的排序中,其实每天都会有新的查询和网页出现,怎么来解决?
所以说有一些问题,我认为用大数据的方法永远也解决不了,本质上是这样的问题,你的空间永远是无限往外扩张的,你不可能能够收集来足够稠密的数据。所以你只能靠猜或者我们就认为宇宙是这样一个模型,它靠这个模型来预测。样本空间确实很大,这个时候模型有非常关键的作用。模型它可以跟数据结合,可以提供适当泛化,但是这个又带来新的问题。怎么结合呢?结合到何种程度,这些都是具体的问题。
然后回到主题。我认为界定好大数据的方向以后,怎么做大数据相关的东西,可能这个领域比较窄。大数据应用开放流程应是怎样?(1)你需要明确问题的数据类型和样本空间。
(2)对于这个问题,你收集到尽可能多或者是足够多的相关数据覆盖这样的空间。大家注意不要太在意数据的质量和格式。
(3)选择或者是自己来搭建合适我这个问题和对这个问题处理的大数据平台,针对我们目前的应用,对数据进行一些预处理。比如说格式的转换、抽取、数据的集成,其实数据集成是特别关键的东西,多元的数据它们的特征是非常不一样的,怎么把它融合在一起,是非常重要的问题。因为我们不在意数据的质量和格式,我们要注意特别做到数据质量的控制。接下来就是处理数据,结果的解读和应用。这是我认为标准的大数据应用流程。数据在哪儿?
这是我之前给研究界讲的,所以有些东西是切合他们的应用来的。其实有很多类的数据,数据从有社会以来,大家一直在收集,比如说最多的还是在政府权威机构,统计局的宏观数据、行业数据,尤其是历史的数据。金融机构的交易数据等等各种各样的数据。其实我们在这样的场合,大家讨论的可能是互联网的数据或者是商业社会里面的数据。
我分了几类:
(1)第一类是人能看的数据,不管是新闻、论坛、微博、微信等等,其实就是传统的搜索引擎公司,它们利用他们的爬虫技术收取到的技术,这个数据非常大,不管是Google或者是百度,所有的数据是整个互联网的冰山一角,大量的数据都还没有被搜到。一些大型的互联网公司私有数据,比如说业务数据、用户行为数据。向用户购买商品的行为,虽然你在淘宝上抓回来更多,但是更多的还是在阿里内部。大家社交的行为数据更多的还应该在腾讯内部。大家都在看什么、搜什么的数据实际上在百度内部,这个有很高的壁垒和门槛,大家很难拿到。
(2)第二类除此之外,还有一个角色就是运营商,运营商的数据也是非常丰富的。因为所有的流量都需要从运营商走,我了解到一些运营商公司,他们也在做相关的大数据事情。但是现在有很多公司已经不想让运营商或者是中间环节获得,具体内容包里面是什么东西已经拿不到的,运营商就拿不到用户的查询词了。
关于大数据我们做这样一个东西,可能遇到的挑战,我认为最主要的挑战是思维方式。其实数据是产生于一个领域,还在原来的领域里面应用,你可能永远是小的应用。怎么把它脑洞大开应用到完全不同创新创造型的领域,我认为它的价值就出来了。 总结来说,着重领域知识,利用好计算机技术,再加上大数据思维,我觉得这是做出好的大数据应用的前提。
相关资料
建立大数据思维中不得不看的四个挑战
大数据的发展速度有目共睹,想要在竞争社会中走的更远,人人都需要建立大数据思维。那么在建立大数据思维中,有哪些挑战呢?
(1)大数据应用和商业回报间的矛盾。
未来的大数据应用一定是可定制的、可在云上打包的服务,即将业务、数据、分析能力多面定制,一起打包。企业需要可快速部署和有明确ROI 回报的应用,这涉及到数据的质量和丰富度及业务人员对数据的依赖度。这需要企业内各个部门的有效协作,并规避无法确定的风险,比如分析结果的不确定性,业务场景的复杂性,人员的能力缺失等。
传统手段,比如通过社交媒体、邮件、网络文本等获得的数据量非常庞大,但解破这些数据的关系和价值却给企业带来巨大挑战。企业希望成为数据的主人,但在辨析数据的有效性、能带来哪些商业回报,以及如何帮助决策等方面却缺乏有效工具。大数据魔镜是一款高端的免费数据可视化分析工具,是企业们不错的选择。
(2)海量数据与核心数据间的矛盾。
要做大数据,首先要了解自己的企业,或者企业所在的行业的核心是什么。调研中我们发现,有很多企业在竞争过程中,最终不是被现有竞争对手打败,而是被很多潜在未知的竞争对手打败的。
举例来说,大部分人都认为亚马逊是做电商的,但其实亚马逊现在最主要的收入来自云服务,也就意味着亚马逊的核心数据(价值)是云服务。只有在此基础上,亚马逊建立的大数据才是有效的、服务于战略的。
(3)内部数据与外围数据间的矛盾。
企业所获取的数据,很大一部分是内部数据,这让企业面对另一个挑战,如何让内部数据与外围相关数据产生联系并使之成长。只有让内外部数据的交融在用户场景中,才能为业务用户描绘更精准的业务发展空间。
(4)规律发现和规律失效间的矛盾。
调研显示,从大数据应用总结出的规律来看,建立失效预警是特别必要的。当企业通过大数据分析发现一个规律,并在现实中应用时,必须要设立一些预警指标。当指标达到一定程度,既表明之前发现的规律已经失效,必须发现新的规律、建立新相关指标,这称为数据价值的有效性。
没有根据实际应用场景的变化而及时更新的数据,挖掘得再多都是无谓的浪费,熟练应用失效预警,企业才能培养起团队对数据真实有效的敏感性。