大数据的概念因为各种原因而被广泛的传播到了一个家喻户晓人竟皆知的状态。然而对于绝大部分的普通人来说,大数据的应用场景依旧是遥远的。其实对于很多创业公司来说,尤其是硬件创业公司来说,大数据的实际应用也是存在困惑的,更多的还停留在美好的概念上多一些。说白了,按照现在的中国的商业环境,能不能利用数据直接挣钱才是绝大多数人关注的关键问题。
当然,我们分享过在智能硬件领域直接靠数据层面的壁垒就赚钱的例子。
事实证明智能硬件领域通过数据分析层面达成商业闭环也不是痴人说梦,于是这里存在第二个问题是,怎么在智能硬件领域做大数据应用。如何获得大量的数据、如何处理大量的数据、如何应用大数据产生价值。
CoClean是在智能硬件领域实践大数据分析的一个案例,赵飞对于大数据的获取、处理以及应用都有一套根据自己经验得出的方法论。相信会对智能硬件领域创业的朋友多少有些启发。
智能硬件领域中的大数据应用思维
1.在大数据领域有三大特别重要的环节或者说三项重要的技术,一个就是计算机的技术,包括分布式计算包括怎么样把数据存储、快速调用、快速分析,这里面有很多软件的东西。第二点是统计的知识,拿到数据以后怎样建模能够最快速最准确的去发现问题,然后发现问题之后,找出结果之后,怎么样校验这个结果是不是准的。第三点是专业知识,比如我们是做环保领域的,我要知道空气污染的原因是什么、建筑传热的机理是什么、能源是怎么样流动的。当我们解决一个问题的时候,首先会从这三个角度计算机、统计、专业知识,这三个领域来综合解决问题。
2.很多问题完全借助机器学习或者数理方面的知识,没有足够的数据来支撑这样的解决方案。海量的数据加简单的数学模型比少量的数据加复杂的数学模型更能解决实际问题。但现实生活中毕竟数据不是海量的,没有足够多到可以抛弃专业知识。
3.Tech Talk上面讲无人机里面有一个理论,现在也是前沿的研究方向,包括在建筑领域用的也很多,叫Model Based
Control。就是我要控制一个东西,不能光靠反馈和前馈来控制,我要建立一个数学模型来解决它的物理问题,然后在这个基础上再做一些数据的反馈,数据的加深。
4.以前我做建筑能耗数据分析也是一样,我们尽管有一定规模的数据——3亿平米的建筑能耗数据。但是同时我们还建立一个物理的传热模型,在这个模型基础上再输入我们实测的数据来不断的校准,一方面叫做专家知识,另一方面叫做自学习知识。我们认为合适的将来能够最高效并且不降低精度的数学方法,就是把这两个相结合。
5.最早李开复研究语音识别,在他那个年代绝大多数的语音识别都是基于模板,叫Rule Based
Control,就是基于规则,如果怎么样就怎么样。他最早提出了我们可以基于一些统计,当我们有一定的先验知识加上后续的新的数据之后,再更新这些模板。我们现在认为这两个知识应该结合起来——rule based和learning based应该相结合,在有限的数据情况下,可以让统计模型更有效的解决一些实际问题。
6.其实光用数据来解决问题有时候会得出一些可笑的结论。当然有些时候可能短期之内看到这个结论还是比较有意义的,但时间一长,客观环境在变,这些结论就不一定能再体现现实情况。
7.Google曾经根据人们的搜索的结果来预测流感的爆发,他们经过统计,大家搜索病了该吃什么药之类的行为,这个搜索往往是在他们去看病之前的,所以美国CDC疾控中心拿到的流感的爆发数据往往是滞后于google上面的搜索数据的。百度也做过类似的事情,最早这个也发了很牛的论文有团队也一直爆火,是作为大数据解决是问题特别经典的案例。但后来又学者认为,这个预测的鲁棒性(Robustness即系统的稳定性)会差一些,很有可能就预测出与事实截然相反的结论,我个人认为这就是典型的纯粹用数据说话,而忽略的专业知识忽略的额外的一些信息所导致的一种可能的结果。
8.我们用到了一些Bayes统计的东西,Bayes统计就是把先验知识和后续搜到的新的信息相结合,一方面让新的信息起到指示作用,另一方面让专家的先验知识指导新的结果,不至于产生完全违背常理的结果。
9.我以前在美国是做建筑环保行业尤其是电力行业的数据分析,我们的商业模式是to B的,慢慢我发现这种to B的商业模式有几个问题。第一个是,他的利益相关方往往关注的并不是真正的经济效益,或者说并不是完全客观以数据为导向来做决策,电力公司在中国是这样,在美国也是这样。所以在决策的时候数据真正在客观上能解决多少问题,我当时也保持怀疑。第二是,我们分析出的结果涉及大量第三方利益相关方的改造,电力公司提供了数据,真正要改造的是具体楼里的业主,他们不是同一批人。这块具体的改造又涉及到很多问题,B端到C端之间怎样再去衔接。
10.真正能够直接的快速的用数据来改变人的生活环境,让我们生活的更节能更环保更安全,其实应该直接面向末端用户,就是to C,所以我当时想怎样把海量的数据从C端用户提取出来,最简单的办法就是我们自己来测试自己来收集数据。to C我们用一款能够改善生活环境的产品来拖带一个监测产品,进而用我们的大数据做分析,最终数据将来集成了以后,还可以通过增值服务,给B端用户楼的业主提供更多的改善。