吴军老师今天在硅谷寄来的信中说:大数据更能发现真实。
老师先从热点某离婚案切入,然后分析人们的真实情绪后通过对比以前的调查问卷来说明人们的真实性问题。即情绪对于问卷真实性本来就是有影响的,现在去测试情绪的真实性,自然也很难去得出比较确信的答案。
我得到最大的是吴军老师关于数据挖掘的细节例子,即比较有监督数据和无监督的大数据的区别。其中是我惊异的真的是思维方式的视角问题。
无监督的数据监测:给一个样本假设一种情绪,这种情绪大部分是不对的,然后循环其余的样本,让机器不断学习,不断修正情绪的枝业,然后最后修正假设,最后分析大样本的数据。这种无监督的算法和其实是和流程图一样,不断试错,修正,然后分析,只不过是很多算法的叠加。
其实所有的不同应该是思考方式,或许小步快跑的提出是大家认出算法本质思考的模式的衍生方法论吧!
大数据,不是数据足够大,也不是数据足够多。而是足够真实!