王进喜采石油照片
书中讲了日本通过看到人民画报中王进喜采石油的例子讲了相关性分析,日本通过分析这幅图片得到几个关键信息:冷、井架密度估计石油产品、手握手柄方向判断大概直径,提供具有针对性的投标方案,中标,而未来通过大数据进行关联性分析的应用会越来越多。
采用多而简单的模型常常比精确模型成本低
托勒密通过50个圆复杂计算拟合太阳运动,而一个椭圆就能拟合出相应效果,因此如果模型太过复杂,是否想想有其他简便的建模,大数据时代,数据的全量统计,用简单模型,在大数据下能取得少数据下复杂模型的效果,在大数据下,如果计算还很复杂,那么计算量将是天文,所以在谷歌、百度、阿里,很多模型还都是逻辑回归,虽然有所修正,并没有采用更为复杂而精确的svm等。
通常由大量数据、较少迭代训练出来的“较粗糙”的模型,要比用少量数据、深度的学习精耕细作得到的模型效果更好。
大数据特征
大量Vast、多样性Variety、及时性velocity
仅仅是大量的数据并不能成为大数据,多样性保证信息的完备性,可以有更多的信息,熵越低,不确定性越低,确定性越高
我们对大数据的看法不应该停留在统计、改进产品、销售上,要看到他和数学模型、摩尔定律一起导致机器智能的产生。
搜索引擎中点击搜索结果和搜索结果相关性称为“点击模型”,今天他在搜索排序中占据70%~80%的权重
谷歌每天有1/3~2/5的员工每天的工作就是处理数据
大数据为我们提供解决问题的新方法,数据中包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们获取到想知道的答案,这便是大数据思维的核心。
思维革命
张首晟教授概括的人类最高文明成就
爱因斯坦的质能转换公式:$$ E = mc^{2}$$
量子力学中测不准原理:$$ \deta t * \deta p > \theta $$
熵的定义:$$H = - p_{i} logp_{i}$$
大数据与商业
豪宅种违法物
通过监控豪宅使用电量的多少,来检测到底在房子了干了什么
检测偷税漏税
通过统计企业的缴税情况,分析哪些企业偷税漏税
塔吉特百货预测用户购买从而赠商品券
通过对会员用户的购买行为分析,用户会在什么时候购买什么商品,从而定向赠送优惠券
亚马逊的推荐而购买的商品占商品总销售的1/3
普拉达
普拉达通过衣服防止FRID芯片,通过芯片刷后知道商品的特点,导购员详细讲解,提高用户购买的意愿
试衣间增加读卡设备,分析衣服被试穿的次数,从而分析衣服销量和试穿关系,反馈到设计上来
金风监控发电设备情况
金风公司通过在风力发电设备放置数据采集装置,分析设备发电情况,建议放置设备位置,了解风能分布情况,还能监控设备运行情况,从而从市场依赖度、价格战等方法转变到提高服务质量上来,业绩也逐年提高
GE公司冰箱
冰箱换滤芯,通过提醒用户换滤芯,两个滤芯的利润就是一台冰箱利润
新技术+原有产业=新产业
现有产业+蒸汽机=新产业
现有产业+电=新产业
现有产业+互联网=新产业
现有产业+人工智能=新产业
未来产业
精耕农业
通过人工智能,分析每一个产品浇多少水,减少水的使用,实现精耕农业,减少浪费
医疗
根据个人基于提供特定的药品
手术机器人进行手术,误判少,不受情绪影响
工厂
大量使用机器人
特斯拉公司使用的工人非常少
富士康的机器人计划
追踪每一次交易
通过区块链技术,跟踪每一次的交易过程情况
结语:大数据导致的机器革命,未来的选择只有两条路:要么成为前2%,要么被淘汰,努力让自己称为2%的受益者。