第一次翻开的时候,看了眼开头几页,又合上了,觉得太过枯燥。
今天再把这本书翻出来,看到数据推动人工智能发展这一节,马上蹦起来,开始做笔记。
而后又捧着阅读了三遍,作为一个文科生来说,全书看起来通俗易懂,涉及复杂原理时使用很明朗的解说,适合没有基础的人阅读。
用几句话来总结内容,那就是:大数据推动人工智能发展,全方面改变了人的生活,并且在接下来的时间里,会逐渐演变为一场智能革命,无数人和不接受改变的企业将被淘汰。
智能时代,未来已来
1.数据——人类建设文明的基石
信息是关于世界、任何事物的描述,而数据则是将信息描绘清楚,用于承载信息
文明伴随着对数据的使用:获取数据→分析数据→建立模型→预测未来
数据的相关性,任何数据都离不开概率论和统计学
a.例:日本人通过人民日报上刊登的铁人王进喜照片,获取了大庆油田准确的信息,成功中标*
b.Google用户在不同时间点对某个电视节目的搜索量,四个高峰对应美国四个时区
c.针对各地用户在Google上搜索的H1N1关键词,训练出线性回归模型
统计学:数理统计,建立在概率论之上,收集、处理和分析数据,找到数据内在的关联性和规律性的学科。
要想获取准确的统计结果,首先要求数据量充足和具有可代表性。(量和质)
a.1936年美国大选,民意调查机构收回240w份问卷,乔治·盖洛普经过民族,性别,年龄收入等因素调查了5w个样本,却更具有代表性,盖洛普预测胜利
b.而后在预测1948年大选结果失败,原因是影响大选结果的不止民族、性别、年龄、收入等因素,还有更多的因素组合他们没有考虑,这次失败直接导致蒋介石先生压宝失败,与美国关系恶化
数学模型是数据驱动方法的基础
a.采用什么样的模型
b.模型的参数是多少
c.在工程上,采用多而简单的模型常常比一个准确的模型成本更低,也被使用的更普遍,其实只要数据量足够,就可以用若干个简单的模型取代一个复杂的模型,这种方法被称为数据驱动方法。
2.大数据和机器智能
让一台机器和一个人坐在幕后,让一个裁判同时与幕后的人和机器进行交流,如果裁判无法判断自己交流的对象是人还是机器,就说明这台机器有了和人同等的智能——图灵测试
传统的人工智能模仿人类智能的产生,让计算机按照人的思路去做,而现代科学家基本采用:机器智能最重要的是能解决人脑所解决的问题,而不在于是否采用和人一样的办法。
另辟蹊径:用统计+数据实现人工智能的另一条发展道路,用大量的文本&语音数据做训练,则是数据驱动方法,随着数据量的积累,系统会变得越来越好,量变带来质变。
a.2005年NIST测评Google团队的胜利
b.1996年深蓝战胜卡斯帕罗夫
大数据的特征
a.大量
b.多样性&多维度——例:民意调研与百度搜索(知道)提问的区别*
c.完备性——Google翻译系统用“死记硬背”全面覆盖句子
不能获得完备数据时,局部完备性也可以帮到我们
机器智能的问题逐渐演变成=>大数据和大量计算的问题
3.思维的革命
思维方式决定科学成败
a.从欧几里得、托勒密到牛顿,思维方法和方式远不如方法论对科学发展的重要性,东方文明长期以来在技术上领先西方,但在科学体系的简历上,远远落后,关键是在方法论上。
b.托勒密方法论:通过观察获得数学模型的雏形,然后利用数据来细化模型。 训练AlphaGo使用的Google大脑,就是简单的人工神经网络在几万台服务器上复杂的实现。
c.而托勒密方法论有两大缺陷:首先整体模型很复杂,第二缺陷是确定性假设,假定模型一旦产生,就是确定的和不会被改变的。
机械思维:牛顿的方法论——所有问题都有一个通用的解决办法
a.世界变化的规律是确定的
b.因为有确定性作保障,因此规律不仅可以被认知,而且可以用简单的公式或者语言描述清楚
c.这些规律是通用的,可以应用到各种未知领域指导实践
牛顿找到了开启工业革命大门的钥匙,而瓦特拿着这把钥匙开启了工业革命的大门。
机械思维直接带来工业大发明时代
a.机械思维的两面性——善用把握确定性而难以解决不确定性的问题
b.世界的不确定性——上帝也掷色子
世界变量太多,多到无法通过简单的方法或者公式算出结果
客观世界本身
熵,香农两大定律
a.香农第一定律(香农源编码定律):假定一个信息源,里面是N种信息,现在我们对着N种信息进行编码,编码的平均长度一定大于该信源的信息熵
b.香农第二定律:信息的传播速度不可能超过信道的容量
大数据的本质
a.承认世界的不确定性,很多智能问题从根本上讲无非是消除不确定性的问题。
b.从因果关系到强相关关系
c.落后最可怕的地方是思维方式的落后
4.大数据与商业
从数据中寻找规律
a.例:利用智能电表用电量统计找到室内种植大麻者和偷税漏税者
b.百货商店利用大数据多维度特征把握有刚需的用户,针对性推荐商品
技术改变思维方式,一些传统企业从线下到线上转型,互联网公司由数据得出用户画像,进行个性化推荐,呈现全新形态
a.亚马逊个性化商品推荐
b.Netfix电影推荐
c.Google相关性搜索
大数据商业的共同点
a.数据流
*从很多不同的地方(不同的人)收集上来,这些数据生成时是彼此独立的,未加工的,原始的,无目的的。
从分析中得出结论,怎样使用它们需要视特定的应用而定*
b.把控细节
*从大数据中找到普遍规律,再应用于每一个具体的用户,影响每一个具体的操作
把控每一个行为细节,对商业或者经营方式做改良*
**新技术(蒸汽机、电、摩尔定律、大数据、机器智能)+原有产业=新产业 **
技术改变商业模式,我们得到三个结论
a.技术革命导致商业模式的变化,尤其是新的商业模式的诞生
b.生产越来越过剩,需求拉动经济增长的模式变得不可逆转
c.商业模式的变化既有继承性,又有创新性
新产业的缔造,不可避免带来商业模式的变化,进而导致社会生活方式的变化。
*工业革命——机器替代手工业,瓷器,纺织品大量生产,价格大度下降
第二次工业革命-电——现代传媒和通信业发展*
大部分现有产业加上新技术等于新产业,但并非每一家公司都要从事新技术产品本身的制造,更多时候它们是利用新技术改造原有产业,只有思维上跟上新的时代,才能立于不败之地。
5.大数据和智能革命的技术挑战
每一次技术革命除了有生产力发展的需要,还要有甚多技术准备,只有当这些必要的技术都成熟时,技术革命才能变成可能。
现代生活中大数据的来源
a.电脑
b.传感器
c.过去的那些非数字化式存储的信息,将它们数字化
信息的存储
a.数据传输技术的突破
b.信息的处理和收集
通过技术处理数据
a.并行计算和实时处理,利用:MapReduce、Hadoop等工具
b.任何问题总有一部分计算是无法并行的,这类计算占比越大,并行处理的效率越低,并且无法保证每个小任务的计算量相同,使用的处理器越多,并行计算的效率越低。
c.针对大数据的实时处理需要开发更多新的工具,而不是简单的把过去的工具并行化。
数据挖掘是机器智能的关键
a.大数据的原始数据往往是没有固定格式,杂乱无章的,因此第一步就是对数据的过滤和整理,去除与要解决的问题无关的维度,对问题相关的数据内容进行格式化整理,以便进一步使用。
b.机器学习:机器学习是一个不断迭代,不断进步的过程,即:期望值最大化,事先定出一个学习的目标,这些算法就会不断的优化模型,让它越来越接近真实的情况。
-数据量大,但采用简单的模型,比较少的迭代次数,用大量的数据做一个浅层的机器学习
-数据量较小,但是采用比较复杂的模型,经过很多次迭代训练出准确的模型参数
大部分机器学习算法是等效的,只有量的差别,而没有质的差别,而量的差别可以通过模型和数据量来弥补。
数据安全
a.保证用户的数据不损坏,不丢失——云端具有极大的安全性
b.保证数据不被偷走或者盗用
利用使用规则,行为习惯大数据来防范黑客攻击
随着技术发展,生活的便利个个人隐私产生矛盾,隐私被更大化泄露
例:航空公司利用用户数据分析用户性格提高票价
如何保护隐私
a.预处理:从收集信息一开始就对数据进行预处理,使预处理后的数据保留了原来的特性,仍能处理数据,却“读不懂”数据的内容
b.双向监视:当窥视者试图侵犯隐私,就必须以自己的隐私来做交换
6.未来智能化产业
农业、体育、制造、医疗、律师、记者、编辑等行业职业的变化,大数据分布在各个领域的畅想——此处省略= =
7.智能革命和未来社会
这是最好的时代,也是最坏的时代。
从某种角度上看,智能社会无疑是迄今为止人类文明史上最好的社会,但是另一方面,也给我们带来了空前挑战,机器越来越多占据了我们的工作机会。
a.2014年上海外滩踩踏事件为例,百度随后开发了预测热门城市和景点拥挤的相关服务。
b.美国某X团队开发出一整套基于智能手机与移动设备规划城市交通和优化每个人雏形的智能交通系统
c.大数据给反恐带来曙光,杜达耶夫在用手机通话时,空中预警机根据无线电波锁定位置,发射导弹将其炸死
社会将会变得更加精细化,每一样交易都会被利用区块链技术彻底追踪
从标准化到个性化的服务
个性化制药为每一个人定制化特效药品,以及各种个性化针对性服务
负面影响——无隐私社会
a.大数据和机器智能引发的隐私问题会非常严重,我们将不再有隐私可言,我们收入的多少,学历的高低这些方方面面的细节都是隐私
b.隐私的泄露可能涉及健康和医疗,保险公司可能拒绝对那些可能得致命性疾病的人提供保险,航空公司提高票价谋取利益现在正实时发生着
c.隐私就像自由,只有当人们失去它的时候,才知道它的可贵
机器人将抢掉人的饭碗
a.当机器变得足够聪明,一定会取代人类完成很多需要高智力的工作
b.历史上影响力可以和正在进行的智能革命相比的,只有18世界末始于应该的工业革命,19世纪下半叶始于美国和德国的第二次工业革命、“二战”后以摩尔定律为标准的信息革命,一共是三次。这三次技术革命都有一个问题共同的特点,那就是它们对当时的社会产生了巨大的冲击,都需要经过大约半个世纪或者更长的时间才能消化掉。
争当2%的人
任何一次技术革命,最初受益的都是发展它、使用它的人,而远离它、拒绝接受它的人,在很长的时间里都将是迷茫的一代。