第一周 下半部分
大数据来自哪里?
接着第一周上半部分,跟山火预测和医疗服务的数据来源一样,基本有三种来源:机器设备产生的日志和信息,人类使用软件服务和社交软件产生的数据,各种机构组织收集的资料。
为什么要搞清楚数据来源呢?
主要是为了降低数据复杂度,融合各种数据才能做数据分析。
(1)数据来自不同地方,它们的格式千差万别。例如各种机器设备产生的日志是一种,网页返回的点击可能是HTML和JS写的,监控设备拍得图片和视频在计算机看来是像素,等等。
(2)自定义格式,融合各种数据一同进行处理,这样能使数据量更大,从中等到更多有意义的信息。
1. 机器设备
几乎是数据量最大的来源,主要通过各种传感器感知信息,存储数据。
1.1 是什么让数据变得智能?
(1)连接其他设备或互联网,把信息传到服务器上进行处理
(2)自动收集并分析获得的信息
(3)自动监测并解决问题:告警、通知执行中心进行处理,等等
1.2 有什么常见的例子呢?
(1)可穿戴设备和配套的APP
可穿戴设备通过传感器收集你的个人资料,例如心跳、血压、运动范围和速度(通过GPS测定距离和时间),等等。获得数据在可穿戴设备中存储,智能手机上的APP通过蓝牙或网络收集信息并进行记录和分析。最后APP返回你需要的健康信息,建议的运动计划、饮食计划等。
1.3 为什么有用?
可用于实时处理数据和监测处理。
2. 人类活动
人类活动产生巨大信息,处理这些信息最大的挑战是:这些信息不是结构化信息。
(1)人类活动有哪些:其实主要指的是网上的人类活动,例如电子邮件、社交网络、网络搜索、博客,等等
(2)信息特点:非结构化,十分多文字,类型十分多(PPT/音频/视频/txt/等等)
(3)怎么处理:提取、转化(自然语言分析)、存储并处理
(4)好处:得到实时信息,可以和其他领域结合起来使用(例如广告、告警、等等)
(5)介绍了一些工具,没记,以后要用再学。
3. 团体组织
虽然是结构化的数据,但只是把数据存起来,没处理也没咋用。很浪费这么多有价值的数据!
(1)最大的障碍:
一个组织里的数据往往储存在不同地方,没有整合也没有同步数据。造成很多数据是过时的数据(而不是最新的数据),或者不能被处理。
(2)怎么用:
解决问题(1)后获得结构化数据,运用各种方法挖掘出价值。
(3)一些例子:
例如
a.快递公司:通过规划路线,减少货车的行驶距离。减少了人工、车辆损耗、汽油等等成本。
b. 连锁超市:通过分析购买商品,分析社交网络上的实时评价、网店上的点击量等等;量身定制为会员(或社交网络上的特定客户)推荐商品和服务,提高利润。
2018.1.9
困,是真的困,但还是要做题。
一些血泪:课件真的很大,随随便便就几十M,下载慢到哭泣。推荐阅读的麦肯锡的报告全英文156页....