1 文章结构脑图
2 基本概念
2.1 数据科学
数据科学将数据挖掘、统计分析和机器学习与数据集成整合,结合数据建模能力,去构建预测模型、探索数据内容模式。 <font color=green>P387</font>
数据科学家: 从数据中探究、研发预测模型、机器学习模型、规范性模型和分析方法并将研发结果进行部署供相关方分析的人。 <font color=green>P388</font>
开发数据科学解决方案,包括将数据源迭代地整合到开发洞察力的模型中。数据科学依赖于: <font color=green>P389</font>
- <font color=red>丰富的数据源</font>。具有能够展示隐藏在组织或客户行为中不可见模式的潜力。
- ****<font color=red>信息组织和分析</font>。** 用来领会数据内容,结合数据集针对有意义模式进行假设和测试的技术。
- ****<font color=red>信息交付</font>**。针对数据运行模型和数学算法,进行可视化展示及其他方式输出,以此加强对行为的深入洞察。
- ****<font color=red>展示发现和数据洞察</font>。** 分析和揭示结果,分享洞察观点对比了传统的数据仓库/商务智能与基于数据科学技术实现的预测性分析和规范性分析的作用。 见下表14-2。
2.2 数据科学的过程
数据科学的过程遵循科学的方法,通过观察、设立和检验假设、观察结果、构思解释结果的通用理论来提炼知识。在数据科学中,这一过程通常采用观察数据以及创建和评估行为模型的形式进行: <font color=green>P389</font>
- 定义大数据<font color=red>战略和业务需求</font>。
- <font color=red>选择数据源</font>。
- <font color=red>获得和接收数据源</font>。
- 制定数据<font color=red>假设和方法</font>。
- 集成和调整进行<font color=red>数据分析</font>。
- 使用模型<font color=red>探索数据</font>。
- <font color=red>部署和监控</font>。
2.3 大数据
大数据: 数据量大(Volume)、数据更新快(Velocity)、数据类型多样/可变(Variety)。数据黏度大(Viscosity)。数据波动性大(Volatility)。数据准确性低(Veracity)。 <font color=green>P390</font>
2.4 大数据架构组件
DW/BI与大数据处理之间最大的区别在于,在传统的数据仓库中,数据在进入仓库时进行整合(提取、转换、加载);在大数据环境中,数据在整合之前就进行接收和加载(提取、加载、转换)。 <font color=green>P391</font>
在某些情况下,传统理念认为数据根本不需要被整合,通常是为了特定的用途(如在构建预测模型的过程中需要集成的特定数据集)而不是要为使用做准备而整合数据。见下图14-4。 <font color=green>P391</font>
2.5 大数据来源
大数据会通过电子邮件、社交媒体、在线订单甚至在线视频游戏生成。不仅电话和销售网点的设备产生数据,监控系统、运输系统中的传感器、医疗监控系统、工业和公用事业监控系统、卫星和军事装备等也会产生大量数据。 <font color=green>P391</font>
==例如,一个航线的航班可以生成1 TB的数据,直接与因特网交互的设备也会生成大量数据,设备和因特网之间的连接通常被称为物联网(IoT)。==
2.6 数据湖
数据湖 是一种可以提取、存储、评估和分析不同类型和结构海量数据的环境,可供多种场景使用。 <font color=green>P392</font>
例如,它可以提供: <font color=green>P392</font>
- 数据科学家可以<font color=red>挖掘和分析数据的环境</font>。
- 原始数据的集中<font color=red>存储区域</font>,只需很少量的转换(如果需要的话)。
- 数据仓库明细历史数据的<font color=red>备用存储区域</font>。
- 信息记录的<font color=red>在线归档</font>。
- 可以通过自动化的模型识别<font color=red>提取流数据的环境</font>。
数据湖的风险在于,它可能很快会变成数据沼泽——杂乱、不干净、不一致。为了建立数据湖中的内容清单,在数据被摄取时对元数据进行管理至关重要。
2.7 基于服务的架构
基于服务的体系结构(Services-Based Architecture,SBA) 正在成为一种立即提供(如果不是完全准确或完整)数据的方法,并使用相同的数据源(Abate,Aiken,Burke,1997)来更新完整、准确的历史数据集。会把数据发送到操作型数据存储(ODS)中以实现即时存取,同时也会将数据发送到数据仓库中以实现历史积累。 <font color=green>P393</font>
SBA架构包括三个主要的组件: <font color=green>P393</font>
- ==批处理层(Batch Layer)==。数据湖作为批处理层提供服务,包括近期的和历史的数据。
- ==加速层(Speed Layer)==。只包括实时数据。
- ==服务层(Serving Layer)==。提供连接批处理和加速层数据的接口。
2.8 机器学习
机器学习(Machine Learning) 探索了学习算法的构建和研究,它可以被视为无监督学习和监督学习方法的结合。
- 无监督学习通常被称为数据挖掘,
- 监督学习是基于复杂的数学理论,特别是统计学、组合学和运筹学。
- 第三个分支正处于形成过程中,称为强化学习,即没有通过教师的认可就实现了目标优化,如驾驶车辆。
- 通过编程使机器可以快速地从查询中学习并适应不断变化的数据集,从而在大数据中引入一个全新的领域,称为机器学习。
- 运行进程,存储结果,在后续运行中使用这些结果以迭代方式通知进程并优化结果。 <font color=green>P393</font>
**这些算法一般分为三种类型: ** <font color=green>P394</font>
- <font color=red>监督学习(Supervised learning)。基于通用规则(如将SPAM邮件与非SPAM邮件分开)</font>。
- <font color=red>无监督学习(Unsupervised learning)。基于找到的那些隐藏的规律(数据挖掘)</font>。
- <font color=red>强化学习(Reinforcement learning)。基于目标的实现(如在国际象棋中击败对手)</font>。
2.9 语义分析
媒体监控和文本分析 是从大量非结构化或半结构化数据(如事务数据、社交媒体、博客和Web新闻网站)中检索并获得见解的自动化方法,用于感知人们对品牌、产品、服务或其他类型主题的感觉和看法。 <font color=green>P394</font>
使用自然语言处理(NLP)分析短语或句子、语义察觉情绪,并揭示情绪的变化,以预测可能的情景。 <font color=green>P394</font>
2.10 数据和文本挖掘
数据挖掘(Data mining)是一种特殊的分析方法,它使用各种算法揭示数据中的规律。 <font color=green>P394</font>
它最初是机器学习的一个分支,属于人工智能的一个子领域。该理论是统计分析的一个子集,称为无监督学习,即当算法被应用于一个数据集时,并不知道确切的或期望的结果。 <font color=green>P395</font>
文本挖掘使用文本分析和数据挖掘技术来分析文档,将内容自动进行分类,成为工作流导向和领域专家导向的知识本体。 <font color=green>P395</font>
数据和文本挖掘使用了一系列的技术: <font color=green>P395</font>
- 剖析(Profiling)。尝 试描述典型行为,用于建立异常检测应用程序的行为规范。
- 数据缩减(Data reduction)。用 较小的数据集来替换大数据。
- 关联(Association)。根据交易涉及的元素,找到它们之间的 联系。
- 聚类(Clustering)。基于元素的共享特征,聚合为不同的簇。
- 自组织映射(Self- organizing maps)。减少评估空间的维度。
2.11 预测分析
预测分析(Predictive Analytics) 是有监督学习的子领域,用户尝试对数据元素进行建模,并通过评估概率估算来预测未来结果。 <font color=green>P395</font>
预测分析是基于可能事件(购买、价格变化等)与可变因素(包括历史数据)的概率模型开发。当它接收到其他信息时,模型会触发组织的反应。 <font color=green>P395</font>
预测模型的最简单形式是预估(Forecast)。 <font color=green>P395</font>
2.12 规范分析
规范分析(Prescriptive Analytics) 比预测分析更进一步,它对将会影响结果的动作进行定义,而不仅仅是根据已发生的动作预测结果。规范分析预计将会发生什么,何时会发生,并暗示它将会发生的原因。 <font color=green>P396</font>
2.13 非结构化数据分析
非结构化数据分析(Unstructured Data Analytics)结合了文本挖掘、关联分析、聚类分析和其他无监督学习技术来处理大型数据集。 <font color=green>P396</font>
扫描和标记是向非结构化数据添加“钩子”的一种方法,它允许对相关结构化数据进行链接和筛选。 <font color=green>P396</font>
2.14 运营分析
运营分析(Operational Analytics), 也称为运营BI或流式分析,其概念是从运营过程与实时分析的整合中产生的。运营分析包括用户细分、情绪分析、地理编码以及应用于数据集的其他技术,用于营销活动分析、销售突破、产品推广、资产优化和风险管理。 <font color=green>P396</font>
运营分析包括跟踪和整合实时信息流,根据行为预测模型得出结论,并触发自动响应和警报。 <font color=green>P396</font>
2.15 数据可视化
可视化(Visualization) 是通过使用图片或图形表示来解释概念、想法和事实的过程。数据可视化通过视觉概览(如图表或图形)来帮助理解基础数据。数据可视化压缩并封装特征数据,使其更易于查看。通过这种方式,有助于发现商机,识别风险或凸显信息。 <font color=green>P397</font>
2.16 数据混搭
数据混搭(Data Mashups) 将数据和服务结合在一起,以可视化的方式展示见解或分析结果。 <font color=green>P397</font>
3 语境关系图
3.1 定义
大数据不仅指数据的量大,也指数据的种类多(结构化的和非结构化的,文档、文件、音频、视频、流数据等),以及数据产生的速度快。<font color=green>P386</font>
那些从数据中探究、研发预测模型、机器学习模型、规范性模型和分析方法并将研发结果进行部署供相关方分析的人,被称为数据科学家。 <font color=green>P386</font>
想利用大数据,就必须改变数据的管理方式。大多数数据仓库都基于关系模型,而大数据一般不采用关系模型组织数据。大多数数据仓库依赖于ETL(提取、转换和加载)的概念。大数据解决方案, 如数据湖,则依赖于ELT的概念——先加载后转换。更加重要的是,数据的生产速度和容量带来了挑战,需要在数据管理的各个关键领域中采用不同的方法,如集成、元数据管理和数据质量评估。 见下图14-5 <font color=green>P386</font>
3.2 目标
原则: 组织应仔细管理与大数据源相关的元数据,以便对数据文件及其来源和价值进行准确的清单管理。 <font color=green>P387</font>
3.3 业务驱动因素
期望抓住从多种流程生成的数据集中发现的商机,是提升一个组织大数据和数据科学能力的最大业务驱动力。 <font color=green>P387</font>
大数据可以通过对更多、更大的数据集进行探索来激发创新,这些数据可用来定义预判客户需求的预测模型,并实现产品和服务的个性化展示。 <font color=green>P387</font>
数据科学可以提升运营水平。 <font color=green>P387</font>
机器学习算法可以将那些复杂且耗时的活动实现自动化,从而提升组织效率、削减成本、降低风险。 <font color=green>P387</font>
3.4 输入
3.5 活动
【活动 1】定义大数据战略和业务需求
大数据战略必须包括以下评估标准: <font color=green>P398</font>
- 组织试图解决什么问题,需要分析什么。
- 要使用或获取的数据源是什么。
- 提供数据的及时性和范围。
- 对其他数据结构的影响以及与其他数据结构的相关性。
- 对现有建模数据的影响。
【活动 2】选择数据源
大数据环境可以快速获取大量数据,但随着时间的推移需要进行持续管理,需要了解以下基本事实: <font color=green>P399</font>
- 数据源头。
- 数据格式。
- 数据元素代表什么。
- 如何连接其他数据。
- 数据的更新频率。
需要评估数据的价值和可靠性,需要审查数据源和创建这些源的流程,并管理这些新的数据源。
需要评估数据的价值和可靠性: <font color=green>P398</font>
1)基础数据。 2)粒度。3)一致性。4)可靠性。5)检查/分析新数据源。
【活动 3】获得和接收数据源
获取时需要捕获有关源的关键元数据,如来源、大小、时效性和相关内容的额外知识。 <font color=green>P399</font>
迭代地识别当前数据资产基础和这些数据源的差距,使用分析、可视化、 挖掘或其他数据科学方法探索这些数据源,以定义模型算法输入或模型假设。<font color=green>P399</font>
在整合数据之前, 应先评估数据的质量。<font color=green>P399</font>
【活动 4】制定数据假设和方法
制订数据科学解决方案需要构建统计模型,找出数据元素和数据集内部以及二者之间的相关性和趋势。<font color=green>P399</font>
<font color=red>模型的效果取决于输入数据的质量和模型本身的健全性</font>。<font color=green>P399</font>
【活动 5】集成和调整数据进行分析
准备用于分析的数据包括了解数据中的内容、查找各种来源的数据间的链接以及调整常用数据以供使用。 <font color=green>P400</font>
一方法是使用共有键值整合数据的通用模型。另一方法是使用数据库引擎内的索扫描和连接数据,以获得相似性和记录链接的算法和方法。 <font color=green>P400</font>
【活动 6】使用模型探索数据
- <font color=red>填充预测模型</font>。需要使用==历史信息预先填充配置==预测模型,这些信息涉及模型中的客户、市场、产品或模型触发因素之外的其他因素。 <font color=green>P400</font>
- <font color=red>训练模型</font>。需要通过数据模型进行训练。训练包括基于数据重复运行模型以验证假设,将导致模型更改。训练需要平衡,通过针对有限数据文件夹的训练避免过度拟合。 <font color=green>P400</font>
- <font color=red>评估模型</font>。将数据放入平台并准备分析后, 数据科学就开始了。针对训练集进行模型构建、评估和验证。 <font color=green>P401</font>
- <font color=red>创建数据可视化</font>。必须满足与模型目的相关的特定需求,每个可视化应该能够回答一个问题或提供一个见解。 <font color=green>P401</font>
【活动 7】部署和监控
满足业务需求的模型,必须以可行的方式部署到生产中,以获得持续监控。 <font color=green>P402</font>
- <font color=red>揭示洞察和发现</font>。洞察应与行动项目相关联,这样组织才能从数据科学工作中受益。
- <font color=red>使用附加数据源迭代</font>。数据科学是一个迭代的过程。
3.6 交付成果
3.7 技术驱动因素
3.8 方法
<font color=red>解析建模</font>。<font color=green>P406</font>
1)描述性建模以紧凑的方式汇总或表示数据结。
2)解释性建模是数 据统计模型的应用,主要是验证关于理论构造的因果假设。预测分析的关键是通过训练模型来学习,学习方法的效果取决于它在测试集(与训练集相互独立)上的预测能力。<font color=red>大数据建模</font>。 <font color=green>P407</font>
对数据仓库进行物理建模的主要驱动因素是为查询性能而启用数据填充。
3.9 工具
大规模并行处理(MPP)的出现是大数据和数据科学的首批推动者之一。
其他改变了我们查看数据和信息方式的技术包括: <font color=green>P402</font>
- 数据库内的高级分析。
- 非结构化数据分析(Hadoop,MapReduce)。
- 分析结果与操作系统的集成。
- 跨多媒体和设备的数据可视化。
- 链接结构化和非结构化信息的语义。
- 使用物联网的新数据源。
- 高级可视化能力。
- 数据扩展能力。
- 技术和工具集的协作。
工具: MPP 无共享技术和架构。基于分布式文件的数据库。 数据库内算法。大数据云解决方案。 统计计算和图形语言。数据可视化工具集。 <font color=green>P402</font>
MPP 无共享技术和架构。 在所有可用的本地化硬件上,自动分发数据和并行化查询工作负载的 系统是大数据分析的最佳解决方案。 <font color=green>P403</font>
基于文件的解决方案中使用的模型称为 <font color=red>MapReduce</font>。<font color=green>P404</font>
该模型有三个主要步骤:
- 映射(Map)。 识别和获取需要分析的数据。
- 洗牌(Shuffle)。依据所需的分析模式组合数据。
- 归并(Reduce)。 删除重复或执行聚合,以便将结果数据集的大小减少到需要的规模。
3.10 度量指标
- 技术使用指标。 <font color=green>P411</font>
- 加载和扫描指标。提取率和与用户社区的交互。 <font color=green>P411</font>
- 学习和故事场景。 <font color=green>P412</font>
常用的测量方法包括: <font color=green>P412</font>
- 已开发模型的数量和准确性。
- 已识别的机会中实现的收入。
- 避免已识别的威胁所降低的成本。
4 实施指南
管理数据仓库数据的许多一般规则适用于管理大数据:确保数据源可靠、具有足够的元数据以支持数据使用、管理数据质量、确定如何整合来自不同源的数据,以及确保数据安全且受到保护。 <font color=green>P407</font>
实施大数据环境的差异与一组未知问题有关: 如何使用数据、哪些数据有价值、需要保留多长时间。
战略一致性:
战略交付成果应考虑管理以下要素: <font color=green>P407</font>
1)信息生命周期。2)元数据。3)数据质量。4)数据采集。 5)数据访问和安全性。6)数据治理。7)数据隐私。8)学习和采用。9)运营。
就绪评估/风险评估。
评估与关键成功因素相关的组织准备情况,具体包括: <font color=green>P408</font>
1)业务相关性。2) 业务准备情况。3)经济可行性。4)原型。5)可能最具挑战性的决策将围绕数据采购、平台开发和资源配置进行。6)数字资料存储有许多来源,并非所有来源都需要内部拥有和运营。7)市场上有多种工具和技术,满足一般需求将是一个挑战。8)保护具有专业技能的员工,并在实施过程中留住顶尖人才,可能需要考虑替代方案,包括专业服务、云采购或合作。9)培养内部人才的时间可能会超过交付窗口的时间。
组织与文化变迁
与DW/BI一样,大数据实施将汇集许多关键的跨职能角色,包括: <font color=green>P408</font>
- 大数据平台架构师。硬件、操作系统、文件系统和服务。
- 数据摄取架构师。数据分析、系统记录、数据建模和数据映射。提供或支持将源映射到Hadoop集群以进行查询和分析。
- 元数据专家。元数据接口、元数据架构和内容。
- 分析设计主管。最终用户分析设计、最佳实践依靠相关工具集指导实施,以及最终用户结果集简化。
- 数据科学家。提供基于统计和可计算性的理论知识,交付适当的工具和技术,应用到功能需求的架构和模型设计咨询。
5 大数据和数据科学治理
大数据同样需要治理。寻源、来源分析、提取、丰富和发布流程需要业务和技术控制,解决以下问题: ==寻源。共享。元数据。丰富。访问==。 <font color=green>P409</font>
数据科学和可视化标准: <font color=green>P409</font>
最佳实践是建立一个定义和发布可视化标准和指南的社区,并在指定的 交付方法中审查。 标准可能包括:
1)分析范例、用户团体、主题域的工具标准。
2)新数据的请求。
3)数据集流程标准。
4)采用中立的、专业的陈述过程,避免产生有偏见的结果,并确保所有要素都以公平一致的方式完成,包括:1数据包含和排除。2模型中的假设。3结果统计有效性。4结果解释的有效性。5采用适当的方法。
元数据需要作为数据提取的一部分进行谨慎管理,否则数据湖将迅速成为数据沼泽。 <font color=green>P410</font>
数据质量
大多数成熟的大数据组织,使用数据质量工具集扫描数据输入源, 以了解其中包含的信息。大多数高级数据质量工具集都提供了一些功能,使组织能够测试假设,并构建有关其数据的知识。例如: <font color=green>P411</font>
- 发现。信息驻留在数据集中的位置。
- 分类。基于标准化模式存在哪些类型的信息。
- 分析。如何填充和构建数据。
- 映射。可以将哪些其他数据集与这些值匹配。
6 关键架构图
-
图14-1 大数据和数据科学语境关系图
-
表14-2 分析对比
-
图14-3 数据科学的过程阶段
-
图14-4 DW/BI 和大数据概念架构
-
图14-5 信息收敛三角