《大数据和数据挖掘》课程复习题(A)
一、是非题
- 大数据的概念与“海量数据”相同,都是强调数据的量。( - )
- 大数据的数据类型包括结构化数据、半结构化数据、非结构化数据等多种类型。( + )
- 科学研究的范式一:实验范式;范式二:理论范式;范式三:计算范式;范式四:大数据范式。( + )
- 小数据定义是提供群体决策的依据。( - )
- 大数据至今已有确切、统一的定义。( - )
- 胡焕庸线是中国历史与地理发展的一个标志线。( + )
- 大数据尚不能完全取代传统结构化数据。( + )
- 云计算仅是一种计算模式。( - )
- 人工智能是一种计算形式。(+ )
- 数据采集最基本的内容是系统日志。(+ )
- NoSQL是指No SQL。 ( -)
- MapReduce的工作原理是先分后合的数据处理方式。( + )
- HBase是一个分布式的、面向列的开源数据库。( + )
- 图G=(V)是仅有节点组成的集合。( - )
- 关联规则挖掘也称购物篮分析。( + )
二、单选题 - 云计算包含两方面的内容:( B)。
A数据和计算 B服务和计算 C 存储和计算 D服务和平台 - 人工智能需要( A )来建立其智能。
A数据, B计算, C 存储, D服务 - 数据(data)就是数值,也就是通过( B )或计算得出的结果。
A编制、观察, B观察、实验, C实验、抽样 - 分布式文件系统(DFS)可以有效解决数据的( C)难题。
A数据和计算, B服务和计算, C存储和管理 - MapReduce是一套软件框架,包括(A)阶段。
A Map/映射和Reduce/化简两个,B Map/映射,C Reduce/化简 - Hadoop框架最核心的设计是(B)。
A HDFS, B HDFS和MapReduce,C MapReduce - HDFS是Hadoop(C )缩写。
A分布式关系数据库,B关系数据库系统,C分布式文件系统 - Kafka是一种高吞吐量的(B)发布订阅消息系统
A信息, B 分布式, C集中式 - Hive是基于Hadoop的一个(A)工具。
A数据仓库,B分析,C平台 - HBase是一个分布式的、(C )开源数据库。
A高容错,B面向行的, C面向列的 - Tachyon是一个(A)的分布式文件系统。
A高容错, B面向行, C面向列 - Spark速度比Hadoop MapReduce快(B)倍。
A10 ,B100,C200, - Apache Spark是专为(C)数据处理而设计的快速通用的计算引擎。
A 小规模, B中规模,C大规模 - 数据挖掘是从大量数据中( A )知识。
A提取或“挖掘”, B 总结,C归纳与学习 - 关联规则挖掘的主要内容是研究(C)的相关性。
A特征, B对象间, C属性间
三、多选题
大数据发展的四大要素:(ABCE)。
A不同参与主体产生的海量数据信息, B支撑大数据存储和运算的IT基础设施,C实时处理数据的能力,D满足日常业务分析的需要,E挖掘大数据潜在价值数据预处理主要包括(ABDE)等四种方法。
A数据清洗,B数据集成,C数据挖掘,D数据转换,E数据消减大数据产业链的六个主要环节层:IT基础设施层、(AB )、数据分析层、数据平台层、数据应用层。
A数据源层, B数据管理层, C数据存储层,D数据业务层大数据处理关键技术一般包括:(BCD)、大数据展现和应用。
A大数据清洗,B大数据采集与预处理,
C大数据存储与管理,D大数据分析及挖掘四大种类NoSQL(BCDE)。
A SQL数据库,B键值数据库,C列存储数据库,D文档型数据库,E图数据库-
下图中第一行右边是(A)图, 第二行中间是(E)图,第三行右边是(I)图,第四行中间是(K)图。
image.png Spark 四个主要特点:(ABCD)
A运行速度快,B易用性好,C通用性强,D随处运行,E防病毒。云计算主要包括3种类型(ABD )。
A IaaS,B PaaS,C FaaS,D SaaSUMP系统是(ACD)云数据库方案。
A高性能,BOracle,C低成本,D标准的MySQL流计算的处理流程一般包含三个阶段。(ABC)
A数据实时采集,B数据实时计算,C实时查询服务,D通讯服务
