JobManager 控制一个应用程序执行的主进程,每个应用程序将由不同的JobManager控制执行。JobManager会先接收到要执行的应用程序,包括作业图(JobGr...
执行的几个阶段 Driver是用户编写的数据处理逻辑,包含用户创建的SparkContext。SparkContext是用户逻辑与Spark集群主要的交互接口,会和Clust...
一个应用程序要从Kafka主题读取消息,需要创建一个消费者对象,订阅主题并接收消息。单个消费者跟不上消息生成速度,对消费者横向扩展,可使用多个消费者从同一主题读取消息,对消息...
生产者向Kafka发送消息,需要创建一个ProducerRecord对象,包含目标主题和要发送的内容,还可指定键或分区。(Topic,Partition,Key,Value)...
Kafka使用Zookeeper保存集群的元数据信息和消费者信息。每个broker都有一个标识符,broker.id,这个值在整个Kafka集群中必须唯一。Kafka通过分区...
Hive是将一个现有的数据基础架构转移到Hadoop上,而这个基础架构是基于传统关系型数据库和结构化查询语句的(SQL)。Hadoop对Hive的限制就是Hive不支持记录级...
spark本身是基于批处理模式的原因,并不能完美高效处理原生的数据流,因此对流式处理计算支持较弱。有状态流计算架构,状态就是计算过程中产生的中间计算结果,每次计算新的数据进入...
索引是存储引擎用于快速找到记录的一种数据结构。在数据量较小且负载较低时,不恰当的索引对性能的影响可能还不明显,但当数据量逐渐增大时,性能会急剧下降。索引优化应该是对查询性能优...
选择优化的数据类型 尽量使用可以正确存储数据的最小数据类型。要确保没有低估需要存储的值的范围,在schema中的多个地方增加数据类型的范围是非常耗时的操作。使用内建类型而不是...
TCP和IP等下层协议是不依赖于上层应用类型、适用性非常广的协议。应用层协议是为了实现某种应用而设计和创造的协议。 远程登录 telnet利用tcp的一条连接,通过这条连接向...
传输层必须指出具体的应用程序,使用端口号作为识别码,识别在传输层上一层的应用层中所要进行处理的具体程序,即该服务端的守护进程。例如http的服务端程序是httpd。使用TCP...
帧的格式14个字节,目标MAC地址,源MAC地址,类型,数据,FCS。FSC位于帧末尾,4个字节,用于检验帧是否损坏。保存着整个帧除以生成多项式的余数。在接收端也用同样方法计...
LAN:局域网,多台主机连接到交换机上形成一个LANWAN:广域网,多个LAN的交换机连接到路由器上,路由器之间相连形成WAN协议就是计算机与计算机之间通过网络实现通信时事先...
如何确定服务器是否已经达到了性能最佳的状态?找出某条语句为什么执行不够快?诊断被用户描述成停顿,卡死的间歇性疑难故障 性能优化 数据库服务器的性能用查询的响应时间来度量,单位...
MySQL最重要的特性是它的存储引擎架构,这种架构的设计将查询处理及其他系统任务和数据的存储/提取相分离。这种处理和存储分离的设计可以在使用时根据性能、特性以及其他需求来选择...
执行分布式计算和任务处理 split 读取数据,一个map任务处理一个分片,通常一个分片对应一个HDFS文件Block。 Map 将Job分解为多个map task,数据并行...
本质思想是将jobtracker资源管理和作业调度分为两个进程。 hadoop1.0 1.客户端向jobtracker发送作业请求2.jobtracker返回给客户端一个作业...
特点 主从架构,数据一次写入多次读取,不支持并发写入,一个文件只能有一个写入者。不支持低延迟的数据访问。不适合大量小文件的存储,因为每存储一个文件NN都要记录元数据信息,会占...
 
  Driver Spark驱动器,用于执行Spark应用程序中的main方法,主要负责:1.将代码转换为job2.在executor之间调度task3.跟踪executor的执...