![240](https://cdn2.jianshu.io/assets/default_avatar/15-a7ac401939dd4df837e3bbf82abaa2a8.jpg?imageMogr2/auto-orient/strip|imageView2/1/w/240/h/240)
Job 物理执行图 在 Overview 里我们初步介绍了 DAG 型的物理执行图,里面包含 stages 和 tasks。这一章主要解决的问题是: 给定 job 的逻辑执行...
前提工作:先在 www.freenom.com 上申请一个免费的域名,域名与自己的服务器ip绑定 搭建nginx服务器(添加php支持) 安装nginx与php-fpm> s...
Spark基础 几个重要的概念: RDD:是弹性分布式数据集(Resilient Distributed Dataset)的简称,是分布式内存的一个抽象概念,提供了一种高度受...
分治法 总体思想是先根据Hash函数将一个内存难以一次性读取的大文件分散到若干小文件中(其中相同的数据会被hash到同一个小文件中),然后对每一个小文件的数据进行处理,再进行...