240 发简信
IP属地:重庆
  • 120
    Spark详解03Job 物理执行图

    Job 物理执行图 在 Overview 里我们初步介绍了 DAG 型的物理执行图,里面包含 stages 和 tasks。这一章主要解决的问题是: 给定 job 的逻辑执行...

  • 120
    Ubuntu16下配置自己的web服务器(nginx+php-fpm)

    前提工作:先在 www.freenom.com 上申请一个免费的域名,域名与自己的服务器ip绑定 搭建nginx服务器(添加php支持) 安装nginx与php-fpm> s...

  • Spark基础

    Spark基础 几个重要的概念: RDD:是弹性分布式数据集(Resilient Distributed Dataset)的简称,是分布式内存的一个抽象概念,提供了一种高度受...

  • 海量数据处理问题

    分治法 总体思想是先根据Hash函数将一个内存难以一次性读取的大文件分散到若干小文件中(其中相同的数据会被hash到同一个小文件中),然后对每一个小文件的数据进行处理,再进行...