前言 之前本来有一个个人博客,但是因为太懒没有维护,就来投奔CSDN了。这几天突然一时兴起,让好好弄一下自己的个人博客,因为CSDN的广告实在是....一言难尽...搜索了一...
前言 之前本来有一个个人博客,但是因为太懒没有维护,就来投奔CSDN了。这几天突然一时兴起,让好好弄一下自己的个人博客,因为CSDN的广告实在是....一言难尽...搜索了一...
前言 在使用Spark-shell做一些测试时候会产生大量无用的INFO级别的日志,因此想把它们给禁用掉。具体方法如下。 解决方法 - 使用自定义的Log4j.propert...
前言 Driver OutOfMemoryError或Driver Unresponsive是一个非常严重的问题,因为它会使我们的Spark应用程序崩溃。 但这类问题也经常发...
前言 如果你程序中的聚合速度较慢,请先查看 Spark Stragglers/任务执行缓慢部分。 主要症状 在执行 groupby 操作时,任务执行缓慢 聚合操作的后序操作也...
什么是RDD RDD(Resilient Distributed Datasets),弹性分布式数据集,是Spark的基本数据结构。它是一个不可变的分布式对象集合。RDD中的...
前言 在我们提交spark程序时,应该如何为Spark集群配置--num-executors, - executor-memory和--execuor-cores 呢? 一...
什么是Checkpointing Checkpointing可以将RDD从其依赖关系中抽出来,保存到可靠的存储系统(例如HDFS,S3等), 即它可以将数据和元数据保存到检查...
前言 学习Spark源代码的过程中遇到了Typed transformations和Untyped transformations两个概念,整理了以下相关的笔记。对于这两个概...
Spark中的多任务处理 Spark的一个非常常见的用例是并行运行许多作业。 构建作业DAG后,Spark将这些任务分配到多个Executor上并行处理。但这并不能帮助我们在...
访问 http://github.global.ssl.fastly.net.ipaddress.com/#ipinfo 获取github的IP地址 在/etc/hosts中...
写了一个简单脚本用来解决Mac上访问github慢的问题,基本思路如下: 访问 http://github.global.ssl.fastly.net.ipaddress.c...
查看了Anaconda 镜像使用帮助 我们可以通过以下命令为Anaconda添加仓库 然后可以运行 conda install pymongo安装pymongo包交互的包测试...
Homebrew是Mac的软件包管理器,我们可以通过它安装大多数开源软件。但是在使用brew update更新的时候竟然要等待很久。猜测可能是因为brew的官方源被墙或或者响...
前言 之前已经完成了hadoop集群的安装,测试了HDFS的使用,现在准备在此基础上,继续安装Hive。 主要步骤 安装mysql 安装hive 配置hive 安装mysql...
@[TOC] 前言 在Mac上搭建Hadoop环境(1) — 虚拟机的安装及SSH免密设置中,我们已经配置好了节点之间基本的网络环境,接下来,只要在master(MBP)上下...
前言 准备在自己的MBP上搭建一个小的Hadoop集群玩玩,顺便看看会遇到什么坑。初步打算设置三个节点,其中将MBP设置为master节点,另外用虚拟机创建两个slave节点...
虽然在Pyspark中,驱动程序是一个python进程,但是它创建的SparkSession对象以及其他DataFrames或者RDDs等都是利用Python封装过的 JVM...
关于SparkSession 任何Spark程序的第一步都是先创建SparkSession。在Spark-Shell或者其他交互模式中,SparkSession已经预先被创建...
解决方法 访问 http://github.global.ssl.fastly.net.ipaddress.com/#ipinfo 获取github的IP地址github.g...
Spark Application’s Configuration 提示:有关如何配置Spark和用户程序的详细信息,请参阅官方文档中的Spark Configuration...