(由于平台限制,公式无法正常显示,更好排版请访问我的博客:https://tianle.me/2017/12/12/jd/)项目源代码:https://github.com/...
(由于平台限制,公式无法正常显示,更好排版请访问我的博客:https://tianle.me/2017/12/12/jd/)项目源代码:https://github.com/...
一. 基础知识 1. 哈希函数 经典的哈希函数有MD5, SHA1等, 不是必须掌握, 可以适当了解. 2. map-reduce 原理展现: 使用word-count案例 ...
配置 源码 具体可以参见yarn.Client.scala#L87,这边用去读取参数设置ApplicationMaster的对应核数。 具体可以参见yarn.Client.s...
引子 有一天,一个客户带着下面StackOverFlow错误栈来找我,简单的主诉之后发现应该是shuffle wtrite阶段写中间文件的时候序列化发生了死循环。 客户:xs...
技术的世界正在爆炸式发展,“日新月异”不再是一个修辞,而是正在发生的现实。在这其中,有一些发展趋势注定要改变世界,改变我们的生活方式。在此,我们借鉴美国大数据专家Bernar...
直接用rdd.isEmpty判断rdd是否为空不行吗?
19 Spark Streaming中空RDD的处理在Spark Streaming中,job不断的产生,有时候会产生一些空RDD,而基于这些空RDD生成的job大多数情况下是没必要提交到集群执行的。执行没有结果的job,就是...
写的很不错,多谢分享!
15 Spark Streaming源码解读之No Receivers彻底思考Spark Streaming在企业级使用中,一般会使用no receiver的方式读取数据,对应kafka中的Direct方式,采用no receiver的方式可以提高数据...
we are all in the gutter,but some of us are looking at the stars. --王尔德Just For M 为了更方便...
机器学习的套路 大部分机器学习算法(包括深度学习),其实是在一个理想空间里(接下来我们会以三维空间为例子)寻找一个最大/最小值。三维空间是无限大的,在某个实际场景,假设我们有...