今天遇到spark碰到了一个报错,觉得比较奇怪,如下: 可以看出实际input的数据量相当小。 但却会报total size of serialized results of...

今天遇到spark碰到了一个报错,觉得比较奇怪,如下: 可以看出实际input的数据量相当小。 但却会报total size of serialized results of...
一、关于蜂窝网络的IP变动(IPV4) 重新接入会变,切换区域会变,同一区域切换基站不变。 查看蜂窝IP方法:手机浏览器访问百度,搜索ip 1. 重新发起接入,ip会改变 重...
持续部署的前提是模块化设计、自动化测试和持续集成。使用好 Git 的分支(branch)与整合(integrate)功能,有利于高效率的持续集成。Pro Git 关于 分支 ...
Hadoop监控页面查看Hive的完整SQL hive查询语句如下: select t6.tickerid tickerid, t6.name name, t6.sym...
工作中这个问题碰到好几次了,好多同事对这地方也有点模糊,啥是调度规则(scheduling rule),啥是调度策略(scheduling policy),加上CDH本身有个...
因为DataNode和RegionServer通常会部署在相同的机器上,所以会产生Locality这样的概念。 HBase的Locality是通过HDFS的Block复制实现...
打包方法方法一:使用maven-jar-plugin和maven-dependency-plugin方法二:使用maven-assembly-plugin (推荐)方法三:使...
hbase公司用的是阿里云的,有自带的web网页版可以查看相关的一些数据,但是并不能查看具体表中的数据。像mysql,redis等等,都是有一些可视化工具的,redis用cl...
在使用spark-submit提交Spark任务一般有以下参数: 其中deploy-mode是针对集群而言的,是指集群部署的模式,根据Driver主进程放在哪分为两种方式:c...
如何快速搞懂一家公司 公司研究可以成为你认识世界的一扇门,它结合了宏观、中观和微观,既能帮助你理性判断大趋势,也能培养你以小见大的能力。在这个过程中,你看人、看事的眼光都会变...
大数据部门,在各个IT公司,似乎都有点神秘?他们究竟都在干啥?根据个人经验,科普一下,如有偏颇,不够专业,见谅~ Part 1 在IT公司里,大数据部门的成员,一般可分为4种...
一speculative简介 在spark作业运行中,一个spark作业会构成一个DAG调度图,一个DAG又切分成多个stage,一个stage由多个Tesk组成,一个sta...
在项目中偶尔会有这种需求,用户通过第三方系统登录时如果尚未注册,则自动给用户注册,注册过的用户则自动登录,更新最近登录时间等信息。有时候图省事可能就直接INSERT INTO...
1. SALT_BUCKETS 2. Pre-split 3. 分列族 4. 使用压缩 5. 二级索引 6.参数优化
总结一下个人看了一些Spark性能调优文章之后的理解,主要框架来自于meituantech,会在此框架上加入个人关注点,目录如下, Overview Spark的瓶颈一般来自...
python 2.7 pdb官方文档:https://docs.python.org/2.7/library/pdb.html pdb是ptyhon内置的一个调试库,是调试p...
文章是半年前动笔的,开篇是这样的: 晓菲最近碰上一朵桃花。两人微信里的撩人手段一个赛一个,都是直线球。 但不知道故事会怎么走,公司要调她回北方。异地且是看不到终点的异地,把这...
所有的用法是控制显示隐藏的flag的起名的时候都加一个flag.驼峰命名法。 step 1 放一个空块 <view class='mask'></view> step2 ...