大闪电啊 - 简书

发简信

1
关注
1
粉丝
23
文章
5903

字数
9

收获喜欢
3

总资产

IP属地：北京

大闪电啊

mysql导入emoji数据乱码
想要mysql表支持emoji，需要设置表编码为utf8mb4 mysql的字符集的作用域有三个层级一个数据库级，一个是表级，一个是列级（字段级别的）。优先级是：列级>表级>...

730 0 0
大闪电啊

yarn任务监控页面查看SQL内容
集群中有很多hive任务在执行，某一个任务存在问题时需要分析执行的hive job提交了什么语句，是有办法从hadoop job监控页面查看的 1、点开一个applicati...

3277 0 1

大闪电啊

房屋出租
房子在高新区舜华南路，华皓汉峪小区2期，两室一厅。距离汉峪金谷，齐鲁软件园近，小区里有幼儿园，旁边是小学，附近有超市公交站，生活设施全。

75 0 0
大闪电啊

hive分组取随机数
hive取随机的数据，可以使用rand()函数，用rand()对数据排序，取topN如果要用到分组取随机数，比如每个班级随机取10人，针对这种每个分组取topN的情况，可以使...

7808 0 0
大闪电啊

Thea_Chen
写了 30254 字，被 316 人关注，获得了 329 个喜欢

分享数据、产品、设计、商业、想法。<br>MP：Thea 的若干好奇
大闪电啊

动态参数设定
elasticsearch.yml中尽量只写必备的参数，其他可以通过api动态设置的参数都通过api来设定动态设定的参数有transient和persistent两种设置，...

533 0 0
大闪电啊

常用文件处理方法
GBK格式内容转码获取文件路径或文件名 hadoop mr 中使用如下方式 spark 中获取文件名中的ip信息，并将文件转码

709 0 0

大闪电啊

Hive不可见字符的处理
指定查询结果的分隔符将查询结果放到hdfs目录上，默认的分隔符为不可见字符\001，可以追加参数指定分隔符 Linux下对不可见字符的处理使用vi 使用sed ^A在终端...

2670 0 0
大闪电啊

hive开启kerberos配置
启动hive ThirftServer和hive metastore的需要跟管理员申请keytab

1591 0 0
大闪电啊

es 基于磁盘的shard分配参数
低警戒水位线——默认为磁盘容量的85％。 Elasticsearch不会将分片分配给使用磁盘超过85％的节点。它也可以设置为绝对字节值（如500mb），以防止Elastics...

1710 0 0
大闪电啊

coalesce()方法和repartition()方法的区别
coalesce()方法和repartition()方法的区别 Spark的RDD是分区的，经过lineage一系列运算之后，比如原始日志1T，filter算子过滤出1G的内...

1334 0 0
大闪电啊

日期处理
日志中出现的时间格式如下：[24/Jun/2019:21:00:03 +0800]之前使用的字符串匹配的方式，得到年月日时分秒，转化成习惯的时间格式，有点low java语言...

212 0 0

大闪电啊

hive 数据倾斜优化
在一个大表关联小表中遇到数据倾斜的问题，优化方法如下 mapjoin 类似写MR时，将小数据直接放入map缓存，通过mapjoin可以加快执行速度，hive2默认开启此功能，...

194 0 0
大闪电啊

search guard配置
权限配置 sgadmin用法(with PEM certificates) 说明： -icl --ignore-clustername -nhnv --disable-hos...

1561 0 0
大闪电啊

search guard安装
安装Search Guard 和其他的elastic插件安装方式相同，使用elasticsearch-plugin安装search guard 在线安装需要将<versio...

2531 0 1
大闪电啊

hive 中实现对json格式数据的解析
1. json对象 hive 中有json解析的工具get_json_object 和json_tupple,这里不多做解释,直接传入json类型的参数调用即可比如以下数据...

9968 1 2
大闪电啊

窗口函数示例2-lag：
有关开窗函数的基本语法参照参考地址 1.LAG & LEAD LAG(col,n,DEFAULT) 用于统计窗口内往上第n行值LEAD(col,n,DEFAULT) 用于统...

1211 0 0

大闪电啊

窗口函数示例1-count：
有关开窗函数的基本语法参照参考地址 1.COUNT 包括类似的SUM、AVG、MIN、MAX，都是用于实现分组内的统计需求案例：一个目的地，用户可能通过三种路径到达，一天...

1432 0 1
大闪电啊

ES cluster安装
1.jdk安装 2.es安装 1.官网获取下载链接，https://www.elastic.co/downloads/elasticsearch2.解压缩3.修改es.yml...

606 0 0

暂无个人介绍