想要mysql表支持emoji,需要设置表编码为utf8mb4 mysql的字符集的作用域有三个层级一个数据库级,一个是表级,一个是列级(字段级别的)。优先级是:列级>表级>...
想要mysql表支持emoji,需要设置表编码为utf8mb4 mysql的字符集的作用域有三个层级一个数据库级,一个是表级,一个是列级(字段级别的)。优先级是:列级>表级>...
集群中有很多hive任务在执行,某一个任务存在问题时需要分析执行的hive job提交了什么语句,是有办法从hadoop job监控页面查看的 1、点开一个applicati...
房子在高新区舜华南路,华皓汉峪小区2期,两室一厅。距离汉峪金谷,齐鲁软件园近,小区里有幼儿园,旁边是小学,附近有超市公交站,生活设施全。
hive取随机的数据,可以使用rand()函数,用rand()对数据排序,取topN如果要用到分组取随机数,比如每个班级随机取10人,针对这种每个分组取topN的情况,可以使...
elasticsearch.yml中尽量只写必备的参数,其他可以通过api动态设置的参数都通过api来设定 动态设定的参数有transient和persistent两种设置,...
GBK格式内容转码 获取文件路径或文件名 hadoop mr 中使用如下方式 spark 中 获取文件名中的ip信息,并将文件转码
指定查询结果的分隔符 将查询结果放到hdfs目录上,默认的分隔符为不可见字符\001,可以追加参数指定分隔符 Linux下对不可见字符的处理 使用vi 使用sed ^A在终端...
启动hive ThirftServer和hive metastore的需要跟管理员申请keytab
低警戒水位线——默认为磁盘容量的85%。 Elasticsearch不会将分片分配给使用磁盘超过85%的节点。它也可以设置为绝对字节值(如500mb),以防止Elastics...
coalesce()方法和repartition()方法的区别 Spark的RDD是分区的,经过lineage一系列运算之后,比如原始日志1T,filter算子过滤出1G的内...
日志中出现的时间格式如下:[24/Jun/2019:21:00:03 +0800]之前使用的字符串匹配的方式,得到年月日时分秒,转化成习惯的时间格式,有点low java语言...
在一个大表关联小表中遇到数据倾斜的问题,优化方法如下 mapjoin 类似写MR时,将小数据直接放入map缓存,通过mapjoin可以加快执行速度,hive2默认开启此功能,...
权限配置 sgadmin用法(with PEM certificates) 说明: -icl --ignore-clustername -nhnv --disable-hos...
安装Search Guard 和其他的elastic插件安装方式相同,使用elasticsearch-plugin安装search guard 在线安装 需要将<versio...
1. json对象 hive 中有json解析的工具get_json_object 和json_tupple,这里不多做解释,直接传入json类型的参数调用即可 比如以下数据...
有关开窗函数的基本语法参照 参考地址 1.LAG & LEAD LAG(col,n,DEFAULT) 用于统计窗口内往上第n行值LEAD(col,n,DEFAULT) 用于统...
有关开窗函数的基本语法参照 参考地址 1.COUNT 包括类似的SUM、AVG、MIN、MAX,都是用于实现分组内的统计 需求案例:一个目的地,用户可能通过三种路径到达,一天...
1.jdk安装 2.es安装 1.官网获取下载链接,https://www.elastic.co/downloads/elasticsearch2.解压缩3.修改es.yml...