IP属地:甘肃
1. 小文件合并综述 1.1 小文件表现 不论是Hive还是Spark SQL在使用过程中都可能会遇到小文件过多的问题。小文件过多最直接的表现是任务执行时间长,查看Spark...
unicode编码范围 获取字符串编码
一、引子 项目中遇到这样一张表:user 要求对这个表按照sid 进行聚合,将所有的id聚合成一个json,所有的tag聚合成一个json。在hive和Spark中,对tag...
kill -HUP pid (pid是主进程的pid)
Kevin Markham,数据科学讲师,2002 年,毕业于范德堡大学,计算机工程学士,2014 年,创建了 Data School,在线教授 Python 数据科学课程,...