登录注册写文章

工作琐记（一）

梦想家小洋

工作琐记（一）

背景：
PM 总会提一些数据需求，有的数据跑一个 hive 语句也就出来了，在 excel 整理一下，就可以发给 PM 了，但是有的数据需要对多个数据文件做整合操作，这时候该怎么办呢？总结了一些常用的操作，以一个例子的形式展现给大家。

两份文件，名称和内容如下：
文件t1.log
2
4
5
1
2
3

文件t2.log
2
34
5
56
6
1
3
4
56
4
2

得到两个文件的并集数据

思路：合并—排序—去重
sort -n t1.log t2.log | uniq
结果
1
2
3
4
5
6
34
56

得到两个文件的交集数据

思路：连个文件分别去重得到2个新文件—合并—去重--判断重复次数大于1
sort -n t1.log | uniq > uniq_t1.log
sort -n t2.log | uniq > uniq_t2.log
sort -n uniq_t1.log uniq_t2.log | uniq -c |awk '$1>1 {print $2}'
结果
1
2
3
4
5

只在文件1中存在的结果

diff -y uniq_t1.log uniq_t2.log | awk '/<|\\|/ '
结果
空

只在文件2中存在的结果

diff -y uniq_t1.log uniq_t2.log | awk '/>|\\|/ ' | awk '{print ($1~/\\>/?$3:$2)}'
结果
6
34
56

最后编辑于：2017.12.03 02:33:29

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

2017年11月，工作琐记（一）
01 应该是11月4日吧，安老师回了省城的家，还没有返回。我照例坐在他的座位上——柔软可旋转的老板椅，用着他27寸...
慢世人阅读 1,469评论 0赞 0
linux资料总章
linux资料总章2.1 1.0写的不好抱歉但是2.0已经改了很多但是错误还是无法避免以后资料会慢慢更新大...
数据革命阅读 14,182评论 2赞 33
Shell 在手分析服务器日志不愁
转自: https://wujunze.com/server_logs_analysis.jsp 2017-06-...
鲸息_Leon阅读 3,325评论 0赞 0
三十分钟学会AWK
转载原文的排版和内容都更加友好,并且详细,我只是在这里贴出了一部分留作自己以后参考和学习,如希望更详细了解AWK...
XKirk阅读 8,488评论 2赞 25
什么鬼
两年说完就完，然而，然而什么我也不知道呀。是啊都周三了吧。这个周又过了一半了吧。不准记关于这周了，惯的，真是...
bu良青阅读 1,456评论 0赞 1

赞1赞

赞赏

手机看全文