登录注册写文章

JAVA 如何实现大文本去除重复行

JAVA 如何实现大文本去除重复行

去重复行，用SQL写很简单，就一句SELECT DISTINCT … FROM。但是文件上没法直接用SQL了，想用SQL还得找个数据库先建表，也很麻烦。如果是小文件，那用java对付一下也不太费劲，大概这样：

String file ="d:/urls.txt";

ArrayList result = new ArrayList();

BufferedReader br=null;

try{

br = new BufferedReader(new FileReader(file));

String row = br.readLine();

while(row!=null){

if(!result.contains(row)){

result.add(row);

}

row = br.readLine();

}

}finally{

if(br!=null)

try {

br.close();

} catch (IOException e) {

}

}

但如果是大文件，这代码肯定崩了。这时候得用文件做缓存，或者先排序，总之都非常麻烦。

这种情况，如果有集算器就省事多了，用SPL只要一句话：

file("d:/urls.txt").cursor().groupx(#1).fetch()

甚至还可以直接对着文件写SQL：

$select distinct #1 from d:/urls.txt

集算器和SPL不仅能对文本做去重，还有很多运算都可以做，其中大多数查询还能直接用SQL，可以参考：SPL 结构化文本计算

SPL也能很方便地嵌入到JAVA应用，可参考：Java 如何调用 SPL 脚本

具体使用方法可参考：如何使用集算器

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Java初级面试题
1. Java基础部分基础部分的顺序：基本语法，类相关的语法，内部类的语法，继承相关的语法，异常的语法，线程的语...
子非鱼_t_阅读 31,760评论 18赞 399
100家大公司java笔试题汇总(带答案)
一：单选题 1.下列哪一种叙述是正确的（D） A．abstract修饰符可修饰字段、方法和类 B．抽象方法的bo...
java耿阅读 1,873评论 0赞 2
Java实现对文本文件MD5加密并ftp传送到远程主机目录
需求描述：如果想学习Java工程化、高性能及分布式、深入浅出。微服务、Spring，MyBatis，Netty源...
程序员日常填坑阅读 265评论 0赞 0
Java实现文本文件MD5加密并ftp上传到远程主机
需求描述：客户出完账之后需要把出账的数据以文本文件的方式传送给收入管理系统，客户以前是通过本地的一个工具软件上传...
钟子敬07阅读 1,564评论 0赞 0
家长会谈合作
久违的晴天，家长会。家长大会开好到教室时，离放学已经没多少时间了。班主任说已经安排了三个家长分享经验。放学铃声...
飘雪儿5阅读 7,563评论 16赞 22

赞1赞

赞赏

手机看全文