导入excel作为日常开发中最最最常见的需求,可以简单做、也可以复杂做,也有很多很多的成形框架可以用,比如easyexcel、easypoi、jxls等等,各有优劣,大家可以根据业务要求进行选择。本文给出一个大数据量下读取excel的示例,若有需要,可以取源码参考。
造一个100w+的示例文件
引入pom
另外使用了hutool,主打一个懒人,通通加上。
<dependency>
<groupId>com.alibaba</groupId>
<artifactId>easyexcel</artifactId>
<version>4.0.3</version>
</dependency>
<dependency>
<groupId>cn.hutool</groupId>
<artifactId>hutool-all</artifactId>
<version>5.8.22</version>
</dependency>
定义实体类
实体类很简单,主要@ExcelProperty和excel文件中属性对应即可
@Data
public class StudentInfo implements Serializable {
private static final long serialVersionUID = 1L;
private String id;
@ExcelProperty("姓名")
private String name;
@ExcelProperty("年龄")
private int age;
@ExcelProperty("性别")
private String gender;
@ExcelProperty("班级")
private String grade;
private String fileName;
}
编写读取监听
注意:
- 注释里的TODO,需要根据自己的业务进行补充,本文只写了读取excel,没有做数据存储
- 全部读取完的回调方法里需要再保存一次,否则最后一次读取的会漏存;
- invoke方法里可以执行自己对读取数据的其他操作,比如补充其他属性、对象转换等等
@Slf4j
public class StudentReaderListener implements ReadListener<StudentInfo> {
/**
* 每隔5条存储数据库,实际使用中可以100条,然后清理list ,方便内存回收
*/
private static final int BATCH_COUNT = 10000;
/**
* 缓存的数据
*/
private List<StudentInfo> cachedDataList = ListUtils.newArrayListWithExpectedSize(BATCH_COUNT);
private String fileName;
/**
* 如果使用了spring,请使用这个构造方法。每次创建Listener的时候需要把spring管理的类传进来
* 由于示例没有进行数据库操作,这里传了一个文件名作为额外参数示例,传DAO方法雷同
*
* @param fileName
*/
public StudentReaderListener(String fileName) {
this.fileName = fileName;
}
/**
* 这个每一条数据解析都会来调用
*
* @param data one row value. Is is same as {@link AnalysisContext#readRowHolder()}
* @param context
*/
@Override
public void invoke(StudentInfo data, AnalysisContext context) {
// log.info("解析到一条数据:{}", JSONUtil.toJsonStr(data));
// TODO 如果需要对数据设置额外参数,可以在此处处理,比如创建人、创建时间等等
data.setFileName(fileName);
cachedDataList.add(data);
// 达到BATCH_COUNT了,需要去存储一次数据库,防止数据几万条数据在内存,容易OOM
if (cachedDataList.size() >= BATCH_COUNT) {
saveData();
// 存储完成清理 list
cachedDataList = ListUtils.newArrayListWithExpectedSize(BATCH_COUNT);
}
}
/**
* 所有数据解析完成了 都会来调用
*
* @param context
*/
@Override
public void doAfterAllAnalysed(AnalysisContext context) {
// 这里也要保存数据,确保最后遗留的数据也存储到数据库
saveData();
log.info("所有数据解析完成!");
}
/**
* 加上存储数据库
*/
private void saveData() {
log.info("{}条数据,开始存储数据库!", cachedDataList.size());
//todo 执行保存逻辑
log.info("存储数据库成功!");
}
}
main方法(可以改造到你的controller或者service)
最终读取只需要一个文件对象即可,无论是从前端传来的或者后台读取服务器上的均可。
public class EasyExcelDemo {
private static final Logger log = LoggerFactory.getLogger(EasyExcelDemo.class);
public static void main(String[] args) {
ClassLoader classLoader = EasyExcelDemo.class.getClassLoader();
URL resourceUrl = classLoader.getResource("demo/student.xlsx");
File file = new File(resourceUrl.getFile());
long start = System.currentTimeMillis();
EasyExcel.read(file.getAbsoluteFile(), StudentInfo.class,
new StudentReaderListener(file.getName()))
.sheet().doRead();
long end = System.currentTimeMillis();
log.info("文件大小:{}Mb,读取耗时{}ms",file.length()/1024/1024, end - start);
}
}
读取结果
104w数据,16M大小,读取耗时大约8s。也试过47Mb大小文件,带入库约2min30s,根据数据量大小时间会有不同,但是由于此方法是一条一条读取,然后一批一批处理,不会把所有数据加到内存,因此不会OOM,除非每批数据量设置特别大或者你的内存特别小。