今天项目中有个需要 Excel 导出的需求。看了下同事用了 SXSSFWorkbook 。之前没怎么用到这个组件。既然这次用了就简单分析一下。
POI提供了HSSF、XSSF以及SXSSF三种方式操作Excel。他们的区别如下:
HSSF:是操作Excel97-2003版本,扩展名为.xls。
XSSF:是操作Excel2007版本开始,扩展名为.xlsx。
SXSSF:是在XSSF基础上,POI3.8版本开始提供的一种支持低内存占用的操作方式,扩展名为.xlsx。
本文的重点就是分析一下,SXSSF如何支持低内存占用的。
先说结论:
SXSSF 指定了rowAccessWindowSize ,每个sheet 对应一个临时文件,当行数大于rowAccessWindowSize 时,就会向临时文件中flush, 这样就保证了内存的低占用率。当行创建完,直接从临时文件中写入到Excel中。
有一点需要注意:
像单元格合并类似的操作是纯内存操作,如果项目中想一次合并多行时,要注意随时观察自己机器内容的使用情况,避免出现OOM。
1 来个demo
// 内存中保持100条数据, 超出的部分刷新到磁盘上
SXSSFWorkbook wb = new SXSSFWorkbook(100);
Sheet sh = wb.createSheet();
for(int rownum = 0; rownum < 1000; rownum++){
Row row = sh.createRow(rownum);
for(int cellnum = 0; cellnum < 10; cellnum++){
// 创建行,在这儿根据当前行数跟rowAccessWindowSize 比较,来决定从内存写入文件中。
Cell cell = row.createCell(cellnum);
String address = new CellReference(cell).formatAsString();
cell.setCellValue(address);
}
}
// rownum < 900 的数据被刷新到磁盘,不能被随机访问
for(int rownum = 0; rownum < 900; rownum++){
Assert.assertNull(sh.getRow(rownum));
}
// 最后的100条数据仍然在内存中,可以随机访问
for(int rownum = 900; rownum < 1000; rownum++){
Assert.assertNotNull(sh.getRow(rownum));
}
// 从临时文件写入Excel 文件
FileOutputStream out = new FileOutputStream("d:\\sxssf.xlsx");
wb.write(out);
out.close();
// 从磁盘上释放临时文件
wb.dispose();
2 主要分析点
2.1 创建SXSSFWorkbook
如demo所示, SXSSFWorkbook wb = new SXSSFWorkbook(100);
中指定了rowAccessWindowSize 为100 ,也就是说
会在内存中缓存 rowAccessWindowSize 行数据。当行数超过 rowAccessWindowSize ,则会从内存输入到临时文件中。
临时文件的生成在
2.2 创建Sheet
部分 讲一下。超过阈值刷入临时文件在2.3 创建row
部分讲解。
2.2 创建Sheet
如demo所示,Sheet sh = wb.createSheet();
创建了Sheet. 那么创建过程中,主要的功能是创建了一个临时文件。每个sheet 一个临时文件。废话不多说,我们来看下createSheet的实现。
public SXSSFSheet createSheet() {
return this.createAndRegisterSXSSFSheet(this._wb.createSheet());
}
createAndRegisterSXSSFSheet 中最核心的就是 sxSheet = new SXSSFSheet(this, xSheet);
。那我们来看下这个函数:
public SXSSFSheet(SXSSFWorkbook workbook, XSSFSheet xSheet) throws IOException {
this._workbook = workbook;
this._sh = xSheet;
this._writer = workbook.createSheetDataWriter(); // 这儿创建了临时文件。
this.setRandomAccessWindowSize(this._workbook.getRandomAccessWindowSize());
this._autoSizeColumnTracker = new AutoSizeColumnTracker(this);
}
createSheetDataWriter 中核心的逻辑是 SheetDataWriter。看到createTempFile ,这儿就创建了临时文件。
public SheetDataWriter() throws IOException {
this._numberLastFlushedRow = -1;
this._fd = this.createTempFile();
this._out = this.createWriter(this._fd);
}
关于临时文件:
前缀:poi-sxssf-sheet 后缀:.xml
存储路径:代码如下
private void createPOIFilesDirectory() throws IOException {
if (this.dir == null) {
String tmpDir = System.getProperty("java.io.tmpdir");
if (tmpDir == null) {
throw new IOException("Systems temporary directory not defined - set the -Djava.io.tmpdir jvm property!");
}
this.dir = new File(tmpDir, "poifiles");
}
this.createTempDirectory(this.dir);
}
2.3 创建row
什么时间从内存写入文件?就是在创建row时。那我们看下代码:
public SXSSFRow createRow(int rownum) {
int maxrow = SpreadsheetVersion.EXCEL2007.getLastRowIndex();
if (rownum >= 0 && rownum <= maxrow) {
if (rownum <= this._writer.getLastFlushedRow()) {
throw new IllegalArgumentException("Attempting to write a row[" + rownum + "] in the range [0," + this._writer.getLastFlushedRow() + "] that is already written to disk.");
} else if (this._sh.getPhysicalNumberOfRows() > 0 && rownum <= this._sh.getLastRowNum()) {
throw new IllegalArgumentException("Attempting to write a row[" + rownum + "] in the range [0," + this._sh.getLastRowNum() + "] that is already written to disk.");
} else {
SXSSFRow newRow = new SXSSFRow(this);
this._rows.put(rownum, newRow);
this.allFlushed = false;
// 这儿进行了判断,如果当前行数大于randomAccessWindowSize ,则flushRows
if (this._randomAccessWindowSize >= 0 && this._rows.size() > this._randomAccessWindowSize) {
try {
this.flushRows(this._randomAccessWindowSize);
} catch (IOException var5) {
throw new RuntimeException(var5);
}
}
return newRow;
}
} else {
throw new IllegalArgumentException("Invalid row number (" + rownum + ") outside allowable range (0.." + maxrow + ")");
}
}
判断逻辑就在这儿if (this._randomAccessWindowSize >= 0 && this._rows.size() > this._randomAccessWindowSize)
。
下面几部分跟低内存占用没有关系了,只是分析一下在项目中实际用的几个步骤。
2.4 从临时文件写入最终Excel
写入Excel 主要是在workbook.write(out)
。看下代码:
public void write(OutputStream stream) throws IOException {
this.flushSheets(); // 把最后不足randomAccessWindowSize 的行数 写入sheet临时文件。
File tmplFile = TempFile.createTempFile("poi-sxssf-template", ".xlsx"); // 创建了一个tmplFile临时文件,不是sheet的临时文件哈
boolean deleted;
try {
FileOutputStream os = new FileOutputStream(tmplFile);
Throwable var5 = null;
try {
// 这儿将workbook 中所有的数据都写入刚刚创建的tmplFile临时文件中。
this._wb.write(os);
}
...
ZipSecureFile zf = new ZipSecureFile(tmplFile);
var5 = null;
try {
ZipFileZipEntrySource source = new ZipFileZipEntrySource(zf);
Throwable var7 = null;
try {
// 将tmplFile 临时文件写入到目标Excel中。
this.injectData(source, stream);
}
...
} finally {
// 删除tmplFile临时文件。 注意不是sheet的临时文件哈。
deleted = tmplFile.delete();
}
if (!deleted) {
throw new IOException("Could not delete temporary file after processing: " + tmplFile);
}
}
基本逻辑很简洁:
(1)将内存中剩余不足randomAccessSize 数目的数据,先写入sheet 临时文件。
(2)将workbook 中所有的数据(就是多个sheet临时文件)写入一个 刚刚创建的tmpl临时文件
(3)将tmpl临时文件 的数据写入目标文件即可。
2.5 删除临时文件
workbook.dispose();
这儿的逻辑。
public boolean dispose() {
boolean success = true;
Iterator var2 = this._sxFromXHash.keySet().iterator();
// 逐个遍历多个sheet
while(var2.hasNext()) {
SXSSFSheet sheet = (SXSSFSheet)var2.next();
try {
// 这儿的核心是dispose.
success = sheet.dispose() && success;
} catch (IOException var5) {
logger.log(5, new Object[]{var5});
success = false;
}
}
return success;
}
基本的逻辑是,遍历多个sheet, 然后对每个sheet执行dispose . dispose 的逻辑就是如果还没文件没有从sheet中输出,则先flush,然后删除sheet临时文件。
2.6 关于合并单元格的操作
单元格合并的用法:
CellRangeAddress region0 = new CellRangeAddress(rowNum, rowNum+1, column, column);
sheet.addMergedRegion(region0);
这儿就是根据 rowNum 跟column进行合并而已。
private int addMergedRegion(CellRangeAddress region, boolean validate) {
if (region.getNumberOfCells() < 2) {
throw new IllegalArgumentException("Merged region " + region.formatAsString() + " must contain 2 or more cells");
} else {
region.validate(SpreadsheetVersion.EXCEL2007);
if (validate) {
this.validateArrayFormulas(region);
this.validateMergedRegions(region);
}
CTMergeCells ctMergeCells = this.worksheet.isSetMergeCells() ? this.worksheet.getMergeCells() : this.worksheet.addNewMergeCells();
CTMergeCell ctMergeCell = ctMergeCells.addNewMergeCell();
ctMergeCell.setRef(region.formatAsString());
return ctMergeCells.sizeOfMergeCellArray();
}
}
3 总结
本文结合项目中用到的Excel 工具- SXSSFWorkbook ,进行了简单讲解。并针对SXSSFWorkbook 低内存占用部分进行了分析。希望对你有所帮助~
本文同步发布在掘金 https://juejin.im/post/5dfb9ff3e51d455850282d10
欢迎关注~~~
4 参考文献
HSSF、XSSF和SXSSF区别以及Excel导出优化
https://www.cnblogs.com/pcheng/p/7485979.html
基于流的EXCEL文件导出,SXSSFWorkbook源码解析
https://www.jianshu.com/p/b80a20b8114e