POI 简述


前言:      

        用JavaPOI导出Excel时,我们需要考虑到Excel版本及数据量的问题。针对不同的Excel版本,要采用不同的工具类,如果使用错了,会出现错误信息。Java POI导出Excel有三种形式,他们分别是:

1. HSSFWorkbook :  一般用于Excel2003版及更早版本(扩展名为.xls)的导出。一张表最大支持65536行数据,256列。也就是说excel2003完全不可能满足百万数据导出的需求。但是 可以通过分表进行实现百万数据需求。

2. XSSFWorkbook:   一般用于Excel2007版(扩展名为.xlsx)的导出。一张表最大支持1048576行,16384列;

3. SXSSFWorkbook:  SXSSFWorkbook:是操作Excel2007后的版本,扩展名是.xlsx;大数据量导出格式  可以千万数据级别


简述:

HSSFWorkbook:

        POI导出excel最常用的方式;但是此种方式的局限就是导出的行数至多为65535行,超出65536条后系统就会报错。此方式因为行数不足七万行所以一般不会发生内存不足的情况(   OOM)。

XSSFWorkbook

        这种形式的出现是为了突破HSSFWorkbook的65535行局限。其对应的是excel2007(1048576行,16384列)扩展名为“.xlsx”,最多可以导出104万行,不过这样就伴随着一个问题---OOM内存溢出,原因是你所创建的book sheet row cell等此时是存在内存的并没有持久化。

SXSSFWorkbook

从POI 3.8版本开始,提供了一种基于XSSF的低内存占用的SXSSF方式。对于大型excel文件的创建,一个关键问题就是,要确保不会内存溢出。其实,就算生成很小的excel(比如几Mb),它用掉的内存是远大于excel文件实际的size的。如果单元格还有各种格式(比如,加粗,背景标红之类的),那它占用的内存就更多了。对于大型excel的创建且不会内存溢出的,就只有SXSSFWorkbook了。它的原理很简单,用硬盘空间换内存(就像hash map用空间换时间一样)。

SXSSFWorkbook

         是streaming版本的XSSFWorkbook,它只会保存最新的excel rows在内存里供查看,在此之前的excel rows都会被写入到硬盘里(Windows电脑的话,是写入到C盘根目录下的temp文件夹)。被写入到硬盘里的rows是不可见的/不可访问的。只有还保存在内存里的才可以被访问到。

注意:

SXSSF与XSSF的对比:

a. 在一个时间点上,只可以访问一定数量的数据

b. 不再支持Sheet.clone()

c. 不再支持公式的求值

d. 在使用Excel模板下载数据时将不能动态改变表头,因为这种方式已经提前把excel写到硬盘的了就不能再改了


以下是我做的一个小测试:

分别使用HSSFWorkbook  XSSFWorkbookSXSSFWorkbook  导出10000、20000、30000、40000、50000、60000、100000、150000、200000、500000、1000000条数据。

备注:导出逻辑基本是最简单的,从数据库中取出数据,然后就是写入表中,无复杂逻辑,以下数据仅供参考。

注意:使用HSSFWorkbook在导出超过50000条数据时,使用的是同一个HSSFWorkbook创建多个Sheet实现的,因为HSSFWorkbook每张表(Sheet)中最多只能存65536条数据,为了避免报内存溢出错误,所以控制每张表中存储50000条数据。

数据量/耗时

不同模板导出 数据量/耗时 对比图

总结:

以上数据均为一次性测得,没有进行多次重复测试取平均值,所以数据仅供参考:

根据测试数据我们可以看出:

首先在5万条数据以内:

XSSFWorkbook耗时明显比其他两个耗时长,而HSSFWorkbook和SXSSFWorkbook耗时基本相同。

当数据 大于5万条 小于50万条 时,HSSFWorkbook采用分表策略存储数据时:

       XSSFWorkbook耗时依然明显比其他两个耗时长,但是相比于HSSWorkbook优势就是他的数据在一个表中。而HSSFWorkbook和SXSSFWorkbook耗时基本相同。

当数据大于50万条时:

XSSFWorkbook按照原理来说他的上限是100万左右,但是相比于SXSSFWorkbook来说,还是SXSSFWorkbook耗时最短,所以SXSSFWorkbook更适合处理大数据量。


数据量/文件空间占用

数据量/文件空间占用 图

以上数据均为一次性测得,没有进行多次重复测试取平均值,所以数据仅供参考:

根据测试数据我们可以看出:

        按照上面图示规律可以看出,数据量不断增加情况下,使用三种方式导出excel文件大小呈现平稳上升趋势,最终比较是HSSFWorkbook和SXSSFWorkbook占用空间较小。


总结:

  通过相同数据量情况下 耗时和文件大小的比较,最后还是SXSSFWorkbook性能是比较好的,并且支持大数据量传输。

以上内容纯属个人见解,如有错误或不妥之处请大家不吝赐教。谢谢!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,451评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,172评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,782评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,709评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,733评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,578评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,320评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,241评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,686评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,878评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,992评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,715评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,336评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,912评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,040评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,173评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,947评论 2 355

推荐阅读更多精彩内容