Java菜谱(四)——怎么将10万条数据导出到excel?

今天的菜品是这样的:

怎么将10万条数据导出到excel?

太长不看版

  • xls格式最多可以存65536行数据,而xlsx格式最多可以存1048576行数据
  • 用SXSSFWorkbook代替XSSFWorkbook,即可避免大量数据导出到excel导致的内存溢出问题(OOM)

下面是正文:

起因

有同事在做导出excel功能时,在数据量达到10万左右的时候,遇到了OOM(OutOfMemory,内存溢出)的问题,经分析是对象占用内存过大导致了堆内存空间不足。

进一步分析问题

那么究竟什么对象占用的内存过大呢?

是在List中存储的10万个对象么?为了搞清楚这个问题,我们需要知道在Java中一个对象大致占用多大的内存。这个问题相对来讲比较复杂,有不少文章都讨论了这一问题,我们在这里略过细节,只说一个比较粗糙的结论:一个不太复杂的对象在内存中占用的空间大概是100B~1KB之间。那么也就是说10万个对象的内存消耗大约是10MB~100MB。这点内存对于现代计算机来说可以说是洒洒水。也就是说,并非10万个对象本身导致了OOM的发生。

接下来我们就应该考虑是Excel导出过程中发生了OOM。通过查阅资料,我们了解到Excel是一种基于xml的文档结构,poi在处理excel文档(xlsx格式)时,其内存模型决定了其对于excel的大多数关键组件(行、单元格、样式等等),都需要有一个对应的xssf对象以及一个辅助的xmlbeans对象。所有的XSSF类的读写都是通过读写底层的xmlbeans对象来实现的。因此,在使用poi进行excel读写的过程中,会产生大量的xmlbeans对象。这可能才是导致OOM的真凶。

接下来我们希望借助工具来验证上面的假设。这里我们采用visual vm组件来实时观察应用运行过程中的内存占用情况。在JDK8版本之前,visual vm随JDK包一起发布,在JDK8之后,需要单独进行下载。在应用执行过程中,我们通过采样器对内存进行采样,结果如下:

采样结果

通过采样结果,我们可以看到:
org.apache.xmlbeans.impl.store.XobjElementXobj和org.apache.xmlbeans.impl.store.XobjAttrXobj对象占用的内存最多,分别占用了1.2G和0.9G多的内存,它们都是poi在进行excel读写过程中产生的对象,存活对象的数量为上千万个。由于采样时间是发生在OOM之前,这里内存占用还没有达到很夸张的级别,但是这两个对象的数量和内存占用的确在迅猛的上涨。由此可以断定,OOM是poi处理大量excel数据写入的过程中发生的。

问题解决

定位到了问题,其实解决问题特别容易。通过查阅poi的文档,我们了解到poi专门创建了一个用于大数据量读写的流式版本的XSSFWorkbook,称之为SXSSFWorkbook。它的原理也很简单,以硬盘空间换内存,只在内存中保留一小部分数据,其余数据都写入硬盘文件中。但是对于合并单元格、注释等信息,仍然存放在内存中。

代码层面修改更简单了,只要创建Workbook时把实现类由XSSFWorkbook替换为SXSSFWorkbook即可。示例代码如下:

Instant start = Instant.now();

        List<Student> students = new ArrayList<>();
        Random random = new Random();
        for (int i = 0; i < 1000_000; i++) {
            final Student student = Student.builder()
                    .id(String.valueOf(i))
                    .name("stu" + i)
                    .age(random.nextInt(5) + 20)
                    .gender(random.nextInt(2))
                    .score((double) (50 + random.nextInt(50)))
                    .classNumber(random.nextInt(10) + 1)
                    .build();
            students.add(student);
        }
        System.out.println("当前耗时:" + Duration.between(start, Instant.now()).toMillis() + "ms");
        System.out.println(students.size());

        Workbook workbook = new SXSSFWorkbook();
        final Sheet sheet = workbook.createSheet("students");

        Row row = sheet.createRow(0);
        Cell cell = row.createCell(0);
        cell.setCellValue("ID");

        cell = row.createCell(1);
        cell.setCellValue("姓名");

        cell = row.createCell(2);
        cell.setCellValue("年龄");

        cell = row.createCell(3);
        cell.setCellValue("性别");

        cell = row.createCell(4);
        cell.setCellValue("成绩");

        cell = row.createCell(5);
        cell.setCellValue("班级");

        for (int i = 0; i < students.size(); i++) {
            row = sheet.createRow(i + 1);
            cell = row.createCell(0);
            cell.setCellValue(students.get(i).getId());

            cell = row.createCell(1);
            cell.setCellValue(students.get(i).getName());

            cell = row.createCell(2);
            cell.setCellValue(students.get(i).getAge());

            cell = row.createCell(3);
            cell.setCellValue(students.get(i).getGender());

            cell = row.createCell(4);
            cell.setCellValue(students.get(i).getScore());

            cell = row.createCell(5);
            cell.setCellValue(students.get(i).getClassNumber());
        }

        System.out.println("当前耗时:" + Duration.between(start, Instant.now()).toMillis() + "ms");

        workbook.write(Files.newOutputStream(Paths.get("src", "main", "resources", "students.xlsx")));
        System.out.println("当前耗时:" + Duration.between(start, Instant.now()).toMillis() + "ms");

最后说明几点

  • xls格式(poi中对应HSSF实现)最多支持65536行数据,xlsx格式(poi中对应XSSF实现)最多支持1048576行数据。如果不是有特殊要求,建议无脑选择xlsx格式。
  • 使用poi处理excel时,一个好的习惯是只有构造Workbook的时候使用实现类的构造器,其余一律使用接口,因为poi会自动为我们匹配对应版本的实现类,这样后续代码修改更加方便。
  • 虽然List等数据结构中可以存放下10万条甚至100万条数据,但是大多数情况下不推荐这样做,因为被List引用的数据都没有办法被GC回收掉。像导出excel这类的需求,使用到较大数据量时,我们可以根据实际情况考虑分多次完成。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,504评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,434评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,089评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,378评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,472评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,506评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,519评论 3 413
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,292评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,738评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,022评论 2 329
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,194评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,873评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,536评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,162评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,413评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,075评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,080评论 2 352

推荐阅读更多精彩内容