最近因为一个项目需要在已经存在的word模板的指定地点插入图片,而且项目采用的是java,然而我对Java并不太熟,网上的资料大多是在生成模板的时候添加图片,我折腾了挺久才解决这个问题,在此记录下来。
微软在MS Office 2007之后开始推出了.docx格式的word文档,推行ooxml(office open xml),也就是结合zip技术和xml技术来存储word文档。对docx文档进行操作本质上就是对xml文件在进行操作,这样思路要清晰一点。百度发现大多数资料都是采用POI,然而又有人说POI在插入图片的时候有bug,于是换google,发现了一个叫docx4j的包,但是中文资料较少,作为一个大学四级都考了N次的人来说(泪目)。。。
jdk版本:1.8
docx4j版本:3.3.1
MS Office版本:MS Office 2016 for mac
思路
- 首先在word模板中需要添加图片的地方添加书签,这个书签就作为定位的依据。
- 然后在java中找到这个书签,一般来说书签都是处于一个段落中,然后找到这个书签的父级段落,把图片加入到这个段落中就可以了。
代码
public static void main(String[] args) throws Exception {
// 模板文件路径
String templatePath = "template.docx";
// 生成的文件路径
String targetPath = "target.docx";
// 书签名
String bookmarkName = "bookmark";
// 图片路径
String imagePath = "image.jpg";
// 载入模板文件
WordprocessingMLPackage wPackage = WordprocessingMLPackage.load(new FileInputStream(templatePath));
// 提取正文
MainDocumentPart mainDocumentPart = wPackage.getMainDocumentPart();
Document wmlDoc = (Document) mainDocumentPart.getJaxbElement();
Body body = wmlDoc.getBody();
// 提取正文中所有段落
List<Object> paragraphs = body.getContent();
// 提取书签并创建书签的游标
RangeFinder rt = new RangeFinder("CTBookmark", "CTMarkupRange");
new TraversalUtil(paragraphs, rt);
// 遍历书签
for (CTBookmark bm:rt.getStarts()) {
// 这儿可以对单个书签进行操作,也可以用一个map对所有的书签进行处理
if (bm.getName().equals(bookmarkName)){
// 读入图片并转化为字节数组,因为docx4j只能字节数组的方式插入图片
InputStream is = new FileInputStream(imagePath);
byte[] bytes = IOUtils.toByteArray(is);
// 穿件一个行内图片
BinaryPartAbstractImage imagePart = BinaryPartAbstractImage.createImagePart(wPackage, bytes);
// createImageInline函数的前四个参数我都没有找到具体啥意思,,,,
// 最有一个是限制图片的宽度,缩放的依据
Inline inline = imagePart.createImageInline(null, null, 0,1, false, 800);
// 获取该书签的父级段落
P p = (P)(bm.getParent());
ObjectFactory factory = new ObjectFactory();
// R对象是匿名的复杂类型,然而我并不知道具体啥意思,估计这个要好好去看看ooxml才知道
R run = factory.createR();
// drawing理解为画布?
Drawing drawing = factory.createDrawing();
drawing.getAnchorOrInline().add(inline);
run.getContent().add(drawing);
p.getContent().add(run);
}
}
wPackage.save(new FileOutputStream(targetPath));
}
docx4j的好处在于可以完全跨平台、开源免费、不需要安装office也可用,而且它还支持maven管理:
<dependency>
<groupId>org.docx4j</groupId>
<artifactId>docx4j</artifactId>
<version>3.3.1</version>
</dependency>
docx4j给出了很多例子,很多需求都可以通过阅读示例代码解决。