public static String getWordAndPdfContent(File file) throws Exception {
String content = "";
if (file.getName().endsWith("doc")) {//读取word,doc格式
WordExtractor extractor = new WordExtractor(new FileInputStream(file));
content = extractor.getText();
} else if (file.getName().endsWith("docx")) {//docx格式
OPCPackage opcPackage = POIXMLDocument.openPackage(file.getPath());
POIXMLTextExtractor extractor = new XWPFWordExtractor(opcPackage);
content = extractor.getText();
opcPackage.close();
} else if (file.getName().endsWith("pdf")) {//读取pdf格式文件
PDDocument document = PDDocument.load(file);
if (!document.isEncrypted()) {//是否加密
PDFTextStripperByArea stripperByArea = new PDFTextStripperByArea();
stripperByArea.setSortByPosition(true);
PDFTextStripper stripper = new PDFTextStripper();
// System.out.println(stripper.getPageStart()+"#################");
content = stripper.getText(document);
System.out.println(content);
}
document.close();
}
return content;
}
java读取word和pdf文件
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- 1.通过文件类的creatNewFile()方法创建文件,通过delete()方法删除文件,使用renameTo(...
- /* * Properties(配置文件类) * 作用:用于生成配置文件与读取配置文件的信息;基于Hash表来存储...
- 文/科技野史 一键将PDF文件转换成Word、Excel、PPT等Office文件。网上的工具最多只能转5页,今天...
- DocViewer(文档/文件查看器) Function Description 文档查看器(Word && Ex...