java读取word和pdf文件

public static String getWordAndPdfContent(File file) throws Exception {

        String content = "";
        if (file.getName().endsWith("doc")) {//读取word,doc格式
            WordExtractor extractor = new WordExtractor(new FileInputStream(file));
            content = extractor.getText();
        } else if (file.getName().endsWith("docx")) {//docx格式
            OPCPackage opcPackage = POIXMLDocument.openPackage(file.getPath());
            POIXMLTextExtractor extractor = new XWPFWordExtractor(opcPackage);
            content = extractor.getText();
            opcPackage.close();
        } else if (file.getName().endsWith("pdf")) {//读取pdf格式文件
            PDDocument document = PDDocument.load(file);
            if (!document.isEncrypted()) {//是否加密
                PDFTextStripperByArea stripperByArea = new PDFTextStripperByArea();
                stripperByArea.setSortByPosition(true);
                PDFTextStripper stripper = new PDFTextStripper();
//                System.out.println(stripper.getPageStart()+"#################");
                content = stripper.getText(document);
                System.out.println(content);
            }
            document.close();
        }

        return content;
    }
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容