Java讀取Excel、docx、pdf和txt等文件萬能方法舉例

更新時(shí)間：2024年09月11日 11:12:03 作者：qq_32885471

在Java開發(fā)中處理文件是常見需求,本文以實(shí)際代碼示例詳述如何使用ApachePOI庫(kù)及其他工具讀取和寫入Excel、Word、PDF等文件,介紹了ApachePOI、ApachePDFBox和EasyExcel等庫(kù)的使用方法,幫助開發(fā)者有效讀取不同格式文件,需要的朋友可以參考下

前言

在 Java 開發(fā)中，我們經(jīng)常需要讀取不同類型的文件，包括 Excel 表格文件、"doc" 和 "docx" 文檔文件、PDF 文件以及純文本文件。

其中最常用的是 Apache POI 庫(kù)。Apache POI 是一個(gè)流行的 Java 庫(kù)，提供了許多 API 來讀取和寫入 Microsoft Office 文檔，包括 Excel、Word 和 PowerPoint 等。

本文將介紹如何使用 Java 讀取這些不同類型的文件。（本文的方法可供參考，還有其它方法讀者自行查閱。）

1.舉個(gè)栗子

以下是本人在開發(fā)過程中，讀取"doc"、"docx"、"pdf" 和 "txt" 文件的代碼例子，后面將詳細(xì)解釋。

txt文件讀取不多說，用流讀取。

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import org.apache.poi.hwpf.extractor.WordExtractor;
import org.apache.poi.xwpf.extractor.XWPFWordExtractor;
import org.apache.poi.xwpf.usermodel.XWPFDocument;

//fileExtension文件后綴名
private String readFileContent(MultipartFile file, String fileExtension) throws IOException {  
    byte[] fileBytes = file.getBytes();  
    if (fileBytes.length == 0){  
        throw new BusinessException(ResultCodeEnum.FILE_CONTENT_IS_EMPTY);  
    }  
    switch (fileExtension) {  
        case "txt":  
            return new String(fileBytes, StandardCharsets.UTF_8);  
        case "pdf":  
            try (PDDocument doc = PDDocument.load(file.getInputStream())) {  
            PDFTextStripper textStripper = new PDFTextStripper();  
            return textStripper.getText(doc);  
            }  
        case "docx":  
            try (InputStream stream = file.getInputStream()) {  
            XWPFDocument xdoc = new XWPFDocument(stream);  
            XWPFWordExtractor extractor = new XWPFWordExtractor(xdoc);  
            return extractor.getText();  
            }  
        case "doc":  
            try (InputStream stream = file.getInputStream()) {  
            WordExtractor extractor = new WordExtractor(stream);  
            return extractor.getText();  
            }  
        default:  
            log.error("不支持的文件格式");  
            return null;  
    }
}

2.導(dǎo)入依賴包

<dependencies>
  <!-- Apache POI 讀取和寫入 Microsoft Office 文檔 -->
  <dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi</artifactId>
    <version>5.0.0</version>
  </dependency>
  <dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi-ooxml</artifactId>
    <version>5.0.0</version>
  </dependency>

  <!-- Apache PDFBox 處理 PDF 文件 -->
  <dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox</artifactId>
    <version>2.0.24</version>
  </dependency>

  <!-- Apache Tika 自動(dòng)檢測(cè)和提取元數(shù)據(jù)和文本內(nèi)容 -->
  <dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-core</artifactId>
    <version>2.1.0</version>
  </dependency>

  <!-- iText 處理 PDF 文件 -->
  <dependency>
    <groupId>com.itextpdf</groupId>
    <artifactId>itextpdf</artifactId>
    <version>5.5.13</version>
  </dependency>
</dependencies>

1.讀取pdf

讀取 PDF 文件可以使用 Apache PDFBox 庫(kù)。以下是一個(gè)示例代碼，用于讀取 PDF 文件的文本內(nèi)容：

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PdfReaderExample {
    public static void main(String[] args) {
        try {
            // 1. 加載 PDF 文檔
            File file = new File("path_to_your_pdf_file.pdf");
            PDDocument document = PDDocument.load(file);

            // 2. 創(chuàng)建 PDFTextStripper 對(duì)象，并提取文本內(nèi)容
            PDFTextStripper textStripper = new PDFTextStripper();
            String content = textStripper.getText(document);

            // 3. 輸出文本內(nèi)容
            System.out.println(content);

            // 4. 關(guān)閉 PDF 文檔
            document.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

請(qǐng)確保將 path_to_your_pdf_file.pdf 替換為實(shí)際的 PDF 文件路徑。通過調(diào)用 PDDocument.load() 方法加載 PDF 文件，然后創(chuàng)建一個(gè) PDFTextStripper 對(duì)象，并使用 getText() 方法提取文本內(nèi)容。最后，使用 document.close() 方法關(guān)閉 PDF 文檔。

PDDocument.load() 方法接受多種類型的參數(shù)來加載 PDF 文檔。以下是常用的參數(shù)類型：

File 對(duì)象： 可以傳遞一個(gè) java.io.File 對(duì)象，指向要加載的 PDF 文件。例如：PDDocument.load(new File("path_to_your_pdf_file.pdf"))。
文件路徑字符串： 可以直接傳遞一個(gè)字符串，表示要加載的 PDF 文件的路徑。例如：PDDocument.load("path_to_your_pdf_file.pdf")。
InputStream 對(duì)象： 可以傳遞一個(gè) java.io.InputStream 對(duì)象，從中讀取 PDF 內(nèi)容。例如：PDDocument.load(inputStream)。
RandomAccessRead 對(duì)象： 可以傳遞一個(gè) org.apache.pdfbox.io.RandomAccessRead 對(duì)象，用于隨機(jī)訪問和讀取 PDF 內(nèi)容。例如：PDDocument.load(randomAccessRead)。

使用不同的參數(shù)類型，可以根據(jù)你的需求來加載 PDF 文檔。請(qǐng)注意，無論使用哪種方式，都需要正確處理可能拋出的 IOException 異常，并在使用完 PDDocument 對(duì)象后調(diào)用 close() 方法關(guān)閉文檔以釋放資源。

2.讀取docx

讀取 DOCX 文件，可以使用 Apache POI 庫(kù)。

import org.apache.poi.xwpf.usermodel.XWPFDocument;
import org.apache.poi.xwpf.usermodel.XWPFParagraph;

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;

public class DocxReaderExample {
    public static void main(String[] args) {
        try {
            // 1. 加載 DOCX 文檔
            File file = new File("path_to_your_docx_file.docx");
            InputStream fis = new FileInputStream(file);
            XWPFDocument document = new XWPFDocument(fis);

            // 2. 提取文本內(nèi)容
            StringBuilder content = new StringBuilder();
            for (XWPFParagraph paragraph : document.getParagraphs()) {
                content.append(paragraph.getText());
                content.append("\n");
            }

            // 3. 輸出文本內(nèi)容
            System.out.println(content.toString());

            // 4. 關(guān)閉 DOCX 文檔
            document.close();
            fis.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

通過創(chuàng)建一個(gè) FileInputStream 對(duì)象，并將其傳遞給 XWPFDocument 構(gòu)造函數(shù)，來加載 DOCX 文件。然后，通過遍歷文檔中的段落，使用 getText() 方法提取文本內(nèi)容，并將其存儲(chǔ)在一個(gè) StringBuilder 中。最后，輸出文本內(nèi)容。

提取文本內(nèi)容，提供另外一種方法。

XWPFDocument document = new XWPFDocument(fis); 
// 2. 提取文本內(nèi)容 
XWPFWordExtractor extractor = new XWPFWordExtractor(document); 
String text = extractor.getText();

XWPFWordExtractor 是 Apache POI 庫(kù)中的一個(gè)類，用于從 XWPFDocument 對(duì)象中提取文本。

然后，調(diào)用 getText() 方法，通過 extractor 對(duì)象提取文本內(nèi)容。該方法會(huì)返回一個(gè)包含整個(gè)文檔純文本的字符串。

3.讀取doc

讀取 DOC（.doc）文件，可以使用 Apache POI 庫(kù)中的 HWPF 模塊

import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.extractor.WordExtractor;

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

public class DocTextExtractor {
    public static String extractTextFromDoc(String filePath) {
        try {
            // 1. 加載 DOC 文檔
            File file = new File(filePath);
            FileInputStream fis = new FileInputStream(file);
            HWPFDocument document = new HWPFDocument(fis);

            // 2. 提取文本內(nèi)容
            WordExtractor extractor = new WordExtractor(document);
            String text = extractor.getText();

            // 3. 關(guān)閉 DOC 文檔和提取器
            extractor.close();
            document.close();
            fis.close();

            // 4. 返回提取的文本內(nèi)容
            return text;
        } catch (IOException e) {
            e.printStackTrace();
        }
        return null;
    }

    public static void main(String[] args) {
        String filePath = "path_to_your_doc_file.doc";
        String extractedText = extractTextFromDoc(filePath);
        System.out.println(extractedText);
    }
}

4.讀取Excel

1.使用 Apache POI 庫(kù)讀取 Excel 文件

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import org.apache.poi.ss.usermodel.Cell;
import org.apache.poi.ss.usermodel.Row;
import org.apache.poi.ss.usermodel.Sheet;
import org.apache.poi.xssf.usermodel.XSSFWorkbook;

public class ExcelReader {
    
    public static void main(String[] args) throws IOException {
        File file = new File("path/to/excel/file");
        FileInputStream inputStream = new FileInputStream(file);
        XSSFWorkbook workbook = new XSSFWorkbook(inputStream);
        Sheet sheet = workbook.getSheetAt(0);
        for (Row row : sheet) {
            for (Cell cell : row) {
                System.out.print(cell.toString() + "\t");
            }
            System.out.println();
        }
        workbook.close();
    }
}

首先創(chuàng)建了一個(gè) File 對(duì)象來表示要讀取的 Excel 文件，然后創(chuàng)建了一個(gè) FileInputStream 對(duì)象來讀取文件。接著，我們使用 XSSFWorkbook 類創(chuàng)建了一個(gè) workbook 對(duì)象來表示整個(gè) Excel 文檔，并獲取了第一個(gè)工作表（即索引為 0 的工作表）。

在循環(huán)中，我們首先遍歷每一行 (Row)，然后再遍歷每一列 (Cell)。我們可以使用 cell.toString() 方法獲取單元格的值，并打印出來。最后，我們調(diào)用 workbook.close() 方法關(guān)閉工作簿，釋放資源。

2.使用easyExcel

EasyExcel 是一款開源的 Java Excel 操作工具，它提供了簡(jiǎn)單易用的 API 來讀取、寫入和操作 Excel 文件。

<dependency>
    <groupId>com.alibaba</groupId>
    <artifactId>easyexcel</artifactId>
    <version>2.4.3</version>
</dependency>

讀取excel文件

import com.alibaba.excel.EasyExcel;
import com.alibaba.excel.read.builder.ExcelReaderBuilder;
import com.alibaba.excel.read.listener.ReadListener;

public class ExcelReader {
    public static void main(String[] args) {
        String filePath = "path_to_your_excel_file.xlsx";

        // 創(chuàng)建 Excel 讀取器
        ExcelReaderBuilder readerBuilder = EasyExcel.read(filePath);

        // 注冊(cè)讀取監(jiān)聽器
        ReadListener<Object> listener = new YourReadListener();
        readerBuilder.registerReadListener(listener);

        // 執(zhí)行讀取操作
        readerBuilder.sheet().doRead();
    }
}

通過 EasyExcel.read(filePath) 創(chuàng)建了一個(gè) Excel 讀取器，然后通過 registerReadListener() 方法注冊(cè)了一個(gè)讀取監(jiān)聽器，你需要自己實(shí)現(xiàn)一個(gè) ReadListener 的子類，并在其中重寫相應(yīng)的方法來處理讀取到的數(shù)據(jù)。最后，通過 sheet().doRead() 方法執(zhí)行讀取操作。

總結(jié)

到此這篇關(guān)于Java讀取Excel、docx、pdf和txt等文件萬能方法的文章就介紹到這了,更多相關(guān)Java讀取Excel、docx、pdf和txt文件內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: