使用Python提取PDF表格到Excel文件的操作步驟

更新時間：2024年09月25日 10:14:29 作者：Eiceblue

在對PDF中的表格進行再利用時,除了直接將PDF文檔轉換為Excel文件,我們還可以提取PDF文檔中的表格數(shù)據并寫入Excel工作表,本文將介紹如何使用Python提取PDF文檔中的表格并寫入Excel文件中,需要的朋友可以參考下

引言

在對PDF中的表格進行再利用時，除了直接將PDF文檔轉換為Excel文件，我們還可以提取PDF文檔中的表格數(shù)據并寫入Excel工作表。這樣做可以避免一些不必要的文本和格式帶來的干擾，獲得更易于分析和處理的表格數(shù)據，并方便進行更多的格式設置。利用Python，我們可以實現(xiàn)對PDF表格數(shù)據的批量提取，并寫入Excel工作表中，實現(xiàn)高效的提取寫入操作。本文將介紹如何使用Python提取PDF文檔中的表格并寫入Excel文件中。

本文所使用的方法需要用到Spire.PDF for Python和Spire.XLS for Python，PyPI：pip install spire.pdf, spire.xls。

Python提取PDF表格數(shù)據寫入Excel工作表

提取表格需要用到Spire.PDF for Python中的PdfTableExtractor類。我們可以使用載入的PDF文檔創(chuàng)建一個PdfTableExtractor對象，然后使用PdfTableExtractor.ExtractTable()方法直接提取指定頁面的所有表格返回為列表。然后，我們可以使用PdfTable.GetText()來獲取表格指定單元格的文本，再使用Spire.XLS for Python新建工作表并寫入讀取的數(shù)據到工作表中的相應位置。最后，對工作表進行合適的格式設置，即可完成PDF表格數(shù)據到Excel工作表的提取。

以下是詳細操作步驟：

導入所需模塊。
創(chuàng)建 PdfDocument 對象，并使用 PdfDocument.LoadFromFile() 方法加載PDF文檔。
創(chuàng)建一個 Workbook 對象，并使用 Workbook.Worksheets.Clear() 方法清除默認工作表。
為加載的PDF文檔創(chuàng)建一個 PdfTableExtractor 對象。
使用 PdfTableExtractor.ExtractTable() 方法提取文檔中每一頁的表格。
遍歷每個表格
- 使用 Workbook.Worksheets.Add() 方法為每個表格在工作簿中添加一個工作表。
- 使用 Table.GetText() 方法遍歷各行各列以獲取單元格值，并通過 Worksheet.Range[].Text 屬性將其插入工作表的相應位置。
- 設置單元格格式。
使用 Workbook.SaveToFile() 方法保存工作簿。
釋放資源。

代碼示例

from spire.pdf import *
from spire.xls import *

# 創(chuàng)建一個 PdfDocument 對象
pdf = PdfDocument()
# 加載一個 PDF 文檔
pdf.LoadFromFile("示例.pdf")

# 創(chuàng)建一個 Workbook 對象
workbook = Workbook()
# 清除默認工作表
workbook.Worksheets.Clear()

# 創(chuàng)建一個 PdfTableExtractor 對象
extractor = PdfTableExtractor(pdf)

# 從每個 PDF 頁面提取表格
for pageIndex in range(pdf.Pages.Count):
    tables = extractor.ExtractTable(pageIndex)
    # 如果有多個表格則迭代
    if tables is not None:
        for tableIndex in range(len(tables)):
            # 獲取一個表格
            table = tables[tableIndex]
            # 為該表格創(chuàng)建一個工作表
            sheet = workbook.Worksheets.Add(f"Page{pageIndex + 1}-Table{tableIndex + 1}")
            # 迭代表格的行和列
            for rowIndex in range(table.GetRowCount()):
                for colIndex in range(table.GetColumnCount()):
                    # 獲取單元格的值
                    text = table.GetText(rowIndex, colIndex)
                    cellText = text.replace("\n", "")
                    # 將單元格的值寫入工作表中的相應單元格
                    sheet.Range[rowIndex + 1, colIndex + 1].Text = cellText
            # 設置表頭行樣式
            sheet.Rows.get_Item(0).Style.Font.FontName = "HarmonyOS Sans SC"
            sheet.Rows.get_Item(0).Style.Font.Size = 12
            sheet.Rows.get_Item(0).Style.Font.IsBold = True
            sheet.Rows.get_Item(0).Style.HorizontalAlignment = HorizontalAlignType.Center
            # 設置數(shù)據行樣式
            for i in range(1, sheet.Rows.Count):
                sheet.Rows.get_Item(i).Style.Font.FontName = "HarmonyOS Sans SC"
                sheet.Rows.get_Item(i).Style.Font.Size = 12
                sheet.Rows.get_Item(i).Style.HorizontalAlignment = HorizontalAlignType.Left
            # 自動調整列寬
            for j in range(1, sheet.Columns.Count):
                sheet.AutoFitColumn(j)

# 保存工作簿
workbook.SaveToFile("output/PDFTableToExcel.xlsx", FileFormat.Version2016)
workbook.Dispose()
pdf.Close()

結果