快捷導(dǎo)航

使用Python將PDF表格提取到文本,CSV和Excel文件中

更新時(shí)間：2024年11月03日 09:02:13 作者：Eiceblue

本文將介紹如何使用簡單的Python代碼從PDF文檔中提取表格數(shù)據(jù)并將其寫入文本、CSV和Excel文件,從而輕松實(shí)現(xiàn)PDF表格的自動(dòng)化提取,有需要的可以參考下

從PDF文檔中提取表格并將其轉(zhuǎn)換為更易于處理的格式（如文本、CSV和Excel文件），是數(shù)據(jù)分析和信息管理中的常見需求。此過程可顯著簡化表格數(shù)據(jù)的處理，使數(shù)據(jù)的操作、分析和與其他數(shù)據(jù)集的集成更加便捷。無論是財(cái)務(wù)報(bào)表、研究論文，還是包含結(jié)構(gòu)化信息的其他文檔，掌握這些表格準(zhǔn)確轉(zhuǎn)換的方法對于充分發(fā)揮數(shù)據(jù)潛力至關(guān)重要。

本文將介紹如何使用簡單的Python代碼從PDF文檔中提取表格數(shù)據(jù)并將其寫入文本、CSV和Excel文件，從而輕松實(shí)現(xiàn)PDF表格的自動(dòng)化提取。

本文所需的庫為Spire.PDF for Python?？赏ㄟ^PyPI安裝：pip install spire.pdf。

用于操作的示例PDF

如何使用Python提取PDF表格數(shù)據(jù)

庫中的PdfTableExtractor類用于處理PDF文檔的表格提取?？梢酝ㄟ^PdfTableExtractor.ExtractTable(pageIndex: int)方法從PDF頁面中提取表格，并以Utilities_PdfTable對象的集合形式返回表格數(shù)據(jù)。接著，可通過遍歷表格并使用Utilities_PdfTable.GetCellText(rowIndex: int, columnIndex: int)方法獲取每個(gè)單元格中的數(shù)據(jù)。

提取PDF表格數(shù)據(jù)的一般步驟如下：

創(chuàng)建一個(gè)PdfDocument實(shí)例并使用PdfDocument.LoadFromFile()方法加載PDF文檔。
使用該文檔創(chuàng)建PdfTableExtractor實(shí)例。
使用PdfTableExtractor.ExtractTable(pageIndex: int)方法提取文檔中每頁的表格。
遍歷每個(gè)表格并使用Utilities_PdfTable.GetCellText(rowIndex: int, columnIndex: int)方法獲取單元格值。
將提取的表格數(shù)據(jù)寫入其他文件。

注意：當(dāng)使用提取的表格數(shù)據(jù)構(gòu)建字符串時(shí)，如果單元格文本中包含換行符，最終生成的文本文件中可能會(huì)多出額外的換行符。為了避免造成混淆，應(yīng)將這些換行符去除或替換為空格。

用Python將PDF表格數(shù)據(jù)提取為文本文件

提取PDF文檔中的表格數(shù)據(jù)后，可直接將每個(gè)表格的數(shù)據(jù)寫入字符串并保存到文本文件中，從而實(shí)現(xiàn)將PDF表格數(shù)據(jù)導(dǎo)出為文本文件。

具體步驟如下：

1.導(dǎo)入所需模塊：PdfDocument和PdfTableExtractor。

2.創(chuàng)建PdfDocument實(shí)例并使用PdfDocument.LoadFromFile()方法加載PDF文檔。

3.使用該文檔創(chuàng)建PdfTableExtractor實(shí)例。

4.使用PdfTableExtractor.ExtractTable(pageIndex: int)方法提取每頁中的表格。

5.遍歷提取的表格：

創(chuàng)建一個(gè)str對象以存儲(chǔ)表格數(shù)據(jù)。
使用Utilities_PdfTable.GetCellText(rowIndex: int, columnIndex: int)方法獲取單元格值。
將單元格值追加到str對象中。
將str對象寫入文件。

6.釋放資源

代碼示例

from spire.pdf import PdfDocument, PdfTableExtractor

# 創(chuàng)建一個(gè) PdfDocument 對象
pdf = PdfDocument()
# 加載一個(gè) PDF 文檔
pdf.LoadFromFile("Sample.pdf")

# 創(chuàng)建一個(gè) PdfTableExtractor 對象
extractor = PdfTableExtractor(pdf)

# 遍歷所有頁面
for pageIndex in range(pdf.Pages.Count):
    # 從每個(gè) PDF 頁面中提取表格
    tables = extractor.ExtractTable(pageIndex)
    # 如果存在多個(gè)表格，則遍歷這些表格
    if tables is not None:
        for tableIndex in range(len(tables)):
            # 獲取一個(gè)表格
            table = tables[tableIndex]
            # 創(chuàng)建一個(gè)字符串對象來存儲(chǔ)表格數(shù)據(jù)
            tableData = ""
            # 遍歷表格的行和列
            for rowIndex in range(table.GetRowCount()):
                for colIndex in range(table.GetColumnCount()):
                    # 獲取單元格文本
                    text = table.GetText(rowIndex, colIndex)
                    text = text.replace("\n", " ")
                    # 將單元格文本添加到表格數(shù)據(jù)中
                    tableData += text
                    if colIndex < table.GetColumnCount() - 1:
                        tableData += "\t"
                tableData += "\n"
            # 將表格數(shù)據(jù)寫入文本文件
            with open(f"output/Tables/Page{pageIndex+1}-Table{tableIndex+1}.txt", "w", encoding="utf-8") as f:
                f.write(tableData)

# 釋放資源
pdf.Dispose()

輸出結(jié)果

用Python將PDF表格數(shù)據(jù)提取為CSV文件

同樣，可以使用類似方法從PDF文檔中提取表格數(shù)據(jù)，并利用Python標(biāo)準(zhǔn)庫中的CSV模塊將每個(gè)表格寫入CSV文件。在此過程中也需注意去除或替換換行符，以改善CSV文件的結(jié)果。具體步驟如下：

1.導(dǎo)入所需模塊：PdfDocument、PdfTableExtractor和CSV。

2.創(chuàng)建PdfDocument實(shí)例并使用PdfDocument.LoadFromFile()方法加載PDF文檔。

3.使用該文檔創(chuàng)建PdfTableExtractor實(shí)例。

4.使用PdfTableExtractor.ExtractTable(pageIndex: int)方法提取每頁中的表格。

5.遍歷提取的表格：

創(chuàng)建CSV文件。
遍歷表格中的行并創(chuàng)建列表以存儲(chǔ)行數(shù)據(jù)。
使用Utilities_PdfTable.GetCellText(rowIndex: int, columnIndex: int)方法獲取每行的單元格值并追加到列表中。
使用csv.writer().writerow()方法將每行寫入CSV文件。

6.釋放資源。

代碼示例

from spire.pdf import PdfDocument, PdfTableExtractor
import csv

# 創(chuàng)建一個(gè) PdfDocument 對象
pdf = PdfDocument()
# 加載一個(gè) PDF 文檔
pdf.LoadFromFile("Sample.pdf")

# 創(chuàng)建一個(gè) PdfTableExtractor 對象
extractor = PdfTableExtractor(pdf)

# 遍歷所有頁面
for pageIndex in range(pdf.Pages.Count):
    # 從每個(gè) PDF 頁面中提取表格
    tables = extractor.ExtractTable(pageIndex)
    # 如果存在多個(gè)表格，則遍歷這些表格
    if tables is not None:
        for tableIndex in range(len(tables)):
            # 獲取一個(gè)表格
            table = tables[tableIndex]
            # 創(chuàng)建一個(gè) CSV 文件
            with open("output/Tables/Page" + str(pageIndex+1) + "-Table" + str(tableIndex+1) + ".csv", "w", newline='', encoding='utf-8') as csvFile:
                writer = csv.writer(csvFile)
                # 遍歷表格的行和列
                for rowIndex in range(table.GetRowCount()):
                    row = []
                    for colIndex in range(table.GetColumnCount()):
                        # 獲取單元格文本
                        text = table.GetText(rowIndex, colIndex)
                        text = text.replace('\n', ' ')
                        row.append(text)
                    writer.writerow(row)

# 釋放資源
pdf.Dispose()

輸出結(jié)果

用Python將PDF表格數(shù)據(jù)提取到Excel工作表

可使用另一庫Spire.XLS for Python將提取的PDF表格數(shù)據(jù)寫入Excel工作表。通過PyPI獲取Spire.PDF for Python：pip install spire.xls。

具體步驟如下：

1.導(dǎo)入所需模塊：PdfDocument、PdfTableExtractor、Workbook和spire.xls.FileFormat。

2.創(chuàng)建PdfDocument實(shí)例并使用PdfDocument.LoadFromFile()方法加載PDF文檔。

3.創(chuàng)建Workbook實(shí)例用于存儲(chǔ)表格，并使用Workbook.Worksheets.Clear()方法清除默認(rèn)工作表。

4.使用該文檔創(chuàng)建PdfTableExtractor實(shí)例。

5.使用PdfTableExtractor.ExtractTable(pageIndex: int)方法提取每頁中的表格。

6.遍歷提取的表格：

使用Workbook.Worksheets.Add(sheetName: str)方法為每個(gè)表格添加工作表。
使用Utilities_PdfTable.GetCellText(rowIndex: int, columnIndex: int)方法獲取表格的單元格值。
通過Worksheet.Range[rowIndex + 1, colIndex + 1].Text屬性將單元格值寫入相應(yīng)的工作表單元格。

7.使用Workbook.SaveToFile()方法保存工作簿。

8.釋放資源。

代碼示例

from spire.pdf import PdfDocument, PdfTableExtractor
from spire.xls import Workbook, FileFormat, HorizontalAlignType

# 創(chuàng)建一個(gè) PdfDocument 對象
pdf = PdfDocument()
# 加載一個(gè) PDF 文檔
pdf.LoadFromFile("Sample.pdf")

# 創(chuàng)建一個(gè) Workbook 對象
workbook = Workbook()
# 清除默認(rèn)的工作表
workbook.Worksheets.Clear()

# 創(chuàng)建一個(gè) PdfTableExtractor 對象
extractor = PdfTableExtractor(pdf)

# 從每個(gè) PDF 頁面中提取表格
for pageIndex in range(pdf.Pages.Count):
    tables = extractor.ExtractTable(pageIndex)
    # 如果存在多個(gè)表格，則遍歷這些表格
    if tables is not None:
        for tableIndex in range(len(tables)):
            # 獲取一個(gè)表格
            table = tables[tableIndex]
            # 為表格創(chuàng)建一個(gè)工作表
            sheet = workbook.Worksheets.Add(f"Page{pageIndex + 1}-Table{tableIndex + 1}")
            # 遍歷表格的行和列
            for rowIndex in range(table.GetRowCount()):
                for colIndex in range(table.GetColumnCount()):
                    # 獲取單元格值
                    text = table.GetText(rowIndex, colIndex)
                    cellText = text.replace("\n", "")
                    # 將單元格值寫入工作表的相應(yīng)單元格
                    sheet.Range[rowIndex + 1, colIndex + 1].Text = cellText

            # 可選：自定義表格的外觀
            # 設(shè)置標(biāo)題行樣式
            sheet.Rows.get_Item(0).Style.Font.FontName = "Yu Gothic UI"
            sheet.Rows.get_Item(0).Style.Font.Size = 12
            sheet.Rows.get_Item(0).Style.Font.IsBold = True
            sheet.Rows.get_Item(0).Style.HorizontalAlignment = HorizontalAlignType.Center
            # 設(shè)置數(shù)據(jù)行樣式
            for i in range(1, sheet.Rows.Count):
                sheet.Rows.get_Item(i).Style.Font.FontName = "Yu Gothic UI"
                sheet.Rows.get_Item(i).Style.Font.Size = 12
                sheet.Rows.get_Item(i).Style.HorizontalAlignment = HorizontalAlignType.Left
            # 自動(dòng)調(diào)整列寬
            for j in range(1, sheet.Columns.Count):
                sheet.AutoFitColumn(j)

# 保存工作簿
workbook.SaveToFile("output/PDFTableToExcel.xlsx", FileFormat.Version2016)
# 釋放資源
workbook.Dispose()
pdf.Close()

輸出結(jié)果

使用Python直接將PDF轉(zhuǎn)換為Excel文件

還可以使用PdfDocument.SaveToFile(fileName: str, FileFormat.XLSX)方法將PDF文檔直接轉(zhuǎn)換為Excel文件。此方法適用于以表格為主的PDF文檔，有助于盡可能保留表格的原始外觀。

為減少轉(zhuǎn)換后Excel表格中的空白，可以在轉(zhuǎn)換前去除PDF文檔的邊距。參考以下文章：

Python刪除PDF文檔頁面的頁邊距

直接將PDF文檔轉(zhuǎn)換為Excel文件的具體步驟如下：

1.導(dǎo)入所需模塊：PdfDocument和FileFormat。

2.創(chuàng)建一個(gè)PdfDocument實(shí)例。

3.使用PdfDocument.LoadFromFile()方法加載PDF文檔。

4.將文檔轉(zhuǎn)換為Excel文件并使用PdfDocument.SaveToFile(fileName: str, FileFormat.XLSX)方法保存。

5.釋放資源。

代碼示例

from spire.pdf import PdfDocument, FileFormat

# 創(chuàng)建一個(gè) PdfDocument 實(shí)例
pdf = PdfDocument()

# 加載一個(gè) PDF 文檔
pdf.LoadFromFile("Sample.pdf")

# 將 PDF 文檔轉(zhuǎn)換為 Excel 文件
pdf.SaveToFile("output/PDFToExcel.xlsx", FileFormat.XLSX)

# 關(guān)閉 PDF 文檔
pdf.Close()

輸出結(jié)果