欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python實(shí)現(xiàn)精準(zhǔn)提取?PDF中的文本,表格與圖片

 更新時(shí)間:2025年06月13日 11:21:23   作者:E-iceblue  
在實(shí)際的系統(tǒng)開發(fā)中,處理?PDF?文件不僅限于讀取整頁文本,還有提取文檔中的表格數(shù)據(jù),圖片或特定區(qū)域的內(nèi)容,下面我們來看看如何使用Python實(shí)現(xiàn)精準(zhǔn)提取PDF

在實(shí)際的系統(tǒng)開發(fā)中,處理 PDF 文件不僅限于讀取整頁文本,還有提取文檔中的表格數(shù)據(jù)、圖片或特定區(qū)域的內(nèi)容。這些任務(wù)看似簡單,實(shí)則對精度與處理能力提出了更高要求。本文將以 Python 語言為例,結(jié)合 Spire.PDF 控件,帶你實(shí)戰(zhàn)演練如何精準(zhǔn)提取 PDF 中的表格、圖片以及指定區(qū)域的文本內(nèi)容,助力你高效完成數(shù)據(jù)分析、內(nèi)容重用等任務(wù)。

安裝 Python 庫

本文將使用 Spire.PDF for Python 來演示怎樣完成 PDF 文檔中的元素提取。作為一個(gè)獨(dú)立的第三方組件,Spire.PDF 不依賴微軟 Office,還可以兼容大部分國產(chǎn)系統(tǒng),是你的 PDF 自動(dòng)化好幫手。

通過 pip 命令安裝它:

pip install Spire.PDF

或使用:

pip install spire.pdf.free

安裝免費(fèi)版,免費(fèi)版存在一些篇幅限制,但對于處理小型任務(wù)來說足夠了。

提取 PDF 文本內(nèi)容:獲取整頁文本與指定區(qū)域內(nèi)容

通常情況下,提取 PDF 文檔文本的需求主要有兩種:

  • 一種是提取整頁或整份文檔中的全部文本,如合同全文提取、批量歸檔場景。
  • 另一種是提取特定區(qū)域內(nèi)的文本,如從表單、票據(jù)中提取某一欄位內(nèi)容。

在本章節(jié),我們將使用 Spire.PDF 來分別完成這兩個(gè)任務(wù)。

獲取頁面上的所有文本內(nèi)容

文本是 PDF 文檔中最常見的內(nèi)容形式。無論是提取整份合同內(nèi)容,還是其他需要批量處理的文檔,掌握 PDF 文本提取技巧都至關(guān)重要。本節(jié)將向你展示如何快速通過 Python 從 PDF 文檔中提取頁面上的所有文本內(nèi)容。

完整代碼示例 - 獲取第一頁所有文本:

from spire.pdf import *
from spire.pdf.common import *


# 創(chuàng)建 PdfDocument 對象
pdf = PdfDocument()

# 加載 PDF 文檔
pdf.LoadFromFile("/AI繪畫的利與弊.pdf")

# 獲取 PDF 第一頁,遍歷文檔所有頁便可提取文檔所有文本內(nèi)容
page = pdf.Pages.get_Item(0)

# 創(chuàng)建 PdfTextExtractor 對象
textExtractor = PdfTextExtractor(page)

# 創(chuàng)建 PdfTextExtractOptions 對象
extractOptions = PdfTextExtractOptions()

# 從頁面中提取文本
text = textExtractor.ExtractText(extractOptions)

# 寫入到 txt 文件中
extractedText = open("/提取第一頁文本.txt", "w", encoding = "utf-8")
extractedText.write(text)

# 釋放對象
extractedText.close()
pdf.Close()

效果預(yù)覽:

(Python 提取 PDF 頁面上的文本)

主要步驟解析:

  • 創(chuàng)建新的 PdfDocument 對象,然后加載 PDF 文檔。
  • 獲取文檔的第一頁或遍歷所有頁面以便提取整個(gè) PDF 文檔的文本。
  • 創(chuàng)建 PdfTextExtractor 和 PdfTextExtractOptions 對象,用以提取文本。
  • 通過 PdfTextExtractor.ExtractText() 方法從所選頁面中提取文本。

獲取 PDF 特定區(qū)域的文本

有時(shí)候,我們不需要整頁的內(nèi)容,只想提取 PDF 里某個(gè)特定位置的文字,比如發(fā)票上的金額、表格里的某一欄,或者文件角落的簽名。只需要用 Spire.PDF 設(shè)置一下坐標(biāo),就能輕松搞定區(qū)域文本提取。

完整代碼示例 - 獲取第一頁一個(gè)矩形區(qū)域內(nèi)的文本:

from spire.pdf import *
from spire.pdf.common import *


# 創(chuàng)建PdfDocument 對象
pdf = PdfDocument()

# 加載PDF文檔
pdf.LoadFromFile("E:/Administrator/Python1/input/AI繪畫的利與弊-圖片版.pdf")

# 獲取PDF第一頁,遍歷文檔所有頁便可提取文檔所有文本內(nèi)容
page = pdf.Pages.get_Item(0)

#創(chuàng)建PdfTextExtractor 對象
textExtractor = PdfTextExtractor(page)

#創(chuàng)建PdfTextExtractOptions 對象
extractOptions = PdfTextExtractOptions()

# 設(shè)置從矩形區(qū)域提取文本的選項(xiàng)
extractOptions.ExtractArea = RectangleF(80.0, 120.0, 450.0, 120.0)

#從頁面中提取文本
text = textExtractor.ExtractText(extractOptions)

# 寫入到 txt 文件中
extractedText = open("E:/Administrator/Python1/output/提取特定區(qū)域文本.txt", "w", encoding = "utf-8")
extractedText.write(text)

# 釋放對象
extractedText.close()
pdf.Close()

效果預(yù)覽:

(Python 提取 PDF 中特定區(qū)域的文本)

主要步驟解析:

  • 創(chuàng)建新的 PdfDocument 對象,然后加載一個(gè) PDF 文檔。
  • 獲取文檔的第一頁。
  • 創(chuàng)建 PdfTextExtractor 和 PdfTextExtractOptions 對象,用以提取文本。
  • 使用 PdfTextExtractOptions.ExtractArea 屬性設(shè)置頁面區(qū)域范圍。
  • 通過 PdfTextExtractor.ExtractText() 方法從所指定的頁面區(qū)域中提取文本。

注意事項(xiàng):extractOptions.ExtractArea = RectangleF(80.0, 120.0, 450.0, 120.0) 中的四個(gè)參數(shù)依次代表矩形區(qū)域的 X 坐標(biāo)、Y 坐標(biāo)、寬度 和 高度。通過調(diào)整這些數(shù)值,你可以靈活控制需要提取文本的區(qū)域位置和大小,確保僅獲取你想要的內(nèi)容。

提取 PDF 中的表格并導(dǎo)出為 CSV

在 PDF 文檔中,表格通常以非結(jié)構(gòu)化的形式存在,直接提取和復(fù)用并不容易,尤其是遇到無邊框、合并單元格或跨頁表格的時(shí)候。本節(jié)我們將介紹如何使用 Spire.PDF 和 Spire.XLS 準(zhǔn)確識(shí)別 PDF 中的表格內(nèi)容,并將其導(dǎo)出為結(jié)構(gòu)化格式,如 Excel 或 CSV,幫助你實(shí)現(xiàn)高效的數(shù)據(jù)處理與復(fù)用。

完整代碼示例 - 提取 PDF 表格并保存為 CSV:

from spire.pdf import *
from spire.pdf.common import *
from spire.xls import *


# 創(chuàng)建 PdfDocument 對象
doc = PdfDocument()

# 加載 PDF 文檔
doc.LoadFromFile("/Population.pdf")

# 創(chuàng)建 Workbook 對象
workbook = Workbook()
# 清除默認(rèn)工作表
workbook.Worksheets.Clear()

# 創(chuàng)建 PdfTableExtractor 對象
extractor = PdfTableExtractor(doc)

sheetNumber = 1

# 遍歷PDF文件中的頁面
for pageIndex in range(doc.Pages.Count):
    # 從當(dāng)前頁面提取表格
    tableList = extractor.ExtractTable(pageIndex)

    # 遍歷表格
    if tableList is not None and len(tableList) > 0:
        for table in tableList:
            # 為當(dāng)前表格添加一個(gè)工作表
            sheet = workbook.Worksheets.Add(f"Sheet{sheetNumber}")

            # 獲取表格的行數(shù)和列數(shù)
            row = table.GetRowCount()
            column = table.GetColumnCount()

            # 遍歷表格的行和列
            for i in range(row):
                for j in range(column):
                    # 獲取當(dāng)前單元格中的文本
                    text = table.GetText(i, j)

                    # 將文本寫入工作表的指定單元格
                    sheet.Range[i + 1, j + 1].Value = text

            sheetNumber += 1

# 將工作簿保存為 Excel 文件
workbook.SaveToFile("/提取表格.csv", FileFormat.CSV)
workbook.Dispose()
doc.Close()

效果預(yù)覽:

(Python 提取 PDF 中的表格并保存為 CSV)

主要步驟解析:

  • 創(chuàng)建 PdfDocument 實(shí)例并加載 PDF 文檔。
  • 創(chuàng)建 Workbook 實(shí)例。
  • 遍歷 PDF 中的所有頁面。
  • 使用 PdfTableExtractor.ExtractTable() 方法提取頁面中的表格。
  • 遍歷提取的表格,并使用 Workbook.Worksheets.Add() 方法向工作簿中添加工作表。
  • 使用 PdfTable.GetText() 方法獲取 PDF 表格單元格中的文本。
  • 利用 Worksheet.Range[].Value 屬性將文本寫入工作表的特定單元格。
  • 使用 Workbook.SaveToFile() 方法將結(jié)果工作簿保存為 CSV 文件。

注意事項(xiàng):要將表格保存為 CSV 或 Excel 文件,需要用到 Spire.XLS。你可以通過:pip install spire.xls 將其安裝到設(shè)備上。

快速提取 PDF 文檔中的圖片

在 PDF 文檔中,除了文本和表格,圖片也是常見的內(nèi)容形式,尤其是在宣傳材料、報(bào)告或掃描文檔中更為常見。這些圖片可能是位圖,也可能是矢量圖,提取方式各不相同。本節(jié)將帶你了解如何使用 Spire.PDF 快速識(shí)別并提取頁面中的嵌入圖片,并將其保存為常用格式(如 PNG、JPEG),方便后續(xù)的歸檔、分析或內(nèi)容重用。

完整代碼示例 - 提取 PDF 文檔中的所有圖片:

from spire.pdf.common import *
from spire.pdf import *

# 創(chuàng)建 PdfDocument 對象
doc = PdfDocument()
# 加載 PDF 文檔
doc.LoadFromFile("/AI繪畫的利與弊.pdf")

# 創(chuàng)建 PdfImageHelper 對象
image_helper = PdfImageHelper()

image_count = 1
# 遍歷文檔中的頁面
for i in range(doc.Pages.Count):
    # 獲取當(dāng)前頁面中的圖片信息
    images_info = image_helper.GetImagesInfo(doc.Pages[i])

    # 獲取圖片并將其保存為圖片文件
    for j in range(len(images_info)):
        image_info = images_info[j]
        output_file = f"/New folder/image{image_count}.png"
        image_info.Image.Save(output_file)
        image_count += 1

doc.Close()

效果預(yù)覽:

(Python 提取 PDF 中的所有圖片)

主要步驟解析:

  • 創(chuàng)建 PdfDocument 實(shí)例并加載一個(gè) PDF 文檔。
  • 創(chuàng)建 PdfImageHelper 對象。
  • 遍歷所有頁面。
  • 通過 PdfImageHelper.GetImagesInfo(page: PdfPageBase) 方法獲取頁面中的圖片信息。
  • 遍歷獲取結(jié)果,使用 PdfImageInfo.Image.Save() 方法將每張圖片保存為圖片文件。

總結(jié)

今天的文章中,我們展示了如何在 Python 中精準(zhǔn)提取 PDF 文檔中的文本、表格和圖片。無論是批量處理合同、公文,還是提取數(shù)據(jù)用于系統(tǒng)集成,Spire 控件都能為開發(fā)者提供穩(wěn)定、高效的支持。隨著文檔數(shù)字化和自動(dòng)化處理需求不斷增長,掌握這類工具的使用將為日常開發(fā)工作帶來顯著效率提升。

到此這篇關(guān)于Python實(shí)現(xiàn)精準(zhǔn)提取 PDF中的文本,表格與圖片的文章就介紹到這了,更多相關(guān)Python提取 PDF內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Python3實(shí)現(xiàn)的爬蟲爬取數(shù)據(jù)并存入mysql數(shù)據(jù)庫操作示例

    Python3實(shí)現(xiàn)的爬蟲爬取數(shù)據(jù)并存入mysql數(shù)據(jù)庫操作示例

    這篇文章主要介紹了Python3實(shí)現(xiàn)的爬蟲爬取數(shù)據(jù)并存入mysql數(shù)據(jù)庫操作,涉及Python正則爬取數(shù)據(jù)及針對mysql數(shù)據(jù)庫的存儲(chǔ)操作相關(guān)實(shí)現(xiàn)技巧,需要的朋友可以參考下
    2018-06-06
  • pytorch實(shí)現(xiàn)線性回歸

    pytorch實(shí)現(xiàn)線性回歸

    這篇文章主要為大家詳細(xì)介紹了pytorch實(shí)現(xiàn)線性回歸,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2021-04-04
  • 用python批量移動(dòng)文件

    用python批量移動(dòng)文件

    這篇文章主要介紹了如何用python批量移動(dòng)文件,幫助大家更好的理解和使用python,感興趣的朋友可以了解下
    2021-01-01
  • 在Python中使用Fsolve函數(shù)的過程解析

    在Python中使用Fsolve函數(shù)的過程解析

    這篇文章主要介紹了在Python中使用Fsolve函數(shù)的過程解析,在這篇文章中,我們了解到fsolve?是用來尋找非線性方程的根的,了解到fsolve?可以接受的不同種類的參數(shù)以及每個(gè)參數(shù)的含義,需要的朋友可以參考下
    2023-06-06
  • pandas DataFrame 賦值的注意事項(xiàng)說明(index)

    pandas DataFrame 賦值的注意事項(xiàng)說明(index)

    這篇文章主要介紹了pandas DataFrame 賦值的注意事項(xiàng)說明(index),具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2021-04-04
  • 關(guān)于Python正則表達(dá)式模塊之re模塊

    關(guān)于Python正則表達(dá)式模塊之re模塊

    這篇文章主要介紹了關(guān)于Python正則表達(dá)式模塊之re模塊,?re模塊是Python中的重要組成部分,這里涉及到字符串的匹配,轉(zhuǎn)換,自定義格式化等,需要的朋友可以參考下
    2023-04-04
  • python?使用ctypes調(diào)用C/C++?dll詳情

    python?使用ctypes調(diào)用C/C++?dll詳情

    這篇文章主要介紹了python?使用ctypes調(diào)用C/C++?dll詳情,文章首先通過導(dǎo)入ctypes模塊,加載C/C++?dll到python進(jìn)程空間展開主題相關(guān)內(nèi)容,需要的小伙伴可以參考一下
    2022-04-04
  • win10安裝python3.6的常見問題

    win10安裝python3.6的常見問題

    在本篇文章里小編給大家分享的是關(guān)于win10安裝python3.6的具體步驟,有興趣的朋友們可以參考學(xué)習(xí)下。
    2020-07-07
  • python讀取excel數(shù)據(jù)繪制簡單曲線圖的完整步驟記錄

    python讀取excel數(shù)據(jù)繪制簡單曲線圖的完整步驟記錄

    這篇文章主要給大家介紹了關(guān)于python讀取excel數(shù)據(jù)繪制簡單曲線圖的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2020-10-10
  • 用Python實(shí)現(xiàn)屏幕截圖詳解

    用Python實(shí)現(xiàn)屏幕截圖詳解

    大家好,本篇文章主要講的是用Python實(shí)現(xiàn)屏幕截圖詳解,感興趣的同學(xué)趕快來看一看吧,對你有幫助的話記得收藏一下
    2022-01-01

最新評論