Python實(shí)現(xiàn)精準(zhǔn)提取?PDF中的文本,表格與圖片
在實(shí)際的系統(tǒng)開發(fā)中,處理 PDF 文件不僅限于讀取整頁文本,還有提取文檔中的表格數(shù)據(jù)、圖片或特定區(qū)域的內(nèi)容。這些任務(wù)看似簡單,實(shí)則對精度與處理能力提出了更高要求。本文將以 Python 語言為例,結(jié)合 Spire.PDF 控件,帶你實(shí)戰(zhàn)演練如何精準(zhǔn)提取 PDF 中的表格、圖片以及指定區(qū)域的文本內(nèi)容,助力你高效完成數(shù)據(jù)分析、內(nèi)容重用等任務(wù)。
安裝 Python 庫
本文將使用 Spire.PDF for Python 來演示怎樣完成 PDF 文檔中的元素提取。作為一個(gè)獨(dú)立的第三方組件,Spire.PDF 不依賴微軟 Office,還可以兼容大部分國產(chǎn)系統(tǒng),是你的 PDF 自動(dòng)化好幫手。
通過 pip 命令安裝它:
pip install Spire.PDF
或使用:
pip install spire.pdf.free
安裝免費(fèi)版,免費(fèi)版存在一些篇幅限制,但對于處理小型任務(wù)來說足夠了。
提取 PDF 文本內(nèi)容:獲取整頁文本與指定區(qū)域內(nèi)容
通常情況下,提取 PDF 文檔文本的需求主要有兩種:
- 一種是提取整頁或整份文檔中的全部文本,如合同全文提取、批量歸檔場景。
- 另一種是提取特定區(qū)域內(nèi)的文本,如從表單、票據(jù)中提取某一欄位內(nèi)容。
在本章節(jié),我們將使用 Spire.PDF 來分別完成這兩個(gè)任務(wù)。
獲取頁面上的所有文本內(nèi)容
文本是 PDF 文檔中最常見的內(nèi)容形式。無論是提取整份合同內(nèi)容,還是其他需要批量處理的文檔,掌握 PDF 文本提取技巧都至關(guān)重要。本節(jié)將向你展示如何快速通過 Python 從 PDF 文檔中提取頁面上的所有文本內(nèi)容。
完整代碼示例 - 獲取第一頁所有文本:
from spire.pdf import * from spire.pdf.common import * # 創(chuàng)建 PdfDocument 對象 pdf = PdfDocument() # 加載 PDF 文檔 pdf.LoadFromFile("/AI繪畫的利與弊.pdf") # 獲取 PDF 第一頁,遍歷文檔所有頁便可提取文檔所有文本內(nèi)容 page = pdf.Pages.get_Item(0) # 創(chuàng)建 PdfTextExtractor 對象 textExtractor = PdfTextExtractor(page) # 創(chuàng)建 PdfTextExtractOptions 對象 extractOptions = PdfTextExtractOptions() # 從頁面中提取文本 text = textExtractor.ExtractText(extractOptions) # 寫入到 txt 文件中 extractedText = open("/提取第一頁文本.txt", "w", encoding = "utf-8") extractedText.write(text) # 釋放對象 extractedText.close() pdf.Close()
效果預(yù)覽:
(Python 提取 PDF 頁面上的文本)
主要步驟解析:
- 創(chuàng)建新的 PdfDocument 對象,然后加載 PDF 文檔。
- 獲取文檔的第一頁或遍歷所有頁面以便提取整個(gè) PDF 文檔的文本。
- 創(chuàng)建 PdfTextExtractor 和 PdfTextExtractOptions 對象,用以提取文本。
- 通過 PdfTextExtractor.ExtractText() 方法從所選頁面中提取文本。
獲取 PDF 特定區(qū)域的文本
有時(shí)候,我們不需要整頁的內(nèi)容,只想提取 PDF 里某個(gè)特定位置的文字,比如發(fā)票上的金額、表格里的某一欄,或者文件角落的簽名。只需要用 Spire.PDF 設(shè)置一下坐標(biāo),就能輕松搞定區(qū)域文本提取。
完整代碼示例 - 獲取第一頁一個(gè)矩形區(qū)域內(nèi)的文本:
from spire.pdf import * from spire.pdf.common import * # 創(chuàng)建PdfDocument 對象 pdf = PdfDocument() # 加載PDF文檔 pdf.LoadFromFile("E:/Administrator/Python1/input/AI繪畫的利與弊-圖片版.pdf") # 獲取PDF第一頁,遍歷文檔所有頁便可提取文檔所有文本內(nèi)容 page = pdf.Pages.get_Item(0) #創(chuàng)建PdfTextExtractor 對象 textExtractor = PdfTextExtractor(page) #創(chuàng)建PdfTextExtractOptions 對象 extractOptions = PdfTextExtractOptions() # 設(shè)置從矩形區(qū)域提取文本的選項(xiàng) extractOptions.ExtractArea = RectangleF(80.0, 120.0, 450.0, 120.0) #從頁面中提取文本 text = textExtractor.ExtractText(extractOptions) # 寫入到 txt 文件中 extractedText = open("E:/Administrator/Python1/output/提取特定區(qū)域文本.txt", "w", encoding = "utf-8") extractedText.write(text) # 釋放對象 extractedText.close() pdf.Close()
效果預(yù)覽:
(Python 提取 PDF 中特定區(qū)域的文本)
主要步驟解析:
- 創(chuàng)建新的 PdfDocument 對象,然后加載一個(gè) PDF 文檔。
- 獲取文檔的第一頁。
- 創(chuàng)建 PdfTextExtractor 和 PdfTextExtractOptions 對象,用以提取文本。
- 使用 PdfTextExtractOptions.ExtractArea 屬性設(shè)置頁面區(qū)域范圍。
- 通過 PdfTextExtractor.ExtractText() 方法從所指定的頁面區(qū)域中提取文本。
注意事項(xiàng):extractOptions.ExtractArea = RectangleF(80.0, 120.0, 450.0, 120.0) 中的四個(gè)參數(shù)依次代表矩形區(qū)域的 X 坐標(biāo)、Y 坐標(biāo)、寬度 和 高度。通過調(diào)整這些數(shù)值,你可以靈活控制需要提取文本的區(qū)域位置和大小,確保僅獲取你想要的內(nèi)容。
提取 PDF 中的表格并導(dǎo)出為 CSV
在 PDF 文檔中,表格通常以非結(jié)構(gòu)化的形式存在,直接提取和復(fù)用并不容易,尤其是遇到無邊框、合并單元格或跨頁表格的時(shí)候。本節(jié)我們將介紹如何使用 Spire.PDF 和 Spire.XLS 準(zhǔn)確識(shí)別 PDF 中的表格內(nèi)容,并將其導(dǎo)出為結(jié)構(gòu)化格式,如 Excel 或 CSV,幫助你實(shí)現(xiàn)高效的數(shù)據(jù)處理與復(fù)用。
完整代碼示例 - 提取 PDF 表格并保存為 CSV:
from spire.pdf import * from spire.pdf.common import * from spire.xls import * # 創(chuàng)建 PdfDocument 對象 doc = PdfDocument() # 加載 PDF 文檔 doc.LoadFromFile("/Population.pdf") # 創(chuàng)建 Workbook 對象 workbook = Workbook() # 清除默認(rèn)工作表 workbook.Worksheets.Clear() # 創(chuàng)建 PdfTableExtractor 對象 extractor = PdfTableExtractor(doc) sheetNumber = 1 # 遍歷PDF文件中的頁面 for pageIndex in range(doc.Pages.Count): # 從當(dāng)前頁面提取表格 tableList = extractor.ExtractTable(pageIndex) # 遍歷表格 if tableList is not None and len(tableList) > 0: for table in tableList: # 為當(dāng)前表格添加一個(gè)工作表 sheet = workbook.Worksheets.Add(f"Sheet{sheetNumber}") # 獲取表格的行數(shù)和列數(shù) row = table.GetRowCount() column = table.GetColumnCount() # 遍歷表格的行和列 for i in range(row): for j in range(column): # 獲取當(dāng)前單元格中的文本 text = table.GetText(i, j) # 將文本寫入工作表的指定單元格 sheet.Range[i + 1, j + 1].Value = text sheetNumber += 1 # 將工作簿保存為 Excel 文件 workbook.SaveToFile("/提取表格.csv", FileFormat.CSV) workbook.Dispose() doc.Close()
效果預(yù)覽:
(Python 提取 PDF 中的表格并保存為 CSV)
主要步驟解析:
- 創(chuàng)建 PdfDocument 實(shí)例并加載 PDF 文檔。
- 創(chuàng)建 Workbook 實(shí)例。
- 遍歷 PDF 中的所有頁面。
- 使用 PdfTableExtractor.ExtractTable() 方法提取頁面中的表格。
- 遍歷提取的表格,并使用 Workbook.Worksheets.Add() 方法向工作簿中添加工作表。
- 使用 PdfTable.GetText() 方法獲取 PDF 表格單元格中的文本。
- 利用 Worksheet.Range[].Value 屬性將文本寫入工作表的特定單元格。
- 使用 Workbook.SaveToFile() 方法將結(jié)果工作簿保存為 CSV 文件。
注意事項(xiàng):要將表格保存為 CSV 或 Excel 文件,需要用到 Spire.XLS。你可以通過:pip install spire.xls 將其安裝到設(shè)備上。
快速提取 PDF 文檔中的圖片
在 PDF 文檔中,除了文本和表格,圖片也是常見的內(nèi)容形式,尤其是在宣傳材料、報(bào)告或掃描文檔中更為常見。這些圖片可能是位圖,也可能是矢量圖,提取方式各不相同。本節(jié)將帶你了解如何使用 Spire.PDF 快速識(shí)別并提取頁面中的嵌入圖片,并將其保存為常用格式(如 PNG、JPEG),方便后續(xù)的歸檔、分析或內(nèi)容重用。
完整代碼示例 - 提取 PDF 文檔中的所有圖片:
from spire.pdf.common import * from spire.pdf import * # 創(chuàng)建 PdfDocument 對象 doc = PdfDocument() # 加載 PDF 文檔 doc.LoadFromFile("/AI繪畫的利與弊.pdf") # 創(chuàng)建 PdfImageHelper 對象 image_helper = PdfImageHelper() image_count = 1 # 遍歷文檔中的頁面 for i in range(doc.Pages.Count): # 獲取當(dāng)前頁面中的圖片信息 images_info = image_helper.GetImagesInfo(doc.Pages[i]) # 獲取圖片并將其保存為圖片文件 for j in range(len(images_info)): image_info = images_info[j] output_file = f"/New folder/image{image_count}.png" image_info.Image.Save(output_file) image_count += 1 doc.Close()
效果預(yù)覽:
(Python 提取 PDF 中的所有圖片)
主要步驟解析:
- 創(chuàng)建 PdfDocument 實(shí)例并加載一個(gè) PDF 文檔。
- 創(chuàng)建 PdfImageHelper 對象。
- 遍歷所有頁面。
- 通過 PdfImageHelper.GetImagesInfo(page: PdfPageBase) 方法獲取頁面中的圖片信息。
- 遍歷獲取結(jié)果,使用 PdfImageInfo.Image.Save() 方法將每張圖片保存為圖片文件。
總結(jié)
今天的文章中,我們展示了如何在 Python 中精準(zhǔn)提取 PDF 文檔中的文本、表格和圖片。無論是批量處理合同、公文,還是提取數(shù)據(jù)用于系統(tǒng)集成,Spire 控件都能為開發(fā)者提供穩(wěn)定、高效的支持。隨著文檔數(shù)字化和自動(dòng)化處理需求不斷增長,掌握這類工具的使用將為日常開發(fā)工作帶來顯著效率提升。
到此這篇關(guān)于Python實(shí)現(xiàn)精準(zhǔn)提取 PDF中的文本,表格與圖片的文章就介紹到這了,更多相關(guān)Python提取 PDF內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python3實(shí)現(xiàn)的爬蟲爬取數(shù)據(jù)并存入mysql數(shù)據(jù)庫操作示例
這篇文章主要介紹了Python3實(shí)現(xiàn)的爬蟲爬取數(shù)據(jù)并存入mysql數(shù)據(jù)庫操作,涉及Python正則爬取數(shù)據(jù)及針對mysql數(shù)據(jù)庫的存儲(chǔ)操作相關(guān)實(shí)現(xiàn)技巧,需要的朋友可以參考下2018-06-06pandas DataFrame 賦值的注意事項(xiàng)說明(index)
這篇文章主要介紹了pandas DataFrame 賦值的注意事項(xiàng)說明(index),具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2021-04-04關(guān)于Python正則表達(dá)式模塊之re模塊
這篇文章主要介紹了關(guān)于Python正則表達(dá)式模塊之re模塊,?re模塊是Python中的重要組成部分,這里涉及到字符串的匹配,轉(zhuǎn)換,自定義格式化等,需要的朋友可以參考下2023-04-04python?使用ctypes調(diào)用C/C++?dll詳情
這篇文章主要介紹了python?使用ctypes調(diào)用C/C++?dll詳情,文章首先通過導(dǎo)入ctypes模塊,加載C/C++?dll到python進(jìn)程空間展開主題相關(guān)內(nèi)容,需要的小伙伴可以參考一下2022-04-04python讀取excel數(shù)據(jù)繪制簡單曲線圖的完整步驟記錄
這篇文章主要給大家介紹了關(guān)于python讀取excel數(shù)據(jù)繪制簡單曲線圖的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-10-10