用Python將PDF文件轉存為圖片的實現(xiàn)方法
一·摘要
在Python中,將PDF文件轉換為圖片格式使用專門的庫來處理PDF文檔,并將其每一頁導出為常見的圖像格式。這可以通過PyMuPDF庫中的fitz模塊或pdf2image庫實現(xiàn),其中每個庫都提供了將PDF頁面渲染成位圖的方法。一旦頁面被轉換成圖像,就可以使用Pillow庫(即PIL庫的一個分支)將這些圖像保存為PNG或JPEG文件。此過程不僅支持將包含文本和圖形的PDF頁面精確地轉換為圖像,而且還可以處理批量轉換,使得整個轉換過程可以自動化完成,非常適合需要從PDF中提取圖像內(nèi)容以用于報告、演示或網(wǎng)頁發(fā)布的場景。
二·原理
在Python中將PDF文件轉存為圖片的過程通常依賴于渲染引擎,該引擎能夠解析PDF文檔的結構和內(nèi)容,并將其轉換成像素數(shù)據(jù),即圖像。
原理如下:
解析PDF:使用庫(如
PyMuPDF或pdf2image)來讀取PDF文件。這些庫內(nèi)部使用PDF解析器來理解PDF文件的結構,包括文本、圖像、向量圖形和頁面布局信息。頁面渲染:庫中的渲染引擎會處理PDF頁面上的每個元素,如文字、線條和嵌入的圖像,并將它們轉換為可在屏幕上顯示的像素數(shù)據(jù)。對于
PyMuPDF,get_pixmap()方法負責這個渲染過程;對于pdf2image,convert_from_path()方法則用于將整個PDF頁面渲染成圖像。圖像保存:一旦PDF頁面被渲染成位圖,就可以使用像Pillow這樣的圖像處理庫將其保存為常見的圖像格式(如PNG或JPEG)。這個過程涉及到設置圖像的分辨率、顏色深度和壓縮級別。
循環(huán)處理:因為PDF文件可能包含多個頁面,所以上述過程需要對每一頁進行重復,直到所有頁面都被轉換成了對應的圖像文件。
結果驗證:轉換完成后,需要檢查生成的圖像以確保它們準確地反映了原PDF頁面的內(nèi)容和布局。
這個過程不僅能夠將PDF中的文本和矢量圖形轉換為像素圖像,還能夠處理其中嵌入的圖像和圖表。通過適當?shù)脑O置,可以調(diào)整輸出圖像的質量、大小和格式,以適應不同的用途和需求。
三·流程
將PDF文件轉換為圖片的流程可以分為以下幾個步驟:
安裝庫:首先,需要安裝Python庫來處理PDF和圖像。常用的庫包括
PyMuPDF(也稱為fitz)和pdf2image??梢允褂胮ip命令進行安裝,例如:pip install PyMuPDF或pip install pdf2image。導入庫:在Python腳本中,導入所需的庫。對于
PyMuPDF,導入fitz模塊;對于pdf2image,導入pdf2image模塊。讀取PDF文件:使用庫提供的方法打開PDF文件。對于
PyMuPDF,可以使用fitz.open()方法打開PDF文件;對于pdf2image,可以使用convert_from_path()方法打開PDF文件。渲染PDF頁面:遍歷PDF的每一頁,并將其渲染為圖像。對于
PyMuPDF,可以使用page.get_pixmap()方法將每一頁渲染成位圖;對于pdf2image,可以使用convert_from_path()方法將整個PDF頁面渲染成圖像。保存圖像:將渲染得到的圖像保存到本地文件系統(tǒng)中??梢允褂肞illow庫(即
PIL庫的一個分支)的save()方法來保存圖像。循環(huán)處理:對PDF中的每一頁重復步驟4和5,直到所有頁面都轉換為圖像。
處理完畢:確保所有圖像都已正確保存,并在需要時進行任何后續(xù)處理,如調(diào)整大小、裁剪或格式轉換。
四·實戰(zhàn)演示
因工作中的某些奇葩要求,需要將PDF文件的每頁內(nèi)容轉存成按順序編號的圖片。用第三方軟件或者在線轉換也可以,但批量操作還是Python方便,所謂搞定辦公自動化,Python出山,一統(tǒng)天下;Python出征,寸草不生。
這里先導入fitz庫,用于將PDF文件的頁面提取成像素信息(圖片)。再導入glob庫,用于獲取后綴為".pdf"的文件的文件名。os庫可新建文件夾
#批量將PDF文件轉為圖片
import fitz
import glob
import os
image_path = "圖片\\" #存放圖片的文件夾
PDFfiles = glob.glob("PDF文件\\*.pdf") #獲取所有pdf文件的文件名
for PDFfile in PDFfiles: #遍歷所有PDF文件
PDFdoc = fitz.open(PDFfile) #讀取PDF文件
folder_name = PDFfile.split("\\")[-1].split(".")[0] #按源文件名新建文件夾
for pg in range(PDFdoc.pageCount): #根據(jù)PDF的頁數(shù),按頁提取圖片
page = PDFdoc[pg]
#增強圖片分辨率
zoom_x = 3 #水平方向
zoom_y = 3 #垂直方向
mat = fitz.Matrix(zoom_x, zoom_y)
pix = page.getPixmap(matrix=mat)
#按原PDF名稱新建文件夾并按順序保存圖片
if not os.path.exists(image_path+folder_name):#判斷文件夾是否已存在
os.makedirs(image_path+folder_name)#不存在則新建,存在就跳過這行
pix.writeImage(image_path+folder_name + "\\{}.png".format(str(pg+1))) #按PDF中的頁面順序命名并保存圖片
以上,我們先將所有待處理的PDF文件放入“PDF文件夾”,然后通過glob.glob(“PDF文件\*.pdf”)搜索并抓取所有以".pdf"為后綴的文件,并存入變量PDFfiles中。
結果如下所示:
PDFfiles

然后,遍歷PDFfiles中的所有PDF文件,使用fitz.open()讀取。fitz.open()用于創(chuàng)建PDF文件中頁面的像素映射(pixel maps),即用像素來表示頁面信息。然后按PDF文件名命名一個新的文件夾,以便儲存圖片。比如給“收貨記錄.pdf”文件建一個名字為“收貨記錄”的文件夾,專門儲存關于它的頁面的圖片。隨后用for循環(huán),根據(jù)PDF的頁數(shù),按頁提取圖片。將每頁的信息存入page變量,它的type 是fitz.fitz.Page,即一頁像素文件。為了讓圖片看起來更清晰,需要增強圖片的分辨率,設定圖片水平及垂直方向的增強倍數(shù),傳入Matrix。Matrix用于提升即將保存的圖片的分辨率,分辨率的提升倍數(shù)為zoom_x與zoom_y的乘積。倍數(shù)越大,圖片越清晰,當然占用空間也越大。這個參數(shù)可根據(jù)實際要求調(diào)整。然后將Matrix存入mat,傳入getPixmap()。getPixmap()用于控制圖片分辨率、色域(比如生成灰度圖像或帶有減色方案的圖像)、透明度、旋轉、鏡像、移位、剪切等。由于其它都不需要專門設定,所以只增強其分辨率。
一頁圖片處理好后,就需要保存圖片了。先通過os.path.exists判斷一下需要的文件夾是否存在,若不存在就通過os.makedirs創(chuàng)建。然后用pix.writeImage按頁碼編號寫入并保存圖片。

以上就是用Python將PDF文件轉存為圖片的方法的詳細內(nèi)容,更多關于Python PDF文件轉圖片的資料請關注腳本之家其它相關文章!
相關文章
python異步的ASGI與Fast Api實現(xiàn)
本文主要介紹了python異步的ASGI與Fast Api實現(xiàn),文中通過示例代碼介紹的非常詳細,需要的朋友們下面隨著小編來一起學習學習吧2021-07-07
Python中Socket編程底層原理解析與應用實戰(zhàn)
Socket編程是網(wǎng)絡通信的基礎,Python通過內(nèi)置的socket模塊提供了強大的網(wǎng)絡編程接口,本文將結合實際案例,詳細介紹Python中Socket編程的基本概念、常用方法和實際應用,需要的朋友可以參考下2024-08-08
對Python中列表和數(shù)組的賦值,淺拷貝和深拷貝的實例講解
今天小編就為大家分享一篇對Python中列表和數(shù)組的賦值,淺拷貝和深拷貝的實例講解,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-06-06

