欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

用Python將PDF文件轉(zhuǎn)存為圖片的實現(xiàn)方法

 更新時間:2024年04月21日 10:02:45   作者:以山河作禮。  
在Python中,將PDF文件轉(zhuǎn)換為圖片格式使用專門的庫來處理PDF文檔,并將其每一頁導(dǎo)出為常見的圖像格式,這可以通過PyMuPDF庫中的fitz模塊或pdf2image庫實現(xiàn),本文給大家介紹了用Python將PDF文件轉(zhuǎn)存為圖片的方法,需要的朋友可以參考下

一·摘要

在Python中,將PDF文件轉(zhuǎn)換為圖片格式使用專門的庫來處理PDF文檔,并將其每一頁導(dǎo)出為常見的圖像格式。這可以通過PyMuPDF庫中的fitz模塊或pdf2image庫實現(xiàn),其中每個庫都提供了將PDF頁面渲染成位圖的方法。一旦頁面被轉(zhuǎn)換成圖像,就可以使用Pillow庫(即PIL庫的一個分支)將這些圖像保存為PNG或JPEG文件。此過程不僅支持將包含文本和圖形的PDF頁面精確地轉(zhuǎn)換為圖像,而且還可以處理批量轉(zhuǎn)換,使得整個轉(zhuǎn)換過程可以自動化完成,非常適合需要從PDF中提取圖像內(nèi)容以用于報告、演示或網(wǎng)頁發(fā)布的場景。

二·原理

在Python中將PDF文件轉(zhuǎn)存為圖片的過程通常依賴于渲染引擎,該引擎能夠解析PDF文檔的結(jié)構(gòu)和內(nèi)容,并將其轉(zhuǎn)換成像素數(shù)據(jù),即圖像。

原理如下:

  1. 解析PDF:使用庫(如PyMuPDFpdf2image)來讀取PDF文件。這些庫內(nèi)部使用PDF解析器來理解PDF文件的結(jié)構(gòu),包括文本、圖像、向量圖形和頁面布局信息。

  2. 頁面渲染:庫中的渲染引擎會處理PDF頁面上的每個元素,如文字、線條和嵌入的圖像,并將它們轉(zhuǎn)換為可在屏幕上顯示的像素數(shù)據(jù)。對于PyMuPDF,get_pixmap()方法負責這個渲染過程;對于pdf2imageconvert_from_path()方法則用于將整個PDF頁面渲染成圖像。

  3. 圖像保存:一旦PDF頁面被渲染成位圖,就可以使用像Pillow這樣的圖像處理庫將其保存為常見的圖像格式(如PNG或JPEG)。這個過程涉及到設(shè)置圖像的分辨率、顏色深度和壓縮級別。

  4. 循環(huán)處理:因為PDF文件可能包含多個頁面,所以上述過程需要對每一頁進行重復(fù),直到所有頁面都被轉(zhuǎn)換成了對應(yīng)的圖像文件。

  5. 結(jié)果驗證:轉(zhuǎn)換完成后,需要檢查生成的圖像以確保它們準確地反映了原PDF頁面的內(nèi)容和布局。

這個過程不僅能夠?qū)DF中的文本和矢量圖形轉(zhuǎn)換為像素圖像,還能夠處理其中嵌入的圖像和圖表。通過適當?shù)脑O(shè)置,可以調(diào)整輸出圖像的質(zhì)量、大小和格式,以適應(yīng)不同的用途和需求。

三·流程

將PDF文件轉(zhuǎn)換為圖片的流程可以分為以下幾個步驟:

  1. 安裝庫:首先,需要安裝Python庫來處理PDF和圖像。常用的庫包括PyMuPDF(也稱為fitz)和pdf2image??梢允褂胮ip命令進行安裝,例如:pip install PyMuPDFpip install pdf2image

  2. 導(dǎo)入庫:在Python腳本中,導(dǎo)入所需的庫。對于PyMuPDF,導(dǎo)入fitz模塊;對于pdf2image,導(dǎo)入pdf2image模塊。

  3. 讀取PDF文件:使用庫提供的方法打開PDF文件。對于PyMuPDF,可以使用fitz.open()方法打開PDF文件;對于pdf2image,可以使用convert_from_path()方法打開PDF文件。

  4. 渲染PDF頁面:遍歷PDF的每一頁,并將其渲染為圖像。對于PyMuPDF,可以使用page.get_pixmap()方法將每一頁渲染成位圖;對于pdf2image,可以使用convert_from_path()方法將整個PDF頁面渲染成圖像。

  5. 保存圖像:將渲染得到的圖像保存到本地文件系統(tǒng)中??梢允褂肞illow庫(即PIL庫的一個分支)的save()方法來保存圖像。

  6. 循環(huán)處理:對PDF中的每一頁重復(fù)步驟4和5,直到所有頁面都轉(zhuǎn)換為圖像。

  7. 處理完畢:確保所有圖像都已正確保存,并在需要時進行任何后續(xù)處理,如調(diào)整大小、裁剪或格式轉(zhuǎn)換。

四·實戰(zhàn)演示

因工作中的某些奇葩要求,需要將PDF文件的每頁內(nèi)容轉(zhuǎn)存成按順序編號的圖片。用第三方軟件或者在線轉(zhuǎn)換也可以,但批量操作還是Python方便,所謂搞定辦公自動化,Python出山,一統(tǒng)天下;Python出征,寸草不生。

這里先導(dǎo)入fitz庫,用于將PDF文件的頁面提取成像素信息(圖片)。再導(dǎo)入glob庫,用于獲取后綴為".pdf"的文件的文件名。os庫可新建文件夾

#批量將PDF文件轉(zhuǎn)為圖片
import fitz
import glob
import os

image_path = "圖片\\" #存放圖片的文件夾
PDFfiles = glob.glob("PDF文件\\*.pdf") #獲取所有pdf文件的文件名
for PDFfile in PDFfiles: #遍歷所有PDF文件
    PDFdoc = fitz.open(PDFfile) #讀取PDF文件
    folder_name = PDFfile.split("\\")[-1].split(".")[0] #按源文件名新建文件夾
    for pg in range(PDFdoc.pageCount): #根據(jù)PDF的頁數(shù),按頁提取圖片        
        page = PDFdoc[pg]
        #增強圖片分辨率
        zoom_x = 3 #水平方向
        zoom_y = 3 #垂直方向
        mat = fitz.Matrix(zoom_x, zoom_y) 
        pix = page.getPixmap(matrix=mat)  
        #按原PDF名稱新建文件夾并按順序保存圖片
        if not os.path.exists(image_path+folder_name):#判斷文件夾是否已存在
            os.makedirs(image_path+folder_name)#不存在則新建,存在就跳過這行
        pix.writeImage(image_path+folder_name + "\\{}.png".format(str(pg+1))) #按PDF中的頁面順序命名并保存圖片

以上,我們先將所有待處理的PDF文件放入“PDF文件夾”,然后通過glob.glob(“PDF文件\*.pdf”)搜索并抓取所有以".pdf"為后綴的文件,并存入變量PDFfiles中。

結(jié)果如下所示:

PDFfiles

然后,遍歷PDFfiles中的所有PDF文件,使用fitz.open()讀取。fitz.open()用于創(chuàng)建PDF文件中頁面的像素映射(pixel maps),即用像素來表示頁面信息。然后按PDF文件名命名一個新的文件夾,以便儲存圖片。比如給“收貨記錄.pdf”文件建一個名字為“收貨記錄”的文件夾,專門儲存關(guān)于它的頁面的圖片。隨后用for循環(huán),根據(jù)PDF的頁數(shù),按頁提取圖片。將每頁的信息存入page變量,它的type 是fitz.fitz.Page,即一頁像素文件。為了讓圖片看起來更清晰,需要增強圖片的分辨率,設(shè)定圖片水平及垂直方向的增強倍數(shù),傳入Matrix。Matrix用于提升即將保存的圖片的分辨率,分辨率的提升倍數(shù)為zoom_x與zoom_y的乘積。倍數(shù)越大,圖片越清晰,當然占用空間也越大。這個參數(shù)可根據(jù)實際要求調(diào)整。然后將Matrix存入mat,傳入getPixmap()。getPixmap()用于控制圖片分辨率、色域(比如生成灰度圖像或帶有減色方案的圖像)、透明度、旋轉(zhuǎn)、鏡像、移位、剪切等。由于其它都不需要專門設(shè)定,所以只增強其分辨率。

一頁圖片處理好后,就需要保存圖片了。先通過os.path.exists判斷一下需要的文件夾是否存在,若不存在就通過os.makedirs創(chuàng)建。然后用pix.writeImage按頁碼編號寫入并保存圖片。

以上就是用Python將PDF文件轉(zhuǎn)存為圖片的方法的詳細內(nèi)容,更多關(guān)于Python PDF文件轉(zhuǎn)圖片的資料請關(guān)注腳本之家其它相關(guān)文章!

相關(guān)文章

  • python實戰(zhàn)教程之OCR文字識別方法匯總

    python實戰(zhàn)教程之OCR文字識別方法匯總

    ocr是一種光學(xué)字符識別技術(shù),簡單來說它能夠識別出圖像中的文字并且將其給取出來,下面這篇文章主要給大家介紹了關(guān)于python實戰(zhàn)教程之OCR文字識別方法的相關(guān)資料,文中通過示例代碼介紹的非常詳細,需要的朋友可以參考下
    2023-05-05
  • Python中Socket編程底層原理解析與應(yīng)用實戰(zhàn)

    Python中Socket編程底層原理解析與應(yīng)用實戰(zhàn)

    Socket編程是網(wǎng)絡(luò)通信的基礎(chǔ),Python通過內(nèi)置的socket模塊提供了強大的網(wǎng)絡(luò)編程接口,本文將結(jié)合實際案例,詳細介紹Python中Socket編程的基本概念、常用方法和實際應(yīng)用,需要的朋友可以參考下
    2024-08-08
  • Python中celery的使用

    Python中celery的使用

    Celery是一個簡單、靈活且可靠的,處理大量消息的分布式系統(tǒng),專注于實時處理的異步任務(wù)隊列,同時也支持任務(wù)調(diào)度。接下來通過本文給大家介紹Python中celery的使用詳解,感興趣的朋友一起看看吧
    2021-08-08
  • 用Python做個個性的動畫掛件讓桌面不單調(diào)

    用Python做個個性的動畫掛件讓桌面不單調(diào)

    這篇文章主要介紹了如何用Python做個個性的動畫掛件,本文給大家介紹的非常詳細,對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2021-08-08
  • 對Python中列表和數(shù)組的賦值,淺拷貝和深拷貝的實例講解

    對Python中列表和數(shù)組的賦值,淺拷貝和深拷貝的實例講解

    今天小編就為大家分享一篇對Python中列表和數(shù)組的賦值,淺拷貝和深拷貝的實例講解,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-06-06
  • 最新評論