20行Python代碼實(shí)現(xiàn)一款永久免費(fèi)PDF編輯工具
PDF是我們經(jīng)常會(huì)接觸到的一種文件格式,文獻(xiàn)、文檔...很多都是PDF格式。它以格式穩(wěn)定的優(yōu)勢,使得我們在打印、分享、傳輸過程中能夠最優(yōu)的保持原有色彩和格式。
PDF是以PostScript語言圖像模型為基礎(chǔ)的一種文檔格式,它在格式的穩(wěn)定性方面雖然具有很大優(yōu)勢。但是,在可編輯性方面卻為使用者引入了另外一個(gè)困擾。
例如,在文檔的分割、合并、剪切、轉(zhuǎn)換、編輯等方面PDF就有些捉襟見肘了。
Adobe Reader、福昕閱讀器、熊貓PDF...經(jīng)常用到的PDF工具只能用于文檔閱讀,但是免費(fèi)版都不可以用于文檔編輯。雖然,網(wǎng)頁版PDF工具,例如SmallPDF、I love PDF可以用于PDF的編輯,但是對于文檔大小也有限制。
曾經(jīng),為了替換PDF中的一頁,我?guī)缀踉嚤榱怂惺忻嫔现髁鞯腜DF工具,最終還是不得不選擇使用付費(fèi)工具來解決問題。
事后想了想,既然這些商業(yè)化軟件不靠譜,為什么不考慮自己動(dòng)手開發(fā)一款工具呢?明明幾十行代碼能夠解決的問題,為什么要費(fèi)那么多勁去下載、安裝那些沒有節(jié)操的軟件呢?
本文就來介紹一下利用Python輕松開發(fā)一款PDF編輯工具,可以用于PDF轉(zhuǎn)TxT、分割、合并、剪切、轉(zhuǎn)換。
PyPDF2
PyPDF2是一個(gè)第三方的python PDF庫,它能夠?qū)DF文件進(jìn)行分割、合并、裁剪和轉(zhuǎn)換頁面。
另外,它還可以對PDF文件添加自定義數(shù)據(jù)、水印、密碼,也可以從PDF文件中檢索出文本和元數(shù)據(jù)。
安裝
使用pip直接安裝:
$ pip install PyPDF2
下面就來演示幾項(xiàng)PDF編輯功能,并且會(huì)逐行解釋代碼的含義。
刪除PDF頁
先給出實(shí)現(xiàn)代碼,
from PyPDF2 import PdfFileWriter, PdfFileReader output = PdfFileWriter() // 1 input1 = PdfFileReader(open("example.pdf", "rb")) // 2 def delete_pdf(index): pages = input1.getNumPages() // 3 for i in range(pages): if i+1 in index: continue output.addPage(input1.getPage(i)) // 4 outputStream = open("PyPDF2-output.pdf", "wb") output.write(outputStream) // 5 delete_pdf([2,3,4])
下面來解釋一下代碼中的幾個(gè)關(guān)鍵點(diǎn):
- 聲明一個(gè)用于輸出PDF的實(shí)例;
- 讀取本地PDF文件;
- 獲取PDF文檔的頁數(shù);
- 讀取PDF的第i頁,添加到輸出output實(shí)例中;
- 把編輯后的文檔保存到本地;
合并PDF
已經(jīng)實(shí)現(xiàn)了刪除PDF頁,接下來就看一下如何把另外一個(gè)PDF中的頁面合并到當(dāng)前PDF中。
方法1:
可以沿著前面刪除PDF頁的方式進(jìn)行拓展一下,對PDF進(jìn)行合并。
from PyPDF2 import PdfFileWriter, PdfFileReader output = PdfFileWriter() input1 = PdfFileReader(open("example.pdf", "rb")) input2 = PdfFileReader(open("simple2.pdf", "rb")) // 1 def merge_pdf(add_index, origin_index): pages = input1.getNumPages() k = 0 for i in range(pages): if i+1 in add_index: output.addPage(input2.getPage(origin_index[k])) // 2 pages += 1 k += 1 output.addPage(input1.getPage(i)) outputStream = open("PyPDF2-output.pdf", "wb") output.write(outputStream) merge_pdf([2,3,4], [0, 0, 0])
- 讀取需要合并的源文件;
- 遍歷到指定頁,合并源PDF的頁面;
方法2:
除了方法1,還有另外一種方法可以合并PDF:
from PyPDF2 import PdfFileMerger // 1 merger = PdfFileMerger() input1 = open("document1.pdf", "rb") // 2 input2 = open("document2.pdf", "rb") input3 = open("document3.pdf", "rb") merger.append(fileobj = input1, pages = (0,3)) // 3 merger.merge(position = 2, fileobj = input2, pages = (0,1)) // 4 merger.append(input3) // 5 output = open("document-output.pdf", "wb") merger.write(output)
- 導(dǎo)入PyPDF2合并模塊PdfFileMerger;
- 讀取需要處理和合并的PDF文檔;
- 從第一個(gè)PDF文檔中取出需要合并的前3頁;
- 把第二個(gè)PDF文檔的第一頁插入到文檔中;
- 把第三個(gè)PDF文檔附到輸出文檔末尾;
除了上述介紹的2項(xiàng)主要功能,PyPDF2也有一些其他小功能:
旋轉(zhuǎn)
input1.getPage(1).rotateClockwise(90)
使得頁面1旋轉(zhuǎn)90度。
添加水印
page = input1.getPage(3) watermark = PdfFileReader(open("watermark.pdf", "rb")) page.mergePage(watermark.getPage(0))
其中,水印存儲(chǔ)在另外一個(gè)PDF文檔watermark.pdf中。
加密
password = "secret" output.encrypt(password)
首先給一個(gè)secret密碼,然后使用encrypt對輸出文檔進(jìn)行加密。
pdfminer
前面介紹的PyPDF2主要擅長于PDF頁面級編輯,而對于文本和源數(shù)據(jù)級別編輯能力較弱。
所以,這里就來介紹另外一款Python庫來彌補(bǔ)它的不足。
PDFMiner是一個(gè)PDF文檔的文本提取工具,它具有如下特性:
- 能夠準(zhǔn)確獲取文本的位置和布局信息;
- 可以將PDF轉(zhuǎn)換為HTML/XML等格式;
- 可以提取目錄;
- 可以提取標(biāo)簽內(nèi)容;
- 支持各種字體類型(Type1、TrueType、Type3和CID);
- 支持中、日、韓語言和垂直書寫文本;
安裝
$ pip install pdfminer
PDF轉(zhuǎn)TxT
pdfminer在GitHub的托管項(xiàng)目中,在目錄tools下給出了一些實(shí)用的工具集,例如,PDF轉(zhuǎn)HTML、PDF轉(zhuǎn)HTML、PDF轉(zhuǎn)TXT。我們可以直接通過使用下面命令提出PDF文檔中的文本信息。
$ pdf2txt.py samples/simple1.pdf
總結(jié)
通過上述2款Python庫,就可以實(shí)現(xiàn)從頁面到文本元數(shù)據(jù)的編輯,本文只是簡單的介紹了每項(xiàng)的基本用法。關(guān)于詳細(xì)的用法和函數(shù)列表,可以閱讀官方文檔,或者閱讀GitHub上項(xiàng)目源碼進(jìn)行了解。此外,可以在這些基本的用法基礎(chǔ)上進(jìn)行發(fā)散思維,發(fā)掘更多有價(jià)值的應(yīng)用場景,例如,提出文本數(shù)據(jù)之后調(diào)用翻譯API進(jìn)行文獻(xiàn)翻譯。也可以,對軟件進(jìn)行封裝,開發(fā)成一款通用的PDF編輯工具。
20行Python代碼就輕松解決了困擾很多同學(xué)已久的PDF編輯問題,可見Python的作用和價(jià)值是不可忽視的。
到此這篇關(guān)于20行Python代碼實(shí)現(xiàn)一款永久免費(fèi)PDF編輯工具的文章就介紹到這了,更多相關(guān)Python PDF編輯工具內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
- Python解析并讀取PDF文件內(nèi)容的方法
- Python生成pdf文件的方法
- 基于Python實(shí)現(xiàn)對PDF文件的OCR識(shí)別
- Python 將pdf轉(zhuǎn)成圖片的方法
- Python 用三行代碼提取PDF表格數(shù)據(jù)
- python實(shí)現(xiàn)pdf轉(zhuǎn)換成word/txt純文本文件
- Python使用到第三方庫PyMuPDF圖片與pdf相互轉(zhuǎn)換
- 利用python程序生成word和PDF文檔的方法
- Python提取PDF內(nèi)容的方法(文本、圖像、線條等)
- Python實(shí)現(xiàn)PyPDF2處理PDF文件的方法示例
相關(guān)文章
python多線程案例之多任務(wù)copy文件完整實(shí)例
這篇文章主要介紹了python多線程案例之多任務(wù)copy文件,結(jié)合完整實(shí)例形式分析了Python使用multiprocessing模塊實(shí)現(xiàn)基于多線程的文件拷貝相關(guān)操作技巧,需要的朋友可以參考下2019-10-10Python調(diào)用win10toast框架實(shí)現(xiàn)定時(shí)調(diào)起系統(tǒng)通知
win10toast是一個(gè)windows通知的出發(fā)框架,使用它可以輕松的調(diào)起系統(tǒng)通知。通過它可以很方便的做一個(gè)定時(shí)通知的功能應(yīng)用。本文將調(diào)用win10toast實(shí)現(xiàn)定時(shí)調(diào)起系統(tǒng)通知功能,需要的可以參考一下2022-01-01python啟動(dòng)辦公軟件進(jìn)程(word、excel、ppt、以及wps的et、wps、wpp)
見如下源代碼,也可從附件中下載。2009-04-04講解Python中運(yùn)算符使用時(shí)的優(yōu)先級
這篇文章主要介紹了講解Python中運(yùn)算符使用時(shí)的優(yōu)先級,是Python學(xué)習(xí)當(dāng)中的基礎(chǔ)知識(shí),需要的朋友可以參考下2015-05-05Pytorch實(shí)戰(zhàn)之?dāng)?shù)據(jù)加載和處理詳解
Pytorch提供了許多工具來簡化和希望數(shù)據(jù)加載,使代碼更具可讀性,本文將通過一些簡單示例為大家具體講講,感興趣的小伙伴可以跟隨小編一起學(xué)習(xí)一下2023-06-06如何用python復(fù)制粘貼excel指定單元格(可保留格式)
這篇文章主要給大家介紹了關(guān)于如何用python復(fù)制粘貼excel指定單元格(可保留格式)的相關(guān)資料,利用python操作excel非常方便,文中通過實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下2023-07-07