欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

20行Python代碼實現(xiàn)一款永久免費PDF編輯工具的實現(xiàn)

 更新時間:2020年08月27日 09:50:56   作者:小詹學(xué) Python  
這篇文章主要介紹了20行Python代碼實現(xiàn)一款永久免費PDF編輯工具的實現(xiàn),文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧

PDF(Portable Document Format),中文名稱便攜文檔格式是我們經(jīng)常會接觸到的一種文件格式,文獻、文檔...很多都是PDF格式。它以格式穩(wěn)定的優(yōu)勢,使得我們在打印、分享、傳輸過程中能夠最優(yōu)的保持原有色彩和格式。

PDF是以PostScript語言圖像模型為基礎(chǔ)的一種文檔格式,它在格式的穩(wěn)定性方面雖然具有很大優(yōu)勢。但是,在可編輯性方面卻為使用者引入了另外一個困擾。

例如,在文檔的分割、合并、剪切、轉(zhuǎn)換、編輯等方面PDF就有些捉襟見肘了。

Adobe Reader、福昕閱讀器、熊貓PDF...經(jīng)常用到的PDF工具只能用于文檔閱讀,但是免費版都不可以用于文檔編輯。雖然,網(wǎng)頁版PDF工具,例如SmallPDF、I love PDF可以用于PDF的編輯,但是對于文檔大小也有限制。

曾經(jīng),為了替換PDF中的一頁,我?guī)缀踉嚤榱怂惺忻嫔现髁鞯腜DF工具,最終還是不得不選擇使用付費工具來解決問題。

事后想了想,既然這些商業(yè)化軟件不靠譜,為什么不考慮自己動手開發(fā)一款工具呢?明明幾十行代碼能夠解決的問題,為什么要費那么多勁去下載、安裝那些沒有節(jié)操的軟件呢?

本文就來介紹一下利用Python輕松開發(fā)一款PDF編輯工具,可以用于PDF轉(zhuǎn)TxT、分割、合并、剪切、轉(zhuǎn)換。

PyPDF2

PyPDF2是一個第三方的python PDF庫,它能夠?qū)DF文件進行分割、合并、裁剪和轉(zhuǎn)換頁面。

另外,它還可以對PDF文件添加自定義數(shù)據(jù)、水印、密碼,也可以從PDF文件中檢索出文本和元數(shù)據(jù)。

安裝

使用pip直接安裝:

$ pip install PyPDF2

下面就來演示幾項PDF編輯功能,并且會逐行解釋代碼的含義。

刪除PDF頁

先給出實現(xiàn)代碼,

from PyPDF2 import PdfFileWriter, PdfFileReader

output = PdfFileWriter()   // 1
input1 = PdfFileReader(open("example.pdf", "rb")) // 2

def delete_pdf(index):
 pages = input1.getNumPages() // 3

 for i in range(pages):
 if i+1 in index:
  continue
 output.addPage(input1.getPage(i)) // 4

 outputStream = open("PyPDF2-output.pdf", "wb")
 output.write(outputStream) // 5

delete_pdf([2,3,4])

下面來解釋一下代碼中的幾個關(guān)鍵點:

  • 聲明一個用于輸出PDF的實例;
  • 讀取本地PDF文件;
  • 獲取PDF文檔的頁數(shù);
  • 讀取PDF的第i頁,添加到輸出output實例中;
  • 把編輯后的文檔保存到本地;

合并PDF

已經(jīng)實現(xiàn)了刪除PDF頁,接下來就看一下如何把另外一個PDF中的頁面合并到當(dāng)前PDF中。

方法1:

可以沿著前面刪除PDF頁的方式進行拓展一下,對PDF進行合并。

from PyPDF2 import PdfFileWriter, PdfFileReader

output = PdfFileWriter()
input1 = PdfFileReader(open("example.pdf", "rb"))
input2 = PdfFileReader(open("simple2.pdf", "rb")) // 1

def merge_pdf(add_index, origin_index):
 pages = input1.getNumPages()
 k = 0
 for i in range(pages):
 if i+1 in add_index:
  output.addPage(input2.getPage(origin_index[k])) // 2
  pages += 1
  k += 1
 output.addPage(input1.getPage(i))

 outputStream = open("PyPDF2-output.pdf", "wb")
 output.write(outputStream)

merge_pdf([2,3,4], [0, 0, 0])

讀取需要合并的源文件;

遍歷到指定頁,合并源PDF的頁面;

方法2:

除了方法1,還有另外一種方法可以合并PDF:

from PyPDF2 import PdfFileMerger // 1

merger = PdfFileMerger()

input1 = open("document1.pdf", "rb") // 2
input2 = open("document2.pdf", "rb")
input3 = open("document3.pdf", "rb")

merger.append(fileobj = input1, pages = (0,3)) // 3

merger.merge(position = 2, fileobj = input2, pages = (0,1)) // 4

merger.append(input3) // 5

output = open("document-output.pdf", "wb")
merger.write(output)
  • 導(dǎo)入PyPDF2合并模塊PdfFileMerger;
  • 讀取需要處理和合并的PDF文檔;
  • 從第一個PDF文檔中取出需要合并的前3頁;
  • 把第二個PDF文檔的第一頁插入到文檔中;
  • 把第三個PDF文檔附到輸出文檔末尾;

除了上述介紹的2項主要功能,PyPDF2也有一些其他小功能:

旋轉(zhuǎn)

input1.getPage(1).rotateClockwise(90)

使得頁面1旋轉(zhuǎn)90度。

添加水印

page = input1.getPage(3)
watermark = PdfFileReader(open("watermark.pdf", "rb"))
page.mergePage(watermark.getPage(0))

其中,水印存儲在另外一個PDF文檔watermark.pdf中。

加密

password = "secret"
output.encrypt(password)

首先給一個secret密碼,然后使用encrypt對輸出文檔進行加密。

pdfminer

前面介紹的PyPDF2主要擅長于PDF頁面級編輯,而對于文本和源數(shù)據(jù)級別編輯能力較弱。

所以,這里就來介紹另外一款Python庫來彌補它的不足。

PDFMiner是一個PDF文檔的文本提取工具,它具有如下特性:

  • 能夠準(zhǔn)確獲取文本的位置和布局信息;
  • 可以將PDF轉(zhuǎn)換為HTML/XML等格式;
  • 可以提取目錄;
  • 可以提取標(biāo)簽內(nèi)容;
  • 支持各種字體類型(Type1、TrueType、Type3和CID);
  • 支持中、日、韓語言和垂直書寫文本;

安裝

$ pip install pdfminer

PDF轉(zhuǎn)TxT

pdfminer在GitHub的托管項目中,在目錄tools下給出了一些實用的工具集,例如,PDF轉(zhuǎn)HTML、PDF轉(zhuǎn)HTML、PDF轉(zhuǎn)TXT。我們可以直接通過使用下面命令提出PDF文檔中的文本信息。

$ pdf2txt.py samples/simple1.pdf

總結(jié)

通過上述2款Python庫,就可以實現(xiàn)從頁面到文本元數(shù)據(jù)的編輯,本文只是簡單的介紹了每項的基本用法。關(guān)于詳細的用法和函數(shù)列表,可以閱讀官方文檔,或者閱讀GitHub上項目源碼進行了解。此外,可以在這些基本的用法基礎(chǔ)上進行發(fā)散思維,發(fā)掘更多有價值的應(yīng)用場景,例如,提出文本數(shù)據(jù)之后調(diào)用翻譯API進行文獻翻譯。也可以,對軟件進行封裝,開發(fā)成一款通用的PDF編輯工具。

到此這篇關(guān)于20行Python代碼實現(xiàn)一款永久免費PDF編輯工具的實現(xiàn)的文章就介紹到這了,更多相關(guān)Python 免費PDF編輯工具內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Pandas實現(xiàn)Dataframe的合并

    Pandas實現(xiàn)Dataframe的合并

    我們知道,在使用pandas處理數(shù)據(jù)的時候,往往會需要合并兩個或者多個DataFrame的操作,那么本文就來介紹一下Pandas實現(xiàn)Dataframe的合并,感興趣的可以了解一下
    2021-06-06
  • Python切圖九宮格的實現(xiàn)方法

    Python切圖九宮格的實現(xiàn)方法

    這篇文章主要介紹了Python切圖九宮格的實現(xiàn)方法,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2019-10-10
  • MxNet預(yù)訓(xùn)練模型到Pytorch模型的轉(zhuǎn)換方式

    MxNet預(yù)訓(xùn)練模型到Pytorch模型的轉(zhuǎn)換方式

    這篇文章主要介紹了MxNet預(yù)訓(xùn)練模型到Pytorch模型的轉(zhuǎn)換方式,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-05-05
  • 使用 Python 合并多個格式一致的 Excel 文件(推薦)

    使用 Python 合并多個格式一致的 Excel 文件(推薦)

    這篇文章主要介紹了使用 Python 合并多個格式一致的 Excel 文件,本文給大家介紹的非常詳細,具有一定的參考借鑒價值,需要的朋友可以參考下
    2019-12-12
  • Python實現(xiàn)RabbitMQ6種消息模型的示例代碼

    Python實現(xiàn)RabbitMQ6種消息模型的示例代碼

    這篇文章主要介紹了Python實現(xiàn)RabbitMQ6種消息模型的示例代碼,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2020-03-03
  • python使用yield壓平嵌套字典的超簡單方法

    python使用yield壓平嵌套字典的超簡單方法

    這篇文章主要給大家介紹了關(guān)于python使用yield壓平嵌套字典的超簡單方法,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者使用python具有一定的參考學(xué)習(xí)價值,需要的朋友們下面來一起學(xué)習(xí)學(xué)習(xí)吧
    2019-11-11
  • python中bs4.BeautifulSoup的基本用法

    python中bs4.BeautifulSoup的基本用法

    這篇文章主要介紹了python中bs4.BeautifulSoup的基本用法,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2019-07-07
  • pyinstaller打包可執(zhí)行文件出現(xiàn)KeyError的問題

    pyinstaller打包可執(zhí)行文件出現(xiàn)KeyError的問題

    這篇文章主要介紹了pyinstaller打包可執(zhí)行文件出現(xiàn)KeyError的問題,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
    2023-11-11
  • Mac 上切換Python多版本

    Mac 上切換Python多版本

    Mac上自帶了Python2.x的版本,有時需要使用Python3.x版本做開發(fā),但不能刪了Python2.x,可能引起系統(tǒng)不穩(wěn)定,那么就需要安裝多個版本的Python下面通過本文給大家介紹Mac 上切換Python多版本的方法,需要的的朋友一起看看吧
    2017-06-06
  • Python中列表和元組的使用方法和區(qū)別詳解

    Python中列表和元組的使用方法和區(qū)別詳解

    這篇文章主要介紹了Python中列表和元組的使用方法和區(qū)別詳解的相關(guān)資料,需要的朋友可以參考下
    2016-07-07

最新評論