Python利用PyPDF2庫實現(xiàn)輕松提取PDF文本
當需要從PDF文件中提取文本時,Python中的PyPDF2庫是一個非常有用的工具。無論您是需要分析PDF文檔中的內(nèi)容還是需要在文檔中搜索特定的信息,PyPDF2都可以幫助您輕松實現(xiàn)這些任務。
在本文中,我們將探討如何使用PyPDF2庫提取PDF文件中的文本,并提供一些示例代碼來幫助您入門。
安裝PyPDF2庫
首先,您需要安裝PyPDF2庫。您可以使用pip來安裝它:
pip install PyPDF2
打開PDF文件,并讀取內(nèi)容
讓我們從一個簡單的示例開始。假設我們有一個名為"sample.pdf"的PDF文件,并且我們想要提取其中的文本內(nèi)容。
import PyPDF2
# 打開PDF文件
pdf_file = open('YOLOv1.pdf', 'rb')
# 創(chuàng)建一個PDF對象
pdf_reader = PyPDF2.PdfReader(pdf_file)
# 獲取PDF文件中的頁面數(shù)量
num_pages = len(pdf_reader.pages)
# 創(chuàng)建一個空字符串,用于存儲提取的文本
text = ""
# 循環(huán)遍歷每一頁并提取文本
for page_num in range(num_pages):
page = pdf_reader.pages[page_num]
text += page.extract_text()
# 關閉PDF文件
pdf_file.close()
# 打印提取的文本
print(text)以上代碼將打開名為"YOLOv1.pdf"的PDF文件,遍歷每一頁并將文本內(nèi)容提取到一個字符串中。最后,它會打印提取的文本。

提取結果
高級用法
除了基本的文本提取,PyPDF2還提供了其他功能,例如合并多個PDF文件、旋轉頁面、添加書簽等。讓我們詳細討論一些高級用法,并提供相應的代碼示例。
合并多個PDF文件
有時,您可能需要將多個PDF文件合并成一個文件。PyPDF2允許您執(zhí)行此操作。
from PyPDF2 import PdfWriter
merger = PdfWriter()
for pdf in ["M:\YOLOv1.pdf", "M:\YOLOv2.pdf"]:
merger.append(pdf)
merger.write("M:\merged.pdf")
merger.close()以上代碼將打開名為’YOLOv1.pdf’和’YOLOv1.pdf’的兩個PDF文件,將它們的內(nèi)容合并到一個新的PDF文件’merged.pdf’中。
旋轉頁面
有時,PDF文件中的頁面可能需要旋轉。使用PyPDF2,您可以旋轉頁面以適應您的需求。
import PyPDF2
# 打開PDF文件
pdf_file = open('M:\YOLOv1.pdf', 'rb')
# 創(chuàng)建PDF對象
pdf_reader = PyPDF2.PdfReader(pdf_file)
# 創(chuàng)建一個新的PDF對象
pdf_writer = PyPDF2.PdfWriter()
# 旋轉第一頁90度
page = pdf_reader.pages[0]
page.rotate(90)
pdf_writer.add_page(page)
# 將未旋轉的頁面添加到新文件中
for page_num in range(1, len(pdf_reader.pages)):
page = pdf_reader.pages[page_num]
pdf_writer.add_page(page)
# 創(chuàng)建一個新的PDF文件并保存旋轉后的內(nèi)容
output_pdf = open('M:\YOLOv1-rd.pdf', 'wb')
pdf_writer.write(output_pdf)
# 關閉所有打開的文件
pdf_file.close()
output_pdf.close()以上代碼將打開名為’YOLOv1.pdf’的PDF文件,旋轉第一頁90度,并將旋轉后的頁面保存到新的PDF文件’YOLOv1-rd.pdf’中。
添加書簽
您還可以使用PyPDF2在PDF文件中添加書簽,以便更輕松地導航和查找內(nèi)容。
以上代碼將打開名為’YOLOv1.pdf’的PDF文件,將其內(nèi)容復制到新的PDF文件’YOLOv1-copy.pdf’中,并在第一頁和第六頁添加了兩個書簽。
import PyPDF2
# 打開PDF文件
pdf_file = open('M:\YOLOv1.pdf', 'rb')
# 創(chuàng)建PDF對象
pdf_reader = PyPDF2.PdfReader(pdf_file)
# 創(chuàng)建一個新的PDF對象
pdf_writer = PyPDF2.PdfWriter()
# 循環(huán)遍歷每一頁并將頁面添加到新文件中
for page_num in range(len(pdf_reader.pages)):
page = pdf_reader.pages[page_num]
pdf_writer.add_page(page)
# 添加書簽
pdf_writer.add_bookmark('Chapter 1', 0) # 在第一頁添加一個名為"Chapter 1"的書簽
pdf_writer.add_bookmark('Chapter 2', 5) # 在第六頁添加一個名為"Chapter 2"的書簽
# 創(chuàng)建一個新的PDF文件并保存帶有書簽的內(nèi)容
output_pdf = open('M:\YOLOv1-copy.pdf', 'wb')
pdf_writer.write(output_pdf)
# 關閉所有打開的文件
pdf_file.close()
output_pdf.close()結論
使用PyPDF2庫,您可以輕松地從PDF文件中提取文本,這對于數(shù)據(jù)分析、信息檢索和自動化任務非常有用。希望這篇文章和示例代碼有助于您開始使用PyPDF2進行PDF文本提取。如若需要其他高級用法,例如比例調(diào)整、放縮等操作,可以訪問PyPDF2的官方網(wǎng)站查看其他示例。
以上就是Python利用PyPDF2庫實現(xiàn)輕松提取PDF文本的詳細內(nèi)容,更多關于Python PyPDF2提取PDF文本的資料請關注腳本之家其它相關文章!
- Python使用PyPDF2庫實現(xiàn)向PDF文件中插入內(nèi)容
- Python使用PyPDF2?Pillow庫來將PDF文件轉圖片
- PyPDF2讀取PDF文件內(nèi)容保存到本地TXT實例
- 解決pyPdf和pyPdf2在合并pdf時出現(xiàn)異常的問題
- Python實現(xiàn)PyPDF2處理PDF文件的方法示例
- Python中使用pypdf2合并、分割、加密pdf文件的代碼詳解
- Python使用pdfplumber庫高效解析PDF文件
- Python利用pdfplumber庫提取pdf中表格數(shù)據(jù)
- python用pdfplumber提取pdf表格數(shù)據(jù)并保存到excel文件中
- Python利用pdfplumber實現(xiàn)讀取PDF寫入Excel
- python使用PyPDF2 和 pdfplumber操作PDF文件
相關文章
使用Python的Tornado框架實現(xiàn)一個一對一聊天的程序
這篇文章主要介紹了使用Python的Tornado框架實現(xiàn)一個一對一聊天的程序,程序基于WebSocket,需要的朋友可以參考下2015-04-04
地圖可視化神器kepler.gl python接口的使用方法
這篇文章主要介紹了python 地圖可視化神器kepler.gl近期重要更新的的相關資料,幫助大家利用python實現(xiàn)地圖可視化,感興趣的朋友可以了解下2020-12-12
Django實現(xiàn)列表頁商品數(shù)據(jù)返回教程
這篇文章主要介紹了Django實現(xiàn)列表頁商品數(shù)據(jù)返回教程,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-04-04
Python?Matplotlib通過plt.subplots創(chuàng)建子繪圖
這篇文章主要介紹了Python?Matplotlib通過plt.subplots創(chuàng)建子繪圖,plt.subplots調(diào)用后將會產(chǎn)生一個圖表和默認網(wǎng)格,與此同時提供一個合理的控制策略布局子繪圖,更多相關需要的朋友可以參考下面文章內(nèi)容2022-07-07
如何打包Python Web項目實現(xiàn)免安裝一鍵啟動的方法
這篇文章主要介紹了如何打包Python Web項目,實現(xiàn)免安裝一鍵啟動,本文給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下2020-05-05

