利用Python的PyPDF2庫提取pdf中的文字
一、PyPDF2庫是什么?
PyPDF2是一個(gè)用于處理PDF文件的Python庫,它提供了許多用于讀取和操作PDF文件的功能。它可以對(duì)PDF文件進(jìn)行合并、分割、旋轉(zhuǎn)、提取頁面、加密和解密等操作,也可以添加文本、圖像和水印等元素到PDF文件中。
PyPDF2庫允許開發(fā)人員通過Python代碼輕松地處理PDF文件,因?yàn)樗峁┝艘恍┖唵我子玫慕涌冢瑫r(shí)它也非常靈活,可以根據(jù)需要進(jìn)行自定義操作。對(duì)于需要處理PDF文件的Python應(yīng)用程序,PyPDF2是一個(gè)非常實(shí)用的工具庫。
二、安裝PyPDF2庫
pip install PyPDF2
三、查看PyPDF2庫版本
pip show PyPDF2
Name: PyPDF2
Version: 3.0.1
Summary: A pure-python PDF library capable of splitting, merging, cropping, and transforming PDF files
Home-page:
Author:
Author-email: Mathieu Fenniak biziqe@mathieu.fenniak.net
License:
Requires: typing_extensions
Required-by:
四、使用方法
1.引入庫
import PyPDF2
2.定義pdf路徑
local = '/Users/kkstar/Downloads/'
3.打開PDF文件
with open(local+'demo.pdf', 'rb') as pdf_file:
4.創(chuàng)建PDF閱讀器對(duì)象
pdf_reader = PyPDF2.PdfReader(pdf_file)
5.獲取PDF文件中的頁數(shù)
num_pages = len(pdf_reader.pages)
6.遍歷每一頁
for page_num in range(num_pages):
7.獲取當(dāng)前頁內(nèi)容
page = pdf_reader.pages[page_num]
8.提取當(dāng)前頁文本
page_text = page.extract_text()
9.打印當(dāng)前頁文本
print(page_text)
10.效果
大家好,我是空空star,這是第一頁。
大家好,我是空空star,這是第二頁。
大家好,我是空空star,這是第三頁。
Process finished with exit code 0
總結(jié)
需要提取的pdf截圖
以上就是利用Python的PyPDF2庫提取pdf中的文字的詳細(xì)內(nèi)容,更多關(guān)于Python PyPDF2庫提取pdf文字的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
python logging日志模塊以及多進(jìn)程日志詳解
本篇文章主要介紹了python logging日志模塊以及多進(jìn)程日志詳解,小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧2018-04-04使用Python快速提取PPT中的文本內(nèi)容的代碼示例
本文將介紹如何使用Python程序提取PowerPoint演示文稿中的文本內(nèi)容,包括幻燈片中的主體文本、幻燈片備注文本以及幻燈片,文中通過代碼示例給大家介紹的非常詳細(xì),具有一定的參考價(jià)值,需要的朋友可以參考下2024-03-03Python使用eel模塊創(chuàng)建GUI應(yīng)用程序
在Python中,有許多庫和模塊可以用來創(chuàng)建圖形用戶界面(GUI)應(yīng)用程序,其中一個(gè)流行的選擇是使用eel模塊,下面小編就來為大家詳細(xì)介紹一下如何使用eel模塊創(chuàng)建GUI應(yīng)用程序吧2023-12-12python解析Chrome瀏覽器歷史瀏覽記錄和收藏夾數(shù)據(jù)
大家好,本篇文章主要講的是python解析Chrome瀏覽器歷史瀏覽記錄和收藏夾數(shù)據(jù),感興趣的同學(xué)趕快來看一看吧,對(duì)你有幫助的話記得收藏一下2022-02-02python?中的requirements.txt?文件的使用詳情
這篇文章主要介紹了python?中的requirements.txt文件的使用詳情,文章圍繞主題展開詳細(xì)內(nèi)容介紹,具有一定的參考價(jià)值,需要的小伙伴可以參考一下2022-05-05一篇文章帶你了解python標(biāo)準(zhǔn)庫--random模塊
這篇文章主要給大家介紹了關(guān)于Python中random模塊常用方法的使用教程,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2021-08-08