利用Python的PyPDF2庫(kù)提取pdf中的文字
一、PyPDF2庫(kù)是什么?
PyPDF2是一個(gè)用于處理PDF文件的Python庫(kù),它提供了許多用于讀取和操作PDF文件的功能。它可以對(duì)PDF文件進(jìn)行合并、分割、旋轉(zhuǎn)、提取頁(yè)面、加密和解密等操作,也可以添加文本、圖像和水印等元素到PDF文件中。
PyPDF2庫(kù)允許開發(fā)人員通過(guò)Python代碼輕松地處理PDF文件,因?yàn)樗峁┝艘恍┖?jiǎn)單易用的接口,同時(shí)它也非常靈活,可以根據(jù)需要進(jìn)行自定義操作。對(duì)于需要處理PDF文件的Python應(yīng)用程序,PyPDF2是一個(gè)非常實(shí)用的工具庫(kù)。
二、安裝PyPDF2庫(kù)
pip install PyPDF2
三、查看PyPDF2庫(kù)版本
pip show PyPDF2
Name: PyPDF2
Version: 3.0.1
Summary: A pure-python PDF library capable of splitting, merging, cropping, and transforming PDF files
Home-page:
Author:
Author-email: Mathieu Fenniak biziqe@mathieu.fenniak.net
License:
Requires: typing_extensions
Required-by:
四、使用方法
1.引入庫(kù)
import PyPDF2
2.定義pdf路徑
local = '/Users/kkstar/Downloads/'
3.打開PDF文件
with open(local+'demo.pdf', 'rb') as pdf_file:
4.創(chuàng)建PDF閱讀器對(duì)象
pdf_reader = PyPDF2.PdfReader(pdf_file)
5.獲取PDF文件中的頁(yè)數(shù)
num_pages = len(pdf_reader.pages)
6.遍歷每一頁(yè)
for page_num in range(num_pages):
7.獲取當(dāng)前頁(yè)內(nèi)容
page = pdf_reader.pages[page_num]
8.提取當(dāng)前頁(yè)文本
page_text = page.extract_text()
9.打印當(dāng)前頁(yè)文本
print(page_text)
10.效果
大家好,我是空空star,這是第一頁(yè)。
大家好,我是空空star,這是第二頁(yè)。
大家好,我是空空star,這是第三頁(yè)。
Process finished with exit code 0
總結(jié)
需要提取的pdf截圖

以上就是利用Python的PyPDF2庫(kù)提取pdf中的文字的詳細(xì)內(nèi)容,更多關(guān)于Python PyPDF2庫(kù)提取pdf文字的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
python logging日志模塊以及多進(jìn)程日志詳解
本篇文章主要介紹了python logging日志模塊以及多進(jìn)程日志詳解,小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧2018-04-04
使用Python快速提取PPT中的文本內(nèi)容的代碼示例
本文將介紹如何使用Python程序提取PowerPoint演示文稿中的文本內(nèi)容,包括幻燈片中的主體文本、幻燈片備注文本以及幻燈片,文中通過(guò)代碼示例給大家介紹的非常詳細(xì),具有一定的參考價(jià)值,需要的朋友可以參考下2024-03-03
Python使用eel模塊創(chuàng)建GUI應(yīng)用程序
在Python中,有許多庫(kù)和模塊可以用來(lái)創(chuàng)建圖形用戶界面(GUI)應(yīng)用程序,其中一個(gè)流行的選擇是使用eel模塊,下面小編就來(lái)為大家詳細(xì)介紹一下如何使用eel模塊創(chuàng)建GUI應(yīng)用程序吧2023-12-12
python解析Chrome瀏覽器歷史瀏覽記錄和收藏夾數(shù)據(jù)
大家好,本篇文章主要講的是python解析Chrome瀏覽器歷史瀏覽記錄和收藏夾數(shù)據(jù),感興趣的同學(xué)趕快來(lái)看一看吧,對(duì)你有幫助的話記得收藏一下2022-02-02
python?中的requirements.txt?文件的使用詳情
這篇文章主要介紹了python?中的requirements.txt文件的使用詳情,文章圍繞主題展開詳細(xì)內(nèi)容介紹,具有一定的參考價(jià)值,需要的小伙伴可以參考一下2022-05-05
一篇文章帶你了解python標(biāo)準(zhǔn)庫(kù)--random模塊
這篇文章主要給大家介紹了關(guān)于Python中random模塊常用方法的使用教程,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2021-08-08

