Python利用pdfplumber庫(kù)提取pdf中的文字
一、pdfplumber庫(kù)是什么?
pdfplumber是一個(gè)用于從PDF文檔中提取文本和表格數(shù)據(jù)的Python庫(kù)。它可以幫助用戶輕松地從PDF文件中提取有用的信息,例如表格、文本、元數(shù)據(jù)等。pdfplumber庫(kù)的特點(diǎn)包括:簡(jiǎn)單易用、速度快、支持多種PDF文件格式、支持從多個(gè)頁(yè)面中提取數(shù)據(jù)等。pdfplumber庫(kù)還提供了一些方便的方法來處理提取的數(shù)據(jù),例如排序、過濾和格式化等。它是一個(gè)非常有用的工具,特別是在需要從大量PDF文件中提取數(shù)據(jù)時(shí)。
二、安裝pdfplumber庫(kù)
pip install pdfplumber
三、查看pdfplumber庫(kù)版本
pip show pdfplumber
Name: pdfplumber
Version: 0.9.0
Summary: Plumb a PDF for detailed information about each char, rectangle, and line.
Home-page: https://github.com/jsvine/pdfplumber
Author: Jeremy Singer-Vine
Author-email: jsvine@gmail.com
License:
Requires: pdfminer.six, Pillow, Wand
Required-by:
四、pdfplumber和PyPDF2區(qū)別是什么?
pdfplumber和PyPDF2都是Python中用于處理PDF文件的庫(kù),但它們有一些區(qū)別:
功能:pdfplumber提供了更多的功能,例如提取表格、提取圖片、提取鏈接等,而PyPDF2只能提取文本和元數(shù)據(jù)。
速度:pdfplumber比PyPDF2更快,因?yàn)樗褂昧薈語(yǔ)言的pdfminer庫(kù)進(jìn)行解析。
API:pdfplumber的API更加直觀和易用,而PyPDF2的API有時(shí)候會(huì)讓人感到困惑。
總之,如果你需要提取PDF文件中的表格、圖片或鏈接等內(nèi)容,那么pdfplumber是一個(gè)更好的選擇。如果你只需要提取文本和元數(shù)據(jù),那么PyPDF2也可以勝任。
五、使用方法
1.引入庫(kù)
import pdfplumber
2.定義pdf路徑
local = '/Users/kkstar/Downloads/'
3.打開PDF文件
with pdfplumber.open(local+"demo.pdf") as pdf:
4.獲取PDF文件中的頁(yè)數(shù)
num_pages = len(pdf.pages)
5.遍歷每一頁(yè)
for page_num in range(num_pages):
6.獲取當(dāng)前頁(yè)內(nèi)容
page = pdf.pages[page_num]
7.提取文本內(nèi)容
text = page.extract_text()
8.打印文本內(nèi)容
print(text)
9.效果
大家好,我是空空star,這是第一頁(yè)。
大家好,我是空空star,這是第二頁(yè)。
大家好,我是空空star,這是第三頁(yè)。
到此這篇關(guān)于Python利用pdfplumber庫(kù)提取pdf中的文字的文章就介紹到這了,更多相關(guān)Python pdfplumber庫(kù)提取文字內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
python 通過麥克風(fēng)錄音 生成wav文件的方法
今天小編就為大家分享一篇python 通過麥克風(fēng)錄音 生成wav文件的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2019-01-01matplotlib?雙y軸繪制及合并圖例的實(shí)現(xiàn)代碼
這篇文章主要介紹了matplotlib?雙y軸繪制及合并圖例,本文通過實(shí)例代碼給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2022-10-10Python+OpenCV數(shù)字圖像處理之ROI區(qū)域的提取
ROI區(qū)域又叫感興趣區(qū)域。在機(jī)器視覺、圖像處理中,從被處理的圖像以方框、圓、橢圓、不規(guī)則多邊形等方式勾勒出需要處理的區(qū)域,稱為感興趣區(qū)域,ROI。本文主要為大家介紹如何通過Python+OpenCV提取ROI區(qū)域,需要的朋友可以了解一下2021-12-12Django實(shí)現(xiàn)將一個(gè)字典傳到前端顯示出來
這篇文章主要介紹了Django實(shí)現(xiàn)將一個(gè)字典傳到前端顯示出來,具有很好的參考價(jià)值,希望2020-04-04簡(jiǎn)單了解什么是神經(jīng)網(wǎng)絡(luò)
這篇文章主要介紹了簡(jiǎn)單了解什么是神經(jīng)網(wǎng)絡(luò),具有一定借鑒價(jià)值,需要的朋友可以參考下。2017-12-12