欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python利用pdfplumber庫(kù)提取pdf中的文字

 更新時(shí)間:2023年05月26日 10:36:15   作者:空空star  
pdfplumber是一個(gè)用于從PDF文檔中提取文本和表格數(shù)據(jù)的Python庫(kù),它可以幫助用戶輕松地從PDF文件中提取有用的信息,例如表格、文本、元數(shù)據(jù)等,本文將給大家介紹如何通過Python的pdfplumber庫(kù)提取pdf中的文字,需要的朋友可以參考下

一、pdfplumber庫(kù)是什么?

pdfplumber是一個(gè)用于從PDF文檔中提取文本和表格數(shù)據(jù)的Python庫(kù)。它可以幫助用戶輕松地從PDF文件中提取有用的信息,例如表格、文本、元數(shù)據(jù)等。pdfplumber庫(kù)的特點(diǎn)包括:簡(jiǎn)單易用、速度快、支持多種PDF文件格式、支持從多個(gè)頁(yè)面中提取數(shù)據(jù)等。pdfplumber庫(kù)還提供了一些方便的方法來處理提取的數(shù)據(jù),例如排序、過濾和格式化等。它是一個(gè)非常有用的工具,特別是在需要從大量PDF文件中提取數(shù)據(jù)時(shí)。

二、安裝pdfplumber庫(kù)

pip install pdfplumber

三、查看pdfplumber庫(kù)版本

pip show pdfplumber

Name: pdfplumber
Version: 0.9.0
Summary: Plumb a PDF for detailed information about each char, rectangle, and line.
Home-page: https://github.com/jsvine/pdfplumber
Author: Jeremy Singer-Vine
Author-email: jsvine@gmail.com
License:
Requires: pdfminer.six, Pillow, Wand
Required-by:

四、pdfplumber和PyPDF2區(qū)別是什么?

pdfplumber和PyPDF2都是Python中用于處理PDF文件的庫(kù),但它們有一些區(qū)別:
功能:pdfplumber提供了更多的功能,例如提取表格、提取圖片、提取鏈接等,而PyPDF2只能提取文本和元數(shù)據(jù)。
速度:pdfplumber比PyPDF2更快,因?yàn)樗褂昧薈語(yǔ)言的pdfminer庫(kù)進(jìn)行解析。
API:pdfplumber的API更加直觀和易用,而PyPDF2的API有時(shí)候會(huì)讓人感到困惑。
總之,如果你需要提取PDF文件中的表格、圖片或鏈接等內(nèi)容,那么pdfplumber是一個(gè)更好的選擇。如果你只需要提取文本和元數(shù)據(jù),那么PyPDF2也可以勝任。

五、使用方法

1.引入庫(kù)

import pdfplumber

2.定義pdf路徑

local = '/Users/kkstar/Downloads/'

3.打開PDF文件

with pdfplumber.open(local+"demo.pdf") as pdf:

4.獲取PDF文件中的頁(yè)數(shù)

    num_pages = len(pdf.pages)

5.遍歷每一頁(yè)

    for page_num in range(num_pages):

6.獲取當(dāng)前頁(yè)內(nèi)容

page = pdf.pages[page_num]

7.提取文本內(nèi)容

text = page.extract_text()

8.打印文本內(nèi)容

print(text)

9.效果

大家好,我是空空star,這是第一頁(yè)。
大家好,我是空空star,這是第二頁(yè)。
大家好,我是空空star,這是第三頁(yè)。

到此這篇關(guān)于Python利用pdfplumber庫(kù)提取pdf中的文字的文章就介紹到這了,更多相關(guān)Python pdfplumber庫(kù)提取文字內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • python 通過麥克風(fēng)錄音 生成wav文件的方法

    python 通過麥克風(fēng)錄音 生成wav文件的方法

    今天小編就為大家分享一篇python 通過麥克風(fēng)錄音 生成wav文件的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2019-01-01
  • Django模板過濾器和繼承示例詳解

    Django模板過濾器和繼承示例詳解

    初入python和django做項(xiàng)目,遇到很多前端頁(yè)面代碼冗余的情況,特別是頭部和腳部,代碼都是一樣的,所以下面這篇文章主要給大家介紹了關(guān)于Django模板過濾器和繼承的相關(guān)資料,需要的朋友可以參考下
    2021-11-11
  • matplotlib?雙y軸繪制及合并圖例的實(shí)現(xiàn)代碼

    matplotlib?雙y軸繪制及合并圖例的實(shí)現(xiàn)代碼

    這篇文章主要介紹了matplotlib?雙y軸繪制及合并圖例,本文通過實(shí)例代碼給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2022-10-10
  • Python判斷Nan值的五種方式小結(jié)

    Python判斷Nan值的五種方式小結(jié)

    這篇文章主要介紹了Python判斷Nan值的五種方式小結(jié),具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2022-05-05
  • Python中運(yùn)算符

    Python中運(yùn)算符"=="和"is"的詳解

    大家都知道python中有很多的運(yùn)算符,今天我們就來深入的介紹is和==這兩種運(yùn)算符以及他們的區(qū)別,有需要的朋友們可以參考借鑒,下面來一起看看吧。
    2016-10-10
  • Python+OpenCV數(shù)字圖像處理之ROI區(qū)域的提取

    Python+OpenCV數(shù)字圖像處理之ROI區(qū)域的提取

    ROI區(qū)域又叫感興趣區(qū)域。在機(jī)器視覺、圖像處理中,從被處理的圖像以方框、圓、橢圓、不規(guī)則多邊形等方式勾勒出需要處理的區(qū)域,稱為感興趣區(qū)域,ROI。本文主要為大家介紹如何通過Python+OpenCV提取ROI區(qū)域,需要的朋友可以了解一下
    2021-12-12
  • Django實(shí)現(xiàn)將一個(gè)字典傳到前端顯示出來

    Django實(shí)現(xiàn)將一個(gè)字典傳到前端顯示出來

    這篇文章主要介紹了Django實(shí)現(xiàn)將一個(gè)字典傳到前端顯示出來,具有很好的參考價(jià)值,希望
    2020-04-04
  • 簡(jiǎn)單了解什么是神經(jīng)網(wǎng)絡(luò)

    簡(jiǎn)單了解什么是神經(jīng)網(wǎng)絡(luò)

    這篇文章主要介紹了簡(jiǎn)單了解什么是神經(jīng)網(wǎng)絡(luò),具有一定借鑒價(jià)值,需要的朋友可以參考下。
    2017-12-12
  • Python連接DB2數(shù)據(jù)庫(kù)

    Python連接DB2數(shù)據(jù)庫(kù)

    DB2 是美國(guó)IBM公司開發(fā)的一套關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng),它主要的運(yùn)行環(huán)境為UNIX(包括IBM自家的AIX)、Linux、IBM i(舊稱OS/400)、z/OS,以及Windows服務(wù)器版本。今天我們來探討下如何使用Python連接DB2數(shù)據(jù)庫(kù)
    2016-08-08
  • 在python中畫正態(tài)分布圖像的實(shí)例

    在python中畫正態(tài)分布圖像的實(shí)例

    今天小編就為大家分享一篇在python中畫正態(tài)分布圖像的實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2019-07-07

最新評(píng)論