欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

如何用Python讀取pdf中的文字與表格

 更新時(shí)間:2024年11月18日 10:13:06   作者:幸福清風(fēng)  
這篇文章主要介紹了如何在Python中安裝和使用PyPDF2和pdfplumber庫來處理PDF文件,包括安裝步驟、庫的使用方法以及它們在提取文本和表格方面的不同優(yōu)勢,文中通過代碼介紹的非常詳細(xì),需要的朋友可以參考下

一、PyPDF2包安裝

在Python中安裝PyPDF2庫,您可以使用pip包管理器。打開您的命令行工具(例如CMD、Terminal或Anaconda Prompt),然后輸入以下命令:

pip install PyPDF2

如果您使用的是Python 3,并且系統(tǒng)中同時(shí)安裝了Python 2,您可能需要使用以下命令以確保為Python 3安裝庫:

pip3 install PyPDF2

如果您在安裝過程中遇到權(quán)限問題,可以嘗試在命令前添加--user參數(shù),這樣會(huì)將庫安裝到用戶目錄下,而不會(huì)影響系統(tǒng)級別的Python環(huán)境:

pip install --user PyPDF2

或者,如果您在虛擬環(huán)境中工作,確保您已經(jīng)激活了相應(yīng)的虛擬環(huán)境,然后在虛擬環(huán)境中運(yùn)行上述命令。

如果您使用的是Anaconda環(huán)境,也可以通過conda命令來安裝PyPDF2:

conda install -c conda-forge pypdf2

注意:conda命令中的包名稱是小寫的pypdf2。

二、pdfplumber包安裝

安裝 pdfplumber 庫,您可以在命令行中使用以下命令:

pip install pdfplumber

如果您在使用 pip 安裝時(shí)遇到網(wǎng)絡(luò)問題,可以嘗試使用國內(nèi)的鏡像源,例如:

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pdfplumber

或者使用阿里云鏡像源:

pip install -i https://mirrors.aliyun.com/pypi/simple/ pdfplumber

安裝完成后,您可以在Python腳本中導(dǎo)入 pdfplumber 并使用其功能來提取PDF文件中的文本和表格數(shù)據(jù)。

在使用 pdfplumber 提取表格時(shí),可能需要安裝額外的依賴,如 ImageMagick 和 GhostScript。特別是 ImageMagick,如果您需要使用 to_image 函數(shù)進(jìn)行可視化調(diào)試,建議安裝6.x版本而非最新的7.x版本。而 GhostScript 需要32位版本,即使您的操作系統(tǒng)和Python是64位的。

三、使用PyPDF2庫提取文本

PyPDF2是一個(gè)純Python庫,可以用來讀取PDF文件并提取文本內(nèi)容。

安裝PyPDF2后,可以按照以下方式使用:

import PyPDF2

with open('example.pdf', 'rb') as file:
    reader = PyPDF2.PdfFileReader(file)
    text = ""
    for page_num in range(reader.numPages):
        page = reader.getPage(page_num)
        text += page.extractText()
print(text)

但請注意,PyPDF2在提取非文本內(nèi)容(如表格)方面可能效果不佳。

四、使用pdfplumber提取文本和表格

pdfplumber是一個(gè)強(qiáng)大的庫,可以提取PDF中的文本、表格和其他元素。它在處理表格方面特別有用。

安裝pdfplumber后,可以按照以下方式使用:

import pdfplumber

with pdfplumber.open("example.pdf") as pdf:
    for page in pdf.pages:
        text = page.extract_text()
        tables = page.extract_tables()
        for table in tables:
            for row in table:
                print(row)

pdfplumber可以提取文本,并能夠?qū)⒈砀駭?shù)據(jù)以列表的形式返回,便于進(jìn)一步處理。

總結(jié)

到此這篇關(guān)于如何用Python讀取pdf中的文字與表格的文章就介紹到這了,更多相關(guān)Python讀取pdf文字與表格內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • python實(shí)現(xiàn)旋轉(zhuǎn)和水平翻轉(zhuǎn)的方法

    python實(shí)現(xiàn)旋轉(zhuǎn)和水平翻轉(zhuǎn)的方法

    今天小編就為大家分享一篇python實(shí)現(xiàn)旋轉(zhuǎn)和水平翻轉(zhuǎn)的方法,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-10-10
  • python學(xué)習(xí)實(shí)操案例(四)

    python學(xué)習(xí)實(shí)操案例(四)

    這篇文章主要介紹了python學(xué)習(xí)實(shí)操案例,這一篇小編給大家?guī)淼氖橇斜?,所以這里是和列表有關(guān)的案例,需要的小伙伴可以參考一下,希望對你有所幫助<BR>
    2022-02-02
  • django配置連接數(shù)據(jù)庫及原生sql語句的使用方法

    django配置連接數(shù)據(jù)庫及原生sql語句的使用方法

    這篇文章主要給大家介紹了關(guān)于django配置連接數(shù)據(jù)庫,以及原生sql語句的使用方法,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面來一起學(xué)習(xí)學(xué)習(xí)吧
    2019-03-03
  • Python中防止sql注入的方法詳解

    Python中防止sql注入的方法詳解

    SQL注入是比較常見的網(wǎng)絡(luò)攻擊方式之一,它不是利用操作系統(tǒng)的BUG來實(shí)現(xiàn)攻擊,而是針對程序員編程時(shí)的疏忽,通過SQL語句,實(shí)現(xiàn)無帳號登錄,甚至篡改數(shù)據(jù)庫。下面這篇文章主要給大家介紹了關(guān)于Python中防止sql注入的方法,需要的朋友可以參考下。
    2017-02-02
  • django基于restframework的CBV封裝詳解

    django基于restframework的CBV封裝詳解

    這篇文章主要介紹了django基于restframework的CBV封裝詳解,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2019-08-08
  • pandas中df.groupby()方法深入講解

    pandas中df.groupby()方法深入講解

    在使用pandas進(jìn)行數(shù)據(jù)統(tǒng)計(jì)分析時(shí)遇到了問題,找了很久才找到解決辦法,所以下面這篇文章主要給大家介紹了關(guān)于pandas中df.groupby()方法的相關(guān)資料,需要的朋友可以參考下
    2022-12-12
  • python批量修改圖片后綴的方法(png到j(luò)pg)

    python批量修改圖片后綴的方法(png到j(luò)pg)

    今天小編就為大家分享一篇python批量修改圖片后綴(png到j(luò)pg),具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-10-10
  • Python-openCV開運(yùn)算實(shí)例

    Python-openCV開運(yùn)算實(shí)例

    這篇文章主要介紹了Python-openCV開運(yùn)算實(shí)例,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-07-07
  • python中filter,map,reduce的作用

    python中filter,map,reduce的作用

    這篇文章主要介紹了python中filter,map,reduce的作用,文章首先通過map函數(shù)展開,map主要作用是計(jì)算一個(gè)序列或者多個(gè)序列進(jìn)行函數(shù)映射之后的值,感興趣的朋友可以參考一下
    2022-06-06
  • Python的Flask框架標(biāo)配模板引擎Jinja2的使用教程

    Python的Flask框架標(biāo)配模板引擎Jinja2的使用教程

    Jinja2是Python世界的一款高人氣template engine,是許多開源Web框架的選擇,包括Flask這樣的明星級項(xiàng)目,這里我們就來共同學(xué)習(xí)Python的Flask框架標(biāo)配模板引擎Jinja2的使用教程
    2016-07-07

最新評論