欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python?pdfplumber庫批量提取pdf表格數(shù)據(jù)轉(zhuǎn)換為excel

 更新時(shí)間:2022年06月27日 14:03:54   作者:python與數(shù)據(jù)分析  
這篇文章主要為大家介紹了python使用pdfplumber庫批量提取pdf表格數(shù)據(jù)轉(zhuǎn)換為excel格式的示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪

需求

想要提取 pdf 的數(shù)據(jù),保存到 excel 中。雖然是可以直接利用 WPS 將 pdf 文件輸出成 excel,但這個(gè)功能是收費(fèi)的,而且如果將大量pdf轉(zhuǎn)excel的時(shí)候,手動(dòng)去輸出是非常耗時(shí)的。我們可以利用 python 的三方工具庫 pdfplumber 快速完成這個(gè)功能。

一、實(shí)現(xiàn)效果圖

二、pdfplumber 庫

pdfplumber 是一個(gè)開源 python 工具庫-,可以方便地獲取 pdf 的各種信息,包括文本、表格、圖表、尺寸等。完成我們本文的需求,主要使用 pdfplumber 提取 pdf 表格數(shù)據(jù)。

安裝命令

pip install pdfplumber

三、代碼實(shí)現(xiàn)

1、導(dǎo)入相關(guān)包

import pdfplumber
import pandas as pd

2、讀取 pdf , 并獲取 pdf 的頁數(shù)

pdf = pdfplumber.open("/Users/wangwangyuqing/Desktop/1.pdf")
pages = pdf.pages

3、提取單個(gè) pdf 文件,保存成 excel

if len(pages) > 1:
    tables = []
    for each in pages:
        table = each.extract_table()
        tables.extend(table)
else:
    tables = each.extract_table()
data = pd.DataFrame(tables[1:], columns=tables[0])
data
data.to_excel("/Users/wangwangyuqing/Desktop/1.xlsx", index=False)

4、提取文件夾下多個(gè) pdf 文件,保存成 excel

import os
import glob
path = r'/Users/wangwangyuqing/Desktop/pdf文件'
for f in glob.glob(os.path.join(path, "*.pdf")):
    res = save_pdf_to_excel(f)
    print(res)
def save_pdf_to_excel(path):
    #     print('文件名為:',path.split('/')[-1].split('.')[0] + '.xlsx')
    pdf = pdfplumber.open(path)
    pages = pdf.pages
    if len(pages) > 1:
        tables = []
        for each in pages:
            table = each.extract_table()
            tables.extend(table)
    else:
        tables = each.extract_table()
    data = pd.DataFrame(tables[1:], columns=tables[0])
    file_name = path.split('/')[-1].split('.')[0] + '.xlsx'
    data.to_excel("/Users/wangwangyuqing/Desktop/data/{}".format(file_name), index=False)
    return '保存成功!'

小結(jié)

python 中還有很多庫可以處理 pdf,比如 PyPDF2、pdfminer 等,本文選擇pdfplumber 的原因在于能輕松訪問有關(guān) PDF 的所有詳細(xì)信息,包括作者、來源、日期等,并且用于提取文本和表格的方法靈活可定制。大家可以根據(jù)手頭數(shù)據(jù)需求,再去解鎖 pdfplumber 的更多用法。

以上就是python pdfplumber庫批量提取pdf表格數(shù)據(jù)轉(zhuǎn)換為excel的詳細(xì)內(nèi)容,更多關(guān)于python pdfplumber庫pdf轉(zhuǎn)換excel的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!

相關(guān)文章

  • 詳解Python圖像處理庫Pillow常用使用方法

    詳解Python圖像處理庫Pillow常用使用方法

    PIL(Python Imaging Library)是Python一個(gè)強(qiáng)大方便的圖像處理庫,只支持到Python2.7。這篇文章主要介紹了Python圖像處理庫Pillow常用使用方法,需要的朋友可以參考下
    2019-09-09
  • Python使用修飾器進(jìn)行異常日志記錄操作示例

    Python使用修飾器進(jìn)行異常日志記錄操作示例

    這篇文章主要介紹了Python使用修飾器進(jìn)行異常日志記錄操作,結(jié)合實(shí)例形式分析了Python基于修飾器的log日志文件操作的相關(guān)實(shí)現(xiàn)技巧,需要的朋友可以參考下
    2019-03-03
  • TensorFLow 變量命名空間實(shí)例

    TensorFLow 變量命名空間實(shí)例

    今天小編就為大家分享一篇TensorFLow 變量命名空間實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2020-02-02
  • django query模塊

    django query模塊

    這篇文章主要介紹了django query模塊,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2019-04-04
  • python解析中國天氣網(wǎng)的天氣數(shù)據(jù)

    python解析中國天氣網(wǎng)的天氣數(shù)據(jù)

    最近學(xué)習(xí)python 感覺這門腳本語言十分靈活 而且功能十分強(qiáng)大 尤其是他re庫用于正則匹配十分強(qiáng)大,寫了個(gè)例子解析中國天氣網(wǎng)
    2014-03-03
  • Pytorch實(shí)現(xiàn)LSTM和GRU示例

    Pytorch實(shí)現(xiàn)LSTM和GRU示例

    今天小編就為大家分享一篇Pytorch實(shí)現(xiàn)LSTM和GRU示例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2020-01-01
  • Python的print函數(shù)如何覆蓋打印

    Python的print函數(shù)如何覆蓋打印

    這篇文章主要介紹了Python的print函數(shù)如何覆蓋打印問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2024-02-02
  • Python實(shí)現(xiàn)讀取目錄所有文件的文件名并保存到txt文件代碼

    Python實(shí)現(xiàn)讀取目錄所有文件的文件名并保存到txt文件代碼

    這篇文章主要介紹了Python實(shí)現(xiàn)讀取目錄所有文件的文件名并保存到txt文件代碼,本文分別使用os.listdir和os.walk實(shí)現(xiàn)給出兩段實(shí)現(xiàn)代碼,需要的朋友可以參考下
    2014-11-11
  • 手把手教你安裝Windows版本的Tensorflow

    手把手教你安裝Windows版本的Tensorflow

    這篇文章主要介紹了手把手教你安裝Windows版本的Tensorflow,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2020-03-03
  • python中關(guān)于property的最詳細(xì)使用方法

    python中關(guān)于property的最詳細(xì)使用方法

    這篇文章主要介紹了python中關(guān)于property的最詳細(xì)使用方法,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2021-04-04

最新評(píng)論