快捷導(dǎo)航

詳解Python如何利用pdfplumber提取PDF中的表格

更新時(shí)間：2024年04月18日 10:32:28 作者：程序媛小本

pdfplumber 是一個(gè)開源的 python 工具庫 ,它可以輕松的獲取 PDF 文本內(nèi)容、標(biāo)題、表格、尺寸等各種信息,今天來介紹如何使用它來提取 PDF 中的表格,文中通過代碼和圖片講解的非常詳細(xì),需要的朋友可以參考下

前言

pdfplumber 是一個(gè)開源的 python 工具庫，它可以輕松的獲取 PDF 文本內(nèi)容、標(biāo)題、表格、尺寸等各種信息，今天來介紹如何使用它來提取 PDF 中的表格。

安裝

首先通過下面命令安裝 pdfplumber 模塊。

pip install pdfplumber

或是使用豆瓣鏡像源安裝。

pip install -i https://pypi.douban.com/simple pdfplumber

案例

這里有一份2020年中國大學(xué)生計(jì)算機(jī)設(shè)計(jì)大賽參賽作品獲獎(jiǎng)名單，文件為 PDF 格式，每頁都包含表格，表格中包含為各支隊(duì)伍的獲獎(jiǎng)信息，共158頁。表格前兩頁內(nèi)容如下。

下面將 PDF 中的表格提取出來，并保存到 Excel 中。

首先導(dǎo)入所需要的模塊：

import pdfplumber
import pandas as pd

讀取 PDF 文件

read_path = '2020年中國大學(xué)生計(jì)算機(jī)設(shè)計(jì)大賽參賽作品獲獎(jiǎng)名單.pdf'
pdf_2020 = pdfplumber.open(read_path)

pages 屬性包含 PDF 中每頁的信息，循環(huán)每頁內(nèi)容，使用 extract_table() 方法提取每頁中的表格數(shù)據(jù)，并將數(shù)據(jù)轉(zhuǎn)為 DataFrame，最后合并每頁的數(shù)據(jù)。

result_df = pd.DataFrame()
for page in pdf_2020.pages:
    table = page.extract_table()
    df_detail = pd.DataFrame(table[1:], columns=table[0])
    # 合并每頁的數(shù)據(jù)集
    result_df = pd.concat([df_detail, result_df], ignore_index=True)

此時(shí)DataFrame中數(shù)據(jù)如下：

可以看到通過 extract_table() 提取后的數(shù)據(jù)有許多包含缺失值的列，我們還需要對(duì)DataFrame進(jìn)行進(jìn)一步處理，刪除全為缺失值的列。

result_df.dropna(axis=1, how='all', inplace=True)

刪了缺失值后，列名也一并刪除了，還需要指定對(duì)應(yīng)列名。

result_df.columns = ['獎(jiǎng)項(xiàng)', '作品編號(hào)', '作品名稱', '參賽學(xué)校', '作者', '指導(dǎo)老師']

到現(xiàn)在我們就成功將表格信息完整的提取出來了！

完整代碼

import pdfplumber
import pandas as pd

def read_pdf(read_path, save_path):
    pdf_2020 = pdfplumber.open(read_path)
    result_df = pd.DataFrame()
    for page in pdf_2020.pages:
        table = page.extract_table()
        print(table)
        df_detail = pd.DataFrame(table[1:], columns=table[0])
        result_df = pd.concat([df_detail, result_df], ignore_index=True)
    result_df.dropna(axis=1, how='all', inplace=True)
    result_df.columns = ['獎(jiǎng)項(xiàng)', '作品編號(hào)', '作品名稱', '參賽學(xué)校', '作者', '指導(dǎo)老師']
    result_df.to_excel(excel_writer=save_path, index=False, encoding='utf-8')

read_path = r'2020年中國大學(xué)生計(jì)算機(jī)設(shè)計(jì)大賽參賽作品獲獎(jiǎng)名單.pdf'
save_path = r'2020年中國大學(xué)生計(jì)算機(jī)設(shè)計(jì)大賽參賽作品獲獎(jiǎng)名單.xlsx'
read_pdf(read_path, save_path)

到此這篇關(guān)于詳解Python如何利用pdfplumber提取PDF中的表格的文章就介紹到這了,更多相關(guān)Python pdfplumber提取PDF表格內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: