基于Python快速處理PDF表格數(shù)據

更新時間：2020年06月03日 11:10:07 作者：其實還好啦

這篇文章主要介紹了基于Python快速處理PDF表格數(shù)據,文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

我們有下面一張PDF格式存儲的表格，現(xiàn)在需要使用Python將它提取出來。

使用Python提取表格數(shù)據需要使用pdfplumber模塊，打開CMD，安裝代碼如下：

pip install pdfplumber

安裝完之后，將需要使用的模塊導入

import pdfplumberimport pandas as pd

然后打開PDF文件

# 使用with語句打開pdf文件
with pdfplumber.open("D:\\python\\cai\\yq.pdf") as pdf:
  # pages[0]表示取第1頁
  page = pdf.pages[0]

我們來打印輸出下獲取到的文本，這句語句只是幫我們驗證下是否成功獲取到PDF里的內容

print(page.extract_text())

執(zhí)行的結果如下，看來是成功了

然后可以使用extract_table()函數(shù)獲取表格，如果有多個表格，可以使用extract_tables()函數(shù)，就是多了個s

d1=page.extract_table()

執(zhí)行代碼后，將得到一個列表，還不是數(shù)據框

所以最后一步就是將列表轉為數(shù)據框就可以了，代碼如下：

df = pd.DataFrame(d1[1:], columns=d1[0])

執(zhí)行代碼后，將得到了df數(shù)據框

有幾個注意事項要提醒下：

1.pdf表格中的數(shù)據，對于同一個數(shù)據或內容，不要有換行，如果換行，可能被識別為2個數(shù)據；

2.pdf中的表格一定要有邊框，沒有邊框的話，否則使用extract_table()函數(shù)就無法獲取表格數(shù)據，extract_text()還是可以獲取文本信息的，不要問我是怎么知道的，說多了都是淚。

我們現(xiàn)在有一份PDF數(shù)據，里面有三頁，每頁都有一樣數(shù)據結構但數(shù)據不同的數(shù)據表，現(xiàn)在需要使用Python將它批量提取出來。

有了上回經驗，我們就直接上代碼：

import pdfplumber
import pandas as pd
 
# 創(chuàng)建一個空數(shù)據框
df = pd.DataFrame()
 
# 使用with語句打開pdf文件
with pdfplumber.open("D:\\python\\cai\\5.pdf") as pdf:
  # 使用for循環(huán)遍歷每個pages
  for page in pdf.pages:
    # 取出當前頁表格，結果為列表
    d=page.extract_table()
    # 將列表轉為數(shù)據框
    df1 = pd.DataFrame(d[1:], columns=d[0]) 
    #添加至df數(shù)據框中
    df = df.append(df1)

執(zhí)行代碼后，將得到了df數(shù)據框