欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python利用pdfplumber實(shí)現(xiàn)讀取PDF寫(xiě)入Excel

 更新時(shí)間:2022年06月13日 09:14:46   作者:小袁ITSuper  
pdfplumber專注PDF內(nèi)容提取,例如文本(位置、字體及顏色等)和形狀(矩形、直線、曲線),還有解析表格的功能。本文主要為大家介紹如何利用pdfplumber實(shí)現(xiàn)讀取PDF寫(xiě)入Excel,需要的可以參考一下

一、Python操作PDF 13大庫(kù)對(duì)比

PDF(Portable Document Format)是一種便攜文檔格式,便于跨操作系統(tǒng)傳播文檔。PDF文檔遵循標(biāo)準(zhǔn)格式,因此存在很多可以操作PDF文檔的工具,Python自然也不例外。

Python操作PDF模塊對(duì)比圖如下:

本文主要介紹pdfplumber專注PDF內(nèi)容提取,例如文本(位置、字體及顏色等)和形狀(矩形、直線、曲線),還有解析表格的功能。

二、pdfplumber模塊

其他幾個(gè) Python 庫(kù)幫助用戶從 PDF 中提取信息。作為一個(gè)廣泛的概述,pdfplumber它通過(guò)結(jié)合以下功能將自己與其他 PDF 處理庫(kù)區(qū)分開(kāi)來(lái):

  • 輕松訪問(wèn)有關(guān)每個(gè) PDF 對(duì)象的詳細(xì)信息
  • 用于提取文本和表格的更高級(jí)別、可自定義的方法
  • 緊密集成的可視化調(diào)試
  • 其他有用的實(shí)用功能,例如通過(guò)裁剪框過(guò)濾對(duì)象 1.

1.安裝

cmd控制臺(tái)輸入:

pip install pdfplumber

導(dǎo)包:

import pdfplumber

案例PDF截圖(兩頁(yè)未截全):

2. 加載PDF

讀取PDF代碼:pdfplumber.open("路徑/文件名.pdf", password = "test", laparams = { "line_overlap": 0.7 })

參數(shù)解讀:

  • password :要加載受密碼保護(hù)的 PDF,請(qǐng)傳遞password關(guān)鍵字參數(shù)
  • laparams:要將布局分析參數(shù)設(shè)置為pdfminer.six的布局引擎,請(qǐng)傳遞laparams關(guān)鍵字參數(shù)

案例代碼:

import pdfplumber

with pdfplumber.open("./1.pdf") as pdf:
    print(pdf)
    print(type(pdf))

輸出結(jié)果:

<pdfplumber.pdf.PDF object at 0x000001A56C323DC0>
<class 'pdfplumber.pdf.PDF'>

3. pdfplumber.PDF類(lèi)

pdfplumber.PDF類(lèi)表示單個(gè) PDF,并具有兩個(gè)主要屬性:

屬性 說(shuō)明
.metadata從PDF的Info中獲取元數(shù)據(jù)鍵 /值對(duì)字典。 通常包括“ CreationDate”,“ ModDate”,“ Producer”等
.pages返回一個(gè)包含pdfplumber.Page實(shí)例的列表,每一個(gè)實(shí)例代表PDF每一頁(yè)的信息

1. 讀取PDF文檔信息(.metadata):

import pdfplumber

with pdfplumber.open("./1.pdf") as pdf:
    print(pdf.metadata)

運(yùn)行結(jié)果:

{'Author': 'wangwangyuqing', 'Comments': '', 'Company': '', 'CreationDate': "D:20220330113508+03'35'", 'Creator': 'WPS 文字', 'Keywords': '', 'ModDate': "D:20220330113508+03'35'", 'Producer': '', 'SourceModified': "D:20220330113508+03'35'", 'Subject': '', 'Title': '', 'Trapped': 'False'}

2. 輸出總頁(yè)數(shù)

import pdfplumber

with pdfplumber.open("./1.pdf") as pdf:
    print(len(pdf.pages))

運(yùn)行結(jié)果:

2

4. pdfplumber.Page類(lèi)

pdfplumber.Page類(lèi)是pdfplumber整個(gè)的核心,大多數(shù)操作都圍繞這個(gè)類(lèi)進(jìn)行操作,它具有以下幾個(gè)屬性:

屬性 說(shuō)明
.page_number順序頁(yè)碼,從1第一頁(yè)開(kāi)始,從第二頁(yè)開(kāi)始2,依此類(lèi)推
.width頁(yè)面的寬度
.height頁(yè)面的高度
.objects/.chars/.lines/.rects/.curves/.figures/.images這些屬性中的每一個(gè)都是一個(gè)列表,每個(gè)列表包含一個(gè)字典,用于嵌入頁(yè)面上的每個(gè)此類(lèi)對(duì)象。有關(guān)詳細(xì)信息,請(qǐng)參閱下面的“對(duì)象”

常用方法如下

方法名 說(shuō)明
.extract_text()用來(lái)提頁(yè)面中的文本,將頁(yè)面的所有字符對(duì)象整理為的那個(gè)字符串
.extract_words()返回的是所有的單詞及其相關(guān)信息
.extract_tables()提取頁(yè)面的表格
.to_image()用于可視化調(diào)試時(shí),返回PageImage類(lèi)的一個(gè)實(shí)例
.close()默認(rèn)情況下,Page對(duì)象緩存其布局和對(duì)象信息,以避免重新處理它。但是,在解析大型 PDF 時(shí),這些緩存的屬性可能需要大量?jī)?nèi)存。您可以使用此方法刷新緩存并釋放內(nèi)存

方法名說(shuō)明.extract_text()用來(lái)提頁(yè)面中的文本,將頁(yè)面的所有字符對(duì)象整理為的那個(gè)字符串.extract_words()返回的是所有的單詞及其相關(guān)信息.extract_tables()提取頁(yè)面的表格.to_image() 用于可視化調(diào)試時(shí),返回PageImage類(lèi)的一個(gè)實(shí)例.close()默認(rèn)情況下,Page對(duì)象緩存其布局和對(duì)象信息,以避免重新處理它。但是,在解析大型 PDF 時(shí),這些緩存的屬性可能需要大量?jī)?nèi)存。您可以使用此方法刷新緩存并釋放內(nèi)存。

1. 讀取第一頁(yè)寬度、高度等信息

import pdfplumber

with pdfplumber.open("./1.pdf") as pdf:
    first_page = pdf.pages[0]  # pdfplumber.Page對(duì)象的第一頁(yè)
    # 查看頁(yè)碼
    print('頁(yè)碼:', first_page.page_number)
    # 查看頁(yè)寬
    print('頁(yè)寬:', first_page.width)
    # 查看頁(yè)高
    print('頁(yè)高:', first_page.height)

運(yùn)行結(jié)果:

頁(yè)碼: 1
頁(yè)寬: 595.3
頁(yè)高: 841.9

2. 讀取文本第一頁(yè)

import pdfplumber

with pdfplumber.open("./1.pdf") as pdf:
    first_page = pdf.pages[0]  # pdfplumber.Page對(duì)象的第一頁(yè)
    text = first_page.extract_text()
    print(text)

運(yùn)行結(jié)果:

店鋪名 價(jià)格 銷(xiāo)量 地址
小罐茶旗艦店 449 474 安徽
零趣食品旗艦店 6.9 60000 福建
天貓超市 1304 3961 上海
天貓超市 139 25000 上海
天貓超市 930 692 上海
天貓超市 980 495 上海
天貓超市 139 100000 上海
三只松鼠旗艦店 288 25000 安徽
紅小廚旗艦店 698 1767 北京
三只松鼠旗艦店 690 15000 安徽
一統(tǒng)領(lǐng)鮮旗艦店 1098 1580 上海
新大猩食品專營(yíng)
9.8 7000 湖南
.......
艦店
蟹納旗艦店 498 1905 上海
三只松鼠堅(jiān)果at茶 188 35000 安徽
嘉禹滬曉旗艦店 598 1517 上海

3. 讀取表格第一頁(yè)

import pdfplumber
import xlwt

with pdfplumber.open("1.pdf") as pdf:
    page_one = pdf.pages[0]  # PDF第一頁(yè)
    table_1 = page_one.extract_table()  # 讀取表格數(shù)據(jù)
    # 1. 創(chuàng)建Excel表對(duì)象
    workbook = xlwt.Workbook(encoding='utf8')
    # 2. 新建sheet表
    worksheet = workbook.add_sheet('Sheet1')
    # 3. 自定義列名
    col1 = table_1[0]
    # print(col1)# ['店鋪名', '價(jià)格', '銷(xiāo)量', '地址']
    # 4. 將列屬性元組col寫(xiě)進(jìn)sheet表單中第一行
    for i in range(0, len(col1)):
        worksheet.write(0, i, col1[i])
    # 5. 將數(shù)據(jù)寫(xiě)進(jìn)sheet表單中
    for i in range(0, len(table_1[1:])):
        data = table_1[1:][i]
        for j in range(0, len(col1)):
            worksheet.write(i + 1, j, data[j])
    # 6. 保存文件分兩種格式
    workbook.save('test.xls')

運(yùn)行結(jié)果:

三、實(shí)戰(zhàn)操作

1. 提取單個(gè)PDF全部頁(yè)數(shù)

測(cè)試代碼:

import pdfplumber
import xlwt

with pdfplumber.open("1.pdf") as pdf:
    # 1. 把所有頁(yè)的數(shù)據(jù)存在一個(gè)臨時(shí)列表中
    item = []
    for page in pdf.pages:
        text = page.extract_table()
        for i in text:
            item.append(i)
    # 2. 創(chuàng)建Excel表對(duì)象
    workbook = xlwt.Workbook(encoding='utf8')
    # 3. 新建sheet表
    worksheet = workbook.add_sheet('Sheet1')
    # 4. 自定義列名
    col1 = item[0]
    # print(col1)# ['店鋪名', '價(jià)格', '銷(xiāo)量', '地址']
    # 5. 將列屬性元組col寫(xiě)進(jìn)sheet表單中第一行
    for i in range(0, len(col1)):
        worksheet.write(0, i, col1[i])
    # 6. 將數(shù)據(jù)寫(xiě)進(jìn)sheet表單中
    for i in range(0, len(item[1:])):
        data = item[1:][i]
        for j in range(0, len(col1)):
            worksheet.write(i + 1, j, data[j])
    # 7. 保存文件分兩種格式
    workbook.save('test.xls')

運(yùn)行結(jié)果(上面得沒(méi)截全):

2. 批量提取多個(gè)PDF文件

測(cè)試代碼:

import pdfplumber
import xlwt
import os

# 一、獲取文件下所有pdf文件路徑
file_dir = r'E:\Python學(xué)習(xí)\pdf文件'
file_list = []
for files in os.walk(file_dir):
    # print(files)
    # ('E:\\Python學(xué)習(xí)\\pdf文件', [],
    #  ['1.pdf', '1的副本.pdf', '1的副本10.pdf', '1的副本11.pdf', '1的副本2.pdf', '1的副本3.pdf', '1的副本4.pdf', '1的副本5.pdf', '1的副本6.pdf',
    #   '1的副本7.pdf', '1的副本8.pdf', '1的副本9.pdf'])
    for file in files[2]:
        # 以. 進(jìn)行分割如果后綴為PDF或pdf就拼接地址存入file_list
        if file.split(".")[1] == 'pdf' or file.split(".")[1] == 'PDF':
            file_list.append(file_dir + '\\' + file)

# 二、存入Excel
# 1. 把所有PDF文件的所有頁(yè)的數(shù)據(jù)存在一個(gè)臨時(shí)列表中
item = []
for file_path in file_list:
    with pdfplumber.open(file_path) as pdf:
        for page in pdf.pages:
            text = page.extract_table()
            for i in text:
                item.append(i)

# 2. 創(chuàng)建Excel表對(duì)象
workbook = xlwt.Workbook(encoding='utf8')
# 3. 新建sheet表
worksheet = workbook.add_sheet('Sheet1')
# 4. 自定義列名
col1 = item[0]
# print(col1)# ['店鋪名', '價(jià)格', '銷(xiāo)量', '地址']
# 5. 將列屬性元組col寫(xiě)進(jìn)sheet表單中第一行
for i in range(0, len(col1)):
    worksheet.write(0, i, col1[i])
# 6. 將數(shù)據(jù)寫(xiě)進(jìn)sheet表單中
for i in range(0, len(item[1:])):
    data = item[1:][i]
    for j in range(0, len(col1)):
        worksheet.write(i + 1, j, data[j])
# 7. 保存文件分兩種格式
workbook.save('test.xls')

運(yùn)行結(jié)果(12個(gè)文件,一個(gè)文件50行總共600行):

以上就是Python利用pdfplumber實(shí)現(xiàn)讀取PDF寫(xiě)入Excel的詳細(xì)內(nèi)容,更多關(guān)于Python pdfplumber讀取PDF寫(xiě)入Excel的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!

相關(guān)文章

  • Python排序函數(shù)的使用方法詳解

    Python排序函數(shù)的使用方法詳解

    這篇文章主要給大家介紹了關(guān)于Python排序函數(shù)使用的相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2020-12-12
  • 在Sublime Editor中配置Python環(huán)境的詳細(xì)教程

    在Sublime Editor中配置Python環(huán)境的詳細(xì)教程

    這篇文章主要介紹在sublime編輯器中安裝python軟件包,以 實(shí)現(xiàn)自動(dòng)完成等功能,并在sublime編輯器本身中運(yùn)行build,本文通過(guò)實(shí)例代碼給大家介紹的非常詳細(xì),需要的朋友參考下吧
    2020-05-05
  • python常用內(nèi)置模塊你了解嗎

    python常用內(nèi)置模塊你了解嗎

    這篇文章主要為大家介紹了python的常用內(nèi)置模塊,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下,希望能夠給你帶來(lái)幫助
    2022-01-01
  • Python 中 Selenium 的 getAttribute() 函數(shù)詳解

    Python 中 Selenium 的 getAttribute() 

    本文將解釋如何使用Selenium的getAttribute()方法,getAttribute() 方法可以檢索元素屬性,例如錨標(biāo)記的 href 屬性, 該函數(shù)最初將嘗試返回指定屬性的值,感興趣的朋友跟隨小編一起看看吧
    2023-11-11
  • Pycharm遠(yuǎn)程連接服務(wù)器并運(yùn)行與調(diào)試

    Pycharm遠(yuǎn)程連接服務(wù)器并運(yùn)行與調(diào)試

    本篇文章介紹一下 Pycharm 如何配置遠(yuǎn)程連接信息,使其能夠在本地使用服務(wù)器上的GPU等硬件資源,并在本地完成代碼的運(yùn)行與調(diào)試,感興趣的可以了解一下
    2021-08-08
  • 使用Python爬蟲(chóng)庫(kù)requests發(fā)送表單數(shù)據(jù)和JSON數(shù)據(jù)

    使用Python爬蟲(chóng)庫(kù)requests發(fā)送表單數(shù)據(jù)和JSON數(shù)據(jù)

    今天再為大家介紹下使用Python爬蟲(chóng)庫(kù)requests發(fā)送表單數(shù)據(jù)和JSON數(shù)據(jù)的方法,這是最基本的使用方法,大家可以參考測(cè)試下
    2020-01-01
  • Python字典和集合編程技巧大總結(jié)

    Python字典和集合編程技巧大總結(jié)

    這篇文章主要給大家介紹了關(guān)于Python字典和集合編程技巧的相關(guān)資料,Python中的字典和集合是兩種非常常用的數(shù)據(jù)結(jié)構(gòu),它們可以幫助我們更方便地管理和操作數(shù)據(jù),需要的朋友可以參考下
    2023-09-09
  • 教你十行代碼實(shí)現(xiàn)python向手機(jī)推送通知功能

    教你十行代碼實(shí)現(xiàn)python向手機(jī)推送通知功能

    這篇文章主要介紹了十行代碼實(shí)現(xiàn)python向手機(jī)推送通知,這里使用的是pushplus的服務(wù),代碼也很簡(jiǎn)單,運(yùn)行代碼后也是很快就可以收到消息推送,需要的朋友可以參考下
    2022-04-04
  • numpy中的log和ln函數(shù)解讀

    numpy中的log和ln函數(shù)解讀

    這篇文章主要介紹了numpy中的log和ln函數(shù)解讀,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2022-11-11
  • 如何在PyCharm中配置使用Anaconda環(huán)境

    如何在PyCharm中配置使用Anaconda環(huán)境

    這篇文章主要介紹了如何在PyCharm中配置使用Anaconda環(huán)境,圖文講解寫(xiě)的非常詳細(xì)簡(jiǎn)單易懂,還不會(huì)的小伙伴快來(lái)看看吧
    2023-03-03

最新評(píng)論