欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python實現(xiàn)PDF中表格轉(zhuǎn)化為Excel的方法

 更新時間:2020年06月16日 17:02:48   作者:ziyin_2013  
這篇文章主要為大家詳細介紹了python實現(xiàn)PDF中表格轉(zhuǎn)化為Excel的方法,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下

這幾天想統(tǒng)計一下《中國人文社會科學期刊 AMI 綜合評價報告(2018 年):A 刊評價報告》中的期刊,但是只找到了該報告的PDF版,對于表格的編輯不太方便,于是想到用Python將表格轉(zhuǎn)成Excel格式。

看過別人寫的博客,發(fā)現(xiàn)Python解析PDF有以下四種方式:

-pdfminer:擅長文字的解析,把表格解析成普通的文本,沒有格式;
-pdf2html:把pdf解析成html,但html的標簽并沒有規(guī)律,解析一個表格還可以,多個表格的話不太好提?。?br /> -tabula:對于簡單的表格,即單元格中沒有換行的,表頭表尾形式不復雜的,使用比較方便。但是單腦需要Java環(huán)境;
-pdfplumber:是一個可以處理pdf格式信息的庫。可以查找關于每個文本字符、矩陣、和行的詳細信息,也可以對表格進行提取并進行可視化調(diào)試。

本文采用pdfplumber庫讀取PDF中的表格,運行環(huán)境:Python3.5.2,Anaconda4.2.0。首先簡單介紹一下pdfplumber庫:

-pdfplumber.pdf中包含了.metadata和.pages兩個屬性:
.metadata是一個包含pdf信息的字典。
.pages是一個包含頁面信息的列表。

-pdfplumber.page的類中包含的主要的屬性:

.page_number 頁碼。
.width 頁面寬度。
.height 頁面高度。
.objects/.chars/.lines/.rects 這些屬性中每一個都是一個列表,每個列表都包含一個字典,每個字典用于說明頁面中的對象信息, 包括直線,字符, 方格等位置信息。

-一些常用的方法:

.extract_text() 用來提頁面中的文本,將頁面的所有字符對象整理為的那個字符串。
.extract_words() 返回的是所有的單詞及其相關信息。
.extract_tables() 提取頁面的表格。
.to_image() 用于可視化調(diào)試時,返回PageImage類的一個實例。

import pdfplumber
import pandas as pd

path = 'test.pdf'
pdf = pdfplumber.open(path)
i=1
#writer=pd.ExcelWriter('output.xlsx')
df=pd.DataFrame(columns=['序號','刊名','主辦單位','等級'])
sheetname=['考古文博','歷史學','馬克思主義理論','民族學與文化學','文學-外國文學','文學-中國文學','藝術學','語言學','哲學','宗教學','法學'
   ,'管理學','環(huán)境科學','教育學','經(jīng)濟學-財政科學','經(jīng)濟學-工業(yè)經(jīng)濟','經(jīng)濟學-金融','經(jīng)濟學-經(jīng)濟管理','經(jīng)濟學-經(jīng)濟綜合','經(jīng)濟學-貿(mào)易經(jīng)濟'
   ,'經(jīng)濟學-農(nóng)業(yè)經(jīng)濟','經(jīng)濟學-世界經(jīng)濟','人文地理學','社會學','體育學','統(tǒng)計學','圖書館情報與檔案學','心理學','新聞學與傳播學'
   ,'政治學-國際政治','政治學-中國政治','綜合-高校綜合性學報','綜合-綜合性人文社科期刊']
   
##由于存在一個表格跨頁的情況,先將所有表格存放在一個DataFrame中,再根據(jù)序號拆分。

for page in pdf.pages[17:59]:
 print (page)
 # 獲取當前頁面的全部文本信息,包括表格中的文字
 # print(page.extract_text())
 for table in page.extract_tables():
  #print(table)
  df=df.append(pd.DataFrame(table[1:],columns=table[0]),ignore_index=True)
print (df)

writer=pd.ExcelWriter('output3.xlsx')
new_df=pd.DataFrame()
j=1
index=[]
#記錄序號==1的行索引,用于后面的表格拆分
for i in range(len(df)):
 if df.ix[i,0]=='1':
  index.append(i)
  print ("################")
index.append(len(df))
#print (index)

#按行索引將內(nèi)容切片并逐個添加到表中
for t in range(len(index)-1):
 new_df=df.ix[index[t]:index[t+1]-1,:]
 #print (new_df)
 new_df.to_excel(writer,sheet_name=sheetname[t],encoding='gb2312',index=None)
writer.save()
pdf.close()
print('finished') 

最終保存為Excel。

以上就是本文的全部內(nèi)容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。

相關文章

  • Numpy創(chuàng)建數(shù)組和隨機數(shù)組的方法小結(jié)

    Numpy創(chuàng)建數(shù)組和隨機數(shù)組的方法小結(jié)

    這篇文章主要為大家詳細介紹了Numpy創(chuàng)建數(shù)組和隨機數(shù)組的方法小結(jié),文中的示例代碼講解詳細,對我們學習Python有一定幫助,具有一定的參考價值,需要的可以參考一下
    2023-11-11
  • python中字符串內(nèi)置函數(shù)的用法總結(jié)

    python中字符串內(nèi)置函數(shù)的用法總結(jié)

    這篇文章給大家總結(jié)了python中字符串內(nèi)置函數(shù)的用法以及相關知識點內(nèi)容,有興趣的朋友學習下。
    2018-09-09
  • 一文帶你搞懂Python中的數(shù)據(jù)容器

    一文帶你搞懂Python中的數(shù)據(jù)容器

    這篇文章主要為大家詳細介紹了Python中數(shù)據(jù)容器的相關資料,文中的示例代碼講解詳細,對我們學習Python有一定的幫助,感興趣的可以了解一下
    2022-11-11
  • 深入理解Python中的真值和假值概念

    深入理解Python中的真值和假值概念

    在 Python 中,真值和假值是布爾類型的兩個唯一可能的值,本文將深入探討 Python 中的真值和假值概念,幫助你更好地理解和運用它們,感興趣的可以了解一下
    2023-11-11
  • 如何獲取numpy array前N個最大值

    如何獲取numpy array前N個最大值

    這篇文章主要介紹了獲取numpy array前N個最大值的操作,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2021-05-05
  • 詳解Python中的元組與邏輯運算符

    詳解Python中的元組與邏輯運算符

    這篇文章主要介紹了Python中的元組與邏輯運算符的用法,是Python入門學習中的基礎知識,需要的朋友可以參考下
    2015-10-10
  • 基于Python-Pycharm實現(xiàn)的猴子摘桃小游戲(源代碼)

    基于Python-Pycharm實現(xiàn)的猴子摘桃小游戲(源代碼)

    這篇文章主要介紹了基于Python-Pycharm實現(xiàn)的猴子摘桃小游戲,本文通過實例代碼給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2021-02-02
  • Pytorch損失函數(shù)nn.NLLLoss2d()用法說明

    Pytorch損失函數(shù)nn.NLLLoss2d()用法說明

    這篇文章主要介紹了Pytorch損失函數(shù)nn.NLLLoss2d()用法說明,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-07-07
  • Python函數(shù)用法和底層原理分析

    Python函數(shù)用法和底層原理分析

    函數(shù)是可重用的程序代碼塊。函數(shù)的作用,不僅可以實現(xiàn)代碼的復用,更能實現(xiàn)代碼的一致性。一致性指的是,只要修改函數(shù)的代碼,則所有調(diào)用該函數(shù)的地方都能得到體現(xiàn),這篇文章主要介紹了Python函數(shù)用法和底層分析,需要的朋友可以參考下
    2022-12-12
  • Linux下python制作名片示例

    Linux下python制作名片示例

    這篇文章主要介紹了Linux下python制作名片示例的相關資料,需要的朋友可以參考下
    2018-07-07

最新評論