欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python2.7讀取PDF文件的方法示例

 更新時間:2017年07月13日 09:35:21   作者:guozhenqiang1992  
這篇文章主要介紹了Python2.7讀取PDF文件的方法,結合實例形式分析了Python2.7基于PDFMiner模塊實現針對pdf文件的讀取功能相關操作技巧,需要的朋友可以參考下

本文實例講述了Python2.7讀取PDF文件的方法。分享給大家供大家參考,具體如下:

這篇文章示例代碼采用的Python版本是2.7,需要下載的插件是PDFMiner,下載地址是http://www.unixuser.org/~euske/python/pdfminer/,地址里有安裝方法,我就不再細說了,需要說明的是Python2只能使用PDFMiner,Python3不能使用,Python3可以使用PDFMiner3K,下載地址為https://pypi.python.org/pypi/pdfminer3k/。兩種插件使用上大體相似,這里我以Python2為例,使用PDFMiner插件。代碼如下:

#!/usr/bin/env python
#-*- coding:utf-8 -*-
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfpage import PDFTextExtractionNotAllowed
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice
from pdfminer.layout import LAParams
from pdfminer.converter import PDFPageAggregator
#獲取文檔對象,你把algorithm.pdf換成你自己的文件名即可。
fp=open("algorithm.pdf","rb")
#創(chuàng)建一個與文檔相關聯的解釋器
parser=PDFParser(fp)
#PDF文檔對象
doc=PDFDocument(parser)
#鏈接解釋器和文檔對象
parser.set_document(doc)
#doc.set_paeser(parser)
#初始化文檔
#doc.initialize("")
#創(chuàng)建PDF資源管理器
resource=PDFResourceManager()
#參數分析器
laparam=LAParams()
#創(chuàng)建一個聚合器
device=PDFPageAggregator(resource,laparams=laparam)
#創(chuàng)建PDF頁面解釋器
interpreter=PDFPageInterpreter(resource,device)
#使用文檔對象得到頁面集合
for page in PDFPage.create_pages(doc):
  #使用頁面解釋器來讀取
  interpreter.process_page(page)
  #使用聚合器來獲取內容
  layout=device.get_result()
  for out in layout:
    if hasattr(out, "get_text"):
      print out.get_text()

更多關于Python相關內容感興趣的讀者可查看本站專題:《Python文件與目錄操作技巧匯總》、《Python數據結構與算法教程》、《Python函數使用技巧總結》、《Python字符串操作技巧匯總》及《Python入門與進階經典教程

希望本文所述對大家Python程序設計有所幫助。

相關文章

  • 雙向RNN:bidirectional_dynamic_rnn()函數的使用詳解

    雙向RNN:bidirectional_dynamic_rnn()函數的使用詳解

    今天小編就為大家分享一篇雙向RNN:bidirectional_dynamic_rnn()函數的使用詳解,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-01-01
  • python3中dict.keys().sort()用不了的解決方法

    python3中dict.keys().sort()用不了的解決方法

    本文主要介紹了python3中dict.keys().sort()用不了的解決方法,文中通過示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2021-12-12
  • 基于python實現的抓取騰訊視頻所有電影的爬蟲

    基于python實現的抓取騰訊視頻所有電影的爬蟲

    這篇文章主要介紹了用python實現的抓取騰訊視頻所有電影的爬蟲,這個程序使用芒果存, 所以大家需要下載使用mongodb才可以
    2016-04-04
  • 結合Python網絡爬蟲做一個今日新聞小程序

    結合Python網絡爬蟲做一個今日新聞小程序

    本篇文章介紹了我在開發(fā)過程中遇到的一個問題,以及解決該問題的過程及思路,通讀本篇對大家的學習或工作具有一定的價值,需要的朋友可以參考下
    2021-09-09
  • 親測解決tensorflow和keras版本不匹配的問題

    親測解決tensorflow和keras版本不匹配的問題

    這篇文章主要介紹了親測解決tensorflow和keras版本不匹配問題,完美解決:ImportError: No module named 'tensorflow.python.eager'問題,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
    2024-03-03
  • Python Matplotlib條形圖之垂直條形圖和水平條形圖詳解

    Python Matplotlib條形圖之垂直條形圖和水平條形圖詳解

    這篇文章主要為大家詳細介紹了Python Matplotlib條形圖之垂直條形圖和水平條形圖,使用數據庫,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2022-03-03
  • Python批量修改圖片分辨率的實例代碼

    Python批量修改圖片分辨率的實例代碼

    今天小編就為大家分享一篇Python批量修改圖片分辨率的實例代碼,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-07-07
  • Python 文件和輸入輸出小結

    Python 文件和輸入輸出小結

    Python 是面向對象編程語言,文件也是一種類,下面簡單介紹下,方便需要的朋友
    2013-10-10
  • C# DataGridView行列轉換的具體實現

    C# DataGridView行列轉換的具體實現

    本文主要介紹了C# DataGridView行列轉換的具體實現,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2023-02-02
  • Python線程的兩種編程方式

    Python線程的兩種編程方式

    這篇文章主要介紹了Python線程的兩種編程方式,Python中如果要使用線程的話,一種是函數式,一種是用類來包裝的線程對象,需要的朋友可以參考下
    2015-04-04

最新評論