Python2.7讀取PDF文件的方法示例

更新時間：2017年07月13日 09:35:21 作者：guozhenqiang1992

這篇文章主要介紹了Python2.7讀取PDF文件的方法,結合實例形式分析了Python2.7基于PDFMiner模塊實現(xiàn)針對pdf文件的讀取功能相關操作技巧,需要的朋友可以參考下

本文實例講述了Python2.7讀取PDF文件的方法。分享給大家供大家參考，具體如下：

這篇文章示例代碼采用的Python版本是2.7，需要下載的插件是PDFMiner，下載地址是http://www.unixuser.org/~euske/python/pdfminer/，地址里有安裝方法，我就不再細說了，需要說明的是Python2只能使用PDFMiner，Python3不能使用，Python3可以使用PDFMiner3K，下載地址為https://pypi.python.org/pypi/pdfminer3k/。兩種插件使用上大體相似，這里我以Python2為例，使用PDFMiner插件。代碼如下：

#!/usr/bin/env python
#-*- coding:utf-8 -*-
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfpage import PDFTextExtractionNotAllowed
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice
from pdfminer.layout import LAParams
from pdfminer.converter import PDFPageAggregator
#獲取文檔對象，你把algorithm.pdf換成你自己的文件名即可。
fp=open("algorithm.pdf","rb")
#創(chuàng)建一個與文檔相關聯(lián)的解釋器
parser=PDFParser(fp)
#PDF文檔對象
doc=PDFDocument(parser)
#鏈接解釋器和文檔對象
parser.set_document(doc)
#doc.set_paeser(parser)
#初始化文檔
#doc.initialize("")
#創(chuàng)建PDF資源管理器
resource=PDFResourceManager()
#參數(shù)分析器
laparam=LAParams()
#創(chuàng)建一個聚合器
device=PDFPageAggregator(resource,laparams=laparam)
#創(chuàng)建PDF頁面解釋器
interpreter=PDFPageInterpreter(resource,device)
#使用文檔對象得到頁面集合
for page in PDFPage.create_pages(doc):
  #使用頁面解釋器來讀取
  interpreter.process_page(page)
  #使用聚合器來獲取內(nèi)容
  layout=device.get_result()
  for out in layout:
    if hasattr(out, "get_text"):
      print out.get_text()

更多關于Python相關內(nèi)容感興趣的讀者可查看本站專題：《Python文件與目錄操作技巧匯總》、《Python數(shù)據(jù)結構與算法教程》、《Python函數(shù)使用技巧總結》、《Python字符串操作技巧匯總》及《Python入門與進階經(jīng)典教程》

希望本文所述對大家Python程序設計有所幫助。

您可能感興趣的文章: