欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

利用python將pdf輸出為txt的實例講解

 更新時間:2018年04月23日 09:24:05   作者:n不正  
下面小編就為大家分享一篇利用python將pdf輸出為txt的實例講解,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧

一個禮拜前一個同學問我這個事情,由于之前在參加華為的比賽,所以賽后看了一下,據說需要用到pdfminer這個包。于是安裝了一下,安裝過程很簡單:

sudo pip install pdfminer;

中間也沒有任何的報錯。至于如何調用,本人也沒有很好的研究過pdfminer這個庫,于是開始了百度……

官方文檔:http://www.unixuser.org/~euske/python/pdfminer/index.html

完全使用python編寫。 (適用于2.4或更新版本)

解析,分析,并轉換成PDF文檔。

PDF-1.7規(guī)范的支持。 (幾乎)

中日韓語言和垂直書寫腳本支持。

各種字體類型(Type1、TrueType、Type3,和CID)的支持。

基本加密(RC4)的支持。

PDF與HTML轉換。

綱要(TOC)的提取。

標簽內容提取。

通過分組文本塊重建原始的布局。

一些基本的類

PDFParser:從一個文件中獲取數據

PDFDocument:保存獲取的數據,和PDFParser是相互關聯(lián)的

PDFPageInterpreter處理頁面內容

PDFDevice將其翻譯成你需要的格式

PDFResourceManager用于存儲共享資源,如字體或圖像。

簡單的實現(xiàn)

讀取test.pdf輸出為output.txt:

# -*- coding: utf-8 -*-  
from pdfminer.pdfparser import PDFParser 
from pdfminer.pdfdocument import PDFDocument 
from pdfminer.pdfpage import PDFPage 
from pdfminer.pdfpage import PDFTextExtractionNotAllowed 
from pdfminer.pdfinterp import PDFResourceManager 
from pdfminer.pdfinterp import PDFPageInterpreter 
from pdfminer.pdfdevice import PDFDevice 
from pdfminer.layout import * 
from pdfminer.converter import PDFPageAggregator 
import os 
fp = open('test.pdf', 'rb') 
#來創(chuàng)建一個pdf文檔分析器 
parser = PDFParser(fp) 
#創(chuàng)建一個PDF文檔對象存儲文檔結構 
document = PDFDocument(parser) 
# 檢查文件是否允許文本提取 
if not document.is_extractable: 
 raise PDFTextExtractionNotAllowed 
else: 
 # 創(chuàng)建一個PDF資源管理器對象來存儲共賞資源 
 rsrcmgr=PDFResourceManager() 
 # 設定參數進行分析 
 laparams=LAParams() 
 # 創(chuàng)建一個PDF設備對象 
 # device=PDFDevice(rsrcmgr) 
 device=PDFPageAggregator(rsrcmgr,laparams=laparams) 
 # 創(chuàng)建一個PDF解釋器對象 
 interpreter=PDFPageInterpreter(rsrcmgr,device) 
 # 處理每一頁 
 for page in PDFPage.create_pages(document): 
  interpreter.process_page(page) 
  # 接受該頁面的LTPage對象 
  layout=device.get_result() 
  for x in layout: 
   if(isinstance(x,LTTextBoxHorizontal)): 
    with open('output.txt','a') as f: 
     f.write(x.get_text().encode('utf-8')+'\n') 

以上這篇利用python將pdf輸出為txt的實例講解就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持腳本之家。

相關文章

  • python如何從文件讀取數據及解析

    python如何從文件讀取數據及解析

    這篇文章主要介紹了python如何從文件讀取數據,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2019-09-09
  • 實例講解python函數式編程

    實例講解python函數式編程

    這篇文章主要介紹了python函數式編程實例,使用一個例子來闡述python函數式編程,需要的朋友可以參考下
    2014-06-06
  • python 網絡編程詳解及簡單實例

    python 網絡編程詳解及簡單實例

    這篇文章主要介紹了python 網絡編程詳解及簡單實例的相關資料,需要的朋友可以參考下
    2017-04-04
  • python類繼承用法實例分析

    python類繼承用法實例分析

    這篇文章主要介紹了python類繼承用法,實例分析了Python類的定義與類繼承的實現(xiàn)技巧,需要的朋友可以參考下
    2015-05-05
  • Python日志模塊logging用法

    Python日志模塊logging用法

    這篇文章介紹了Python日志模塊logging的用法,文中通過示例代碼介紹的非常詳細。對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2022-06-06
  • 如何利用opencv訓練自己的模型實現(xiàn)特定物體的識別

    如何利用opencv訓練自己的模型實現(xiàn)特定物體的識別

    在Python中通過OpenCV自己訓練分類器進行特定物體實時識別,下面這篇文章主要給大家介紹了關于如何利用opencv訓練自己的模型實現(xiàn)特定物體的識別,文中通過實例代碼介紹的非常詳細,需要的朋友可以參考下
    2022-10-10
  • 詳解python字符串駐留技術

    詳解python字符串駐留技術

    在本文中,我們將深入研究 Python 的內部實現(xiàn),并了解 Python 如何使用一種名為字符串駐留(String Interning)的技術,實現(xiàn)解釋器的高性能。
    2021-05-05
  • 詳解python關于多級包之間的引用問題

    詳解python關于多級包之間的引用問題

    本文主要介紹了python關于多級包之間的引用問題,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2021-08-08
  • pandas中字典和dataFrame的相互轉換

    pandas中字典和dataFrame的相互轉換

    有時候需要把dic轉換為DataFrame格式,便于查看和存儲,下面這篇文章主要給大家介紹了關于pandas中字典和dataFrame相互轉換的相關資料,文中通過實例代碼介紹的非常詳細,需要的朋友可以參考下
    2022-09-09
  • python+openCV調用攝像頭拍攝和處理圖片的實現(xiàn)

    python+openCV調用攝像頭拍攝和處理圖片的實現(xiàn)

    這篇文章主要介紹了python+openCV調用攝像頭拍攝和處理圖片的實現(xiàn),文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2019-08-08

最新評論