Python批量提取PDF文件中文本的腳本
更新時(shí)間:2021年04月05日 09:02:00 作者:董付國
這篇文章主要為大家詳細(xì)介紹了Python批量提取PDF文件中文本的腳本,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
本文實(shí)例為大家分享了Python批量提取PDF文件中文本的具體代碼,供大家參考,具體內(nèi)容如下
首先需要執(zhí)行命令pip install pdfminer3k來安裝處理PDF文件的擴(kuò)展庫。
import os import sys import time pdfs = (pdfs for pdfs in os.listdir('.') if pdfs.endswith('.pdf')) for pdf1 in pdfs: pdf = pdf1.replace(' ', '_').replace('-', '_').replace('&', '_') os.rename(pdf1, pdf) print('='*30) print(pdf) txt = pdf[:-4] + '.txt' exe = '"' + sys.executable + '" "' pdf2txt = os.path.dirname(sys.executable) pdf2txt = pdf2txt + '\\scripts\\pdf2txt.py" -o ' try: #調(diào)用命令行工具pdf2txt.py進(jìn)行轉(zhuǎn)換 #如果pdf加密過可以改寫下面的代碼 #在-o前面使用-P來指定密碼 cmd = exe + pdf2txt + txt + ' ' + pdf os.popen(cmd) #轉(zhuǎn)換需要一定時(shí)間,一般小文件2秒鐘足夠了 time.sleep(2) #輸出轉(zhuǎn)換后的文本,前200個(gè)字符 with open(txt, encoding='utf8') as fp: print(fp.read(200)) except: pass
來源:python小屋
以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
python3.7+selenium模擬淘寶登錄功能的實(shí)現(xiàn)
這篇文章主要介紹了python3.7+selenium模擬登錄淘寶功能,本文通過實(shí)例代碼給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-05-05理解Django 中Call Stack機(jī)制的小Demo
這篇文章主要介紹了理解Django 中Call Stack 機(jī)制的小Demo,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-09-09Django 解決distinct無法去除重復(fù)數(shù)據(jù)的問題
這篇文章主要介紹了Django 解決distinct無法去除重復(fù)數(shù)據(jù)的問題,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-05-05python如何為創(chuàng)建大量實(shí)例節(jié)省內(nèi)存
這篇文章主要為大家詳細(xì)介紹了python如何為創(chuàng)建大量實(shí)例節(jié)省內(nèi)存,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2018-03-03