快捷導(dǎo)航

Python批量提取PDF文件中文本的腳本

更新時(shí)間：2021年04月05日 09:02:00 作者：董付國

這篇文章主要為大家詳細(xì)介紹了Python批量提取PDF文件中文本的腳本，文中示例代碼介紹的非常詳細(xì)，具有一定的參考價(jià)值，感興趣的小伙伴們可以參考一下

本文實(shí)例為大家分享了Python批量提取PDF文件中文本的具體代碼，供大家參考，具體內(nèi)容如下

首先需要執(zhí)行命令pip install pdfminer3k來安裝處理PDF文件的擴(kuò)展庫。

import os
import sys
import time

pdfs = (pdfs for pdfs in os.listdir('.') if pdfs.endswith('.pdf'))

for pdf1 in pdfs:
 pdf = pdf1.replace(' ', '_').replace('-', '_').replace('&', '_')
 os.rename(pdf1, pdf)
 print('='*30)
 print(pdf)
 
 txt = pdf[:-4] + '.txt'
 exe = '"' + sys.executable + '" "'
 pdf2txt = os.path.dirname(sys.executable)
 pdf2txt = pdf2txt + '\\scripts\\pdf2txt.py" -o '
 try:
 #調(diào)用命令行工具pdf2txt.py進(jìn)行轉(zhuǎn)換
 #如果pdf加密過可以改寫下面的代碼
 #在-o前面使用-P來指定密碼
 cmd = exe + pdf2txt + txt + ' ' + pdf
 os.popen(cmd)
 #轉(zhuǎn)換需要一定時(shí)間，一般小文件2秒鐘足夠了
 time.sleep(2)
 #輸出轉(zhuǎn)換后的文本，前200個(gè)字符
 with open(txt, encoding='utf8') as fp:
 print(fp.read(200))
 except:
 pass

來源：python小屋

以上就是本文的全部內(nèi)容，希望對大家的學(xué)習(xí)有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章:

相關(guān)文章

python?數(shù)據(jù)挖掘算法的過程詳解
這篇文章主要介紹了python?數(shù)據(jù)挖掘算法,首先給大家介紹了數(shù)據(jù)挖掘的過程，基于sklearn主要的算法模型講解，給大家介紹的非常詳細(xì)，對大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值，需要的朋友可以參考下
2022-02-02
python3.7+selenium模擬淘寶登錄功能的實(shí)現(xiàn)
這篇文章主要介紹了python3.7+selenium模擬登錄淘寶功能，本文通過實(shí)例代碼給大家介紹的非常詳細(xì)，對大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
2020-05-05
Python3.7安裝pyaudio教程解析
這篇文章主要介紹了Python3.7安裝pyaudio教程解析,文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
2020-07-07
Python編程mac下使用pycharm小技巧
這篇文章主要介紹了Python編程中在mac下使用pycharm的一些小技巧，建議正在使用Pycharm的同學(xué)們可以收藏閱讀，可以節(jié)省你的編程時(shí)間
2021-09-09
對python中dict和json的區(qū)別詳解
今天小編就為大家分享一篇對python中dict和json的區(qū)別詳解，具有很好的參考價(jià)值，希望對大家有所幫助。一起跟隨小編過來看看吧
2018-12-12
Python處理圖片并實(shí)現(xiàn)生成天際線
天際線（SkyLine）顧名思義就是天空與地面的邊界線,這篇文章主要為大家介紹了如何使用Python實(shí)現(xiàn)處理圖片并實(shí)現(xiàn)生成天際線,感興趣的可以了解下
2024-01-01
解決paramiko執(zhí)行命令超時(shí)的問題
這篇文章主要介紹了解決paramiko執(zhí)行命令超時(shí)的問題，具有很好的參考價(jià)值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-04-04
理解Django 中Call Stack機(jī)制的小Demo
這篇文章主要介紹了理解Django 中Call Stack 機(jī)制的小Demo,文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
2020-09-09
Django 解決distinct無法去除重復(fù)數(shù)據(jù)的問題
這篇文章主要介紹了Django 解決distinct無法去除重復(fù)數(shù)據(jù)的問題，具有很好的參考價(jià)值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-05-05
python如何為創(chuàng)建大量實(shí)例節(jié)省內(nèi)存
這篇文章主要為大家詳細(xì)介紹了python如何為創(chuàng)建大量實(shí)例節(jié)省內(nèi)存，具有一定的參考價(jià)值，感興趣的小伙伴們可以參考一下
2018-03-03