欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python批量提取PDF文件中文本的腳本

 更新時(shí)間:2021年04月05日 09:02:00   作者:董付國  
這篇文章主要為大家詳細(xì)介紹了Python批量提取PDF文件中文本的腳本,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下

本文實(shí)例為大家分享了Python批量提取PDF文件中文本的具體代碼,供大家參考,具體內(nèi)容如下

首先需要執(zhí)行命令pip install pdfminer3k來安裝處理PDF文件的擴(kuò)展庫。

import os
import sys
import time

pdfs = (pdfs for pdfs in os.listdir('.') if pdfs.endswith('.pdf'))

for pdf1 in pdfs:
 pdf = pdf1.replace(' ', '_').replace('-', '_').replace('&', '_')
 os.rename(pdf1, pdf)
 print('='*30)
 print(pdf)
 
 txt = pdf[:-4] + '.txt'
 exe = '"' + sys.executable + '" "'
 pdf2txt = os.path.dirname(sys.executable)
 pdf2txt = pdf2txt + '\\scripts\\pdf2txt.py" -o '
 try:
 #調(diào)用命令行工具pdf2txt.py進(jìn)行轉(zhuǎn)換
 #如果pdf加密過可以改寫下面的代碼
 #在-o前面使用-P來指定密碼
 cmd = exe + pdf2txt + txt + ' ' + pdf
 os.popen(cmd)
 #轉(zhuǎn)換需要一定時(shí)間,一般小文件2秒鐘足夠了
 time.sleep(2)
 #輸出轉(zhuǎn)換后的文本,前200個(gè)字符
 with open(txt, encoding='utf8') as fp:
 print(fp.read(200))
 except:
 pass

來源:python小屋

以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。

相關(guān)文章

  • python?數(shù)據(jù)挖掘算法的過程詳解

    python?數(shù)據(jù)挖掘算法的過程詳解

    這篇文章主要介紹了python?數(shù)據(jù)挖掘算法,首先給大家介紹了數(shù)據(jù)挖掘的過程,基于sklearn主要的算法模型講解,給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2022-02-02
  • python3.7+selenium模擬淘寶登錄功能的實(shí)現(xiàn)

    python3.7+selenium模擬淘寶登錄功能的實(shí)現(xiàn)

    這篇文章主要介紹了python3.7+selenium模擬登錄淘寶功能,本文通過實(shí)例代碼給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2020-05-05
  • Python3.7安裝pyaudio教程解析

    Python3.7安裝pyaudio教程解析

    這篇文章主要介紹了Python3.7安裝pyaudio教程解析,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2020-07-07
  • Python編程mac下使用pycharm小技巧

    Python編程mac下使用pycharm小技巧

    這篇文章主要介紹了Python編程中在mac下使用pycharm的一些小技巧,建議正在使用Pycharm的同學(xué)們可以收藏閱讀,可以節(jié)省你的編程時(shí)間
    2021-09-09
  • 對python中dict和json的區(qū)別詳解

    對python中dict和json的區(qū)別詳解

    今天小編就為大家分享一篇對python中dict和json的區(qū)別詳解,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-12-12
  • Python處理圖片并實(shí)現(xiàn)生成天際線

    Python處理圖片并實(shí)現(xiàn)生成天際線

    天際線(SkyLine)顧名思義就是天空與地面的邊界線,這篇文章主要為大家介紹了如何使用Python實(shí)現(xiàn)處理圖片并實(shí)現(xiàn)生成天際線,感興趣的可以了解下
    2024-01-01
  • 解決paramiko執(zhí)行命令超時(shí)的問題

    解決paramiko執(zhí)行命令超時(shí)的問題

    這篇文章主要介紹了解決paramiko執(zhí)行命令超時(shí)的問題,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-04-04
  • 理解Django 中Call Stack機(jī)制的小Demo

    理解Django 中Call Stack機(jī)制的小Demo

    這篇文章主要介紹了理解Django 中Call Stack 機(jī)制的小Demo,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2020-09-09
  • Django 解決distinct無法去除重復(fù)數(shù)據(jù)的問題

    Django 解決distinct無法去除重復(fù)數(shù)據(jù)的問題

    這篇文章主要介紹了Django 解決distinct無法去除重復(fù)數(shù)據(jù)的問題,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-05-05
  • python如何為創(chuàng)建大量實(shí)例節(jié)省內(nèi)存

    python如何為創(chuàng)建大量實(shí)例節(jié)省內(nèi)存

    這篇文章主要為大家詳細(xì)介紹了python如何為創(chuàng)建大量實(shí)例節(jié)省內(nèi)存,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2018-03-03

最新評論