掃描件一直受大眾青睞，任何紙質(zhì)資料在掃描之后進(jìn)行存檔，想使用時(shí)手機(jī)就能打開(kāi)，省心省力。但是掃描件的優(yōu)點(diǎn)也恰恰造成了它的一個(gè)缺點(diǎn)，因?yàn)槭峭ㄟ^(guò)電子設(shè)備掃描，所以出來(lái)的是圖像，如果想要處理文件上的內(nèi)容，直接操作是無(wú)法實(shí)現(xiàn)的。

那要是想要引用其中的內(nèi)容怎么辦呢？別擔(dān)心，Python幫你解決問(wèn)題。

2. 需求描述

現(xiàn)有一份pdf掃描件，我們想把其中的文字提取出來(lái)并且分三列寫(xiě)入csv文檔，內(nèi)容及效果如下：

pdfexample

csvexample

3. 開(kāi)始動(dòng)手動(dòng)腦

pdf掃描件是文檔掃描成電腦圖片格式后轉(zhuǎn)化成的，提取其中的文字就相當(dāng)于識(shí)別圖片內(nèi)的文字。所以，我們的工作就是將pdf轉(zhuǎn)成圖片，再用ocr工具提取圖片中的文字。

3.1 安裝相關(guān)第三方包

pip3 install pdf2image pytesseract

3.2 導(dǎo)入需要用到的第三方庫(kù)

import os   #處理文件
from pdf2image import convert_from_path  # pdf轉(zhuǎn)圖片
import pytesseract  # 識(shí)別圖片文字
import csv  # 處理csv文件

3.3 讀取pdf文件，并識(shí)別內(nèi)容

tess_ocr(pdf_path, lang, first_page, last_page)

將pdf文件拆分成圖片，并提取文字寫(xiě)入文本文件

pdf_path：pdf文件的存儲(chǔ)路徑
image：代表PDF文檔每頁(yè)的PIL圖像列表
first_page ：允許設(shè)置由pdftoppm處理的第一個(gè)頁(yè)面；
last_page：允許設(shè)置最后一頁(yè)由pdftoppm處理
fmt：允許指定輸出格式。目前支持的格式是jpg、png和ppm；
output_folder：圖片保存路徑

def tess_ocr(pdf_path, lang,first_page,last_page):
  # 創(chuàng)建一個(gè)和pdf同名的文件夾
   images = convert_from_path(pdf_path, fmt='png',first_page=first_page,last_page=last_page,output_folder=imagefolder,userpw='site')  # 轉(zhuǎn)成圖片
  text = ''
  for img in images:    
       text += pytesseract.image_to_string(img, lang=lang) # 識(shí)別圖片文字  
       with open(r'example\data.txt' 'a', encoding='utf-8') as f: #寫(xiě)入txt文件
       f.write(text)

運(yùn)行結(jié)果

生成一個(gè)同名的文件夾存放拆分的圖片，接著提取圖片文字寫(xiě)入data.txt

運(yùn)行問(wèn)題

問(wèn)題拋出1：

pdf2image.exceptions.PDFInfoNotInstalledError: Unable to get page count. Is poppler installed and in PATH?

解決措施：下載 poppler。

>1 方法一：設(shè)置環(huán)境變量 poppler/bin；

>2 方法二：

參數(shù)指定絕對(duì)路徑：

images = convert_from_path(pdf_path=pdf_file_path, poppler_path=r'poppler中bin文件所在地址')

問(wèn)題拋出2：

pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your PATH. See README file for more information.

解決措施：額外下載安裝tesseract-ocr并配置環(huán)境變量。

3.4 對(duì)識(shí)別的數(shù)據(jù)進(jìn)行處理，寫(xiě)入csv文件

modification(infile, outfile)

清洗生成的文本文檔

infile:需要進(jìn)行處理的文件地址
outfile:處理后生成的新文件的地址

def modification(infile, outfile):
  infp = open(infile, "r",encoding='utf-8')
  outfp = open(outfile, "w",encoding='utf-8')
  lines = infp.readlines() #返回列表，包含所有的行。
  #依次讀取每行
  for li in lines:  
    if li.split():             #str.split(str="", num=string.count(str)),過(guò)濾文件中的空行  
      # 根據(jù)識(shí)別情況對(duì)數(shù)據(jù)進(jìn)行清洗  
      li = li.replace('[', ' ').replace(']', '')  
      outfp.writelines(li)    
  infp.close()
  outfp.close()

運(yùn)行結(jié)果

生成一個(gè)新的txt文件，新文件刪除了data.txt中的空行，將原文件中錯(cuò)誤識(shí)別的內(nèi)容替換成正確的。

writercsv(intxt,outcsv)

將文本文件按空格分列寫(xiě)入csv表格

intxt：文本文件地址
outcsv：新生成的csv文件

def writercsv(intxt,outcsv):
  # 使用newlines=''可保證存儲(chǔ)的數(shù)據(jù)不空行。
  csvFile = open(outcsv, 'a',newline='', encoding='utf-8') 
  writer = csv.writer(csvFile)
  csvRow = []
  f = open(intxt,'r',encoding='utf-8')
  for line in f:
      csvRow = line.split() #以空格為分隔符
      if len(csvRow)>1 and len(csvRow)<=3:  #約束條件，視情況而定
         writer.writerow(csvRow)
  f.close()
  csvFile.close()

運(yùn)行結(jié)果

生成一個(gè)三列csv文件，第一列是英文名，第二列是中文名，第三列是所在國(guó)家

總結(jié)

通過(guò)本次學(xué)習(xí)實(shí)現(xiàn)了從掃描件中提取文字、把內(nèi)容按要求寫(xiě)進(jìn)不同格式的文檔的需求。

最初以為提取pdf的庫(kù)也適用于掃描件，嘗試了Pdfplumber庫(kù)和PyPDF2庫(kù)。

實(shí)踐發(fā)現(xiàn)Pdfplumber只能識(shí)別掃描件pdf中的水印，不適用于掃描件的pdf，而PyPDF2庫(kù)運(yùn)行報(bào)錯(cuò)：NotImplementedError: only algorithm code 1 and 2 are supported。

原因是這個(gè)被加密的pdf可能是從高版本的acrobot中來(lái)的，所以對(duì)應(yīng)的加密算法代號(hào)為‘4’，然而，現(xiàn)有的pypdf2模塊并只支持加密算法代號(hào)為‘1’或者‘2’的pdf加密文件。

以上就是Python實(shí)現(xiàn)PDF文字識(shí)別提取并寫(xiě)入CSV文件的詳細(xì)內(nèi)容，更多關(guān)于Python PDF文字識(shí)別提取的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

軟件下載

源碼下載

軟件編程

網(wǎng)絡(luò)編程

在線工具

數(shù)據(jù)庫(kù)

CMS

常用工具

Python實(shí)現(xiàn)PDF文字識(shí)別提取并寫(xiě)入CSV文件

目錄

1. 前言

2. 需求描述

3. 開(kāi)始動(dòng)手動(dòng)腦

3.1 安裝相關(guān)第三方包

3.2 導(dǎo)入需要用到的第三方庫(kù)

3.3 讀取pdf文件，并識(shí)別內(nèi)容

3.4 對(duì)識(shí)別的數(shù)據(jù)進(jìn)行處理，寫(xiě)入csv文件

總結(jié)

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

Python實(shí)現(xiàn)PDF文字識(shí)別提取并寫(xiě)入CSV文件

目錄

1. 前言

2. 需求描述

3. 開(kāi)始動(dòng)手動(dòng)腦

3.1 安裝相關(guān)第三方包

3.2 導(dǎo)入需要用到的第三方庫(kù)

3.3 讀取pdf文件，并識(shí)別內(nèi)容

3.4 對(duì)識(shí)別的數(shù)據(jù)進(jìn)行處理，寫(xiě)入csv文件

總結(jié)

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

3.3 讀取pdf文件，并識(shí)別內(nèi)容

3.4 對(duì)識(shí)別的數(shù)據(jù)進(jìn)行處理，寫(xiě)入csv文件