腳本之家服務(wù)器常用軟件

快捷導(dǎo)航

軟件下載

android MAC 驅(qū)動(dòng)下載字體下載 DLL

源碼下載

PHP ASP.NET ASP JSP

軟件編程

C# JAVA C 語(yǔ)言 Delphi Android

網(wǎng)絡(luò)編程

PHP ASP.NET ASP JavaScript

在線工具

CSS格式化 JS格式化 Html轉(zhuǎn)化為Js

數(shù)據(jù)庫(kù)

MYSQL MSSQL oracle DB2 MARIADB

CMS

PHPCMS DEDECMS 帝國(guó)CMS WordPress

常用工具

PHP開發(fā)工具 python Photoshop 必備軟件

Python實(shí)現(xiàn)提取PDF簡(jiǎn)歷信息并存入Excel

更新時(shí)間：2022年04月01日 15:16:52 作者：阿豪

作為人力資源部的小伙伴，常常需要把他人投遞的PDF簡(jiǎn)歷資料里的關(guān)鍵信息數(shù)據(jù)，提取到excel表中匯總，這個(gè)時(shí)候用Python實(shí)現(xiàn)最合適，快來(lái)學(xué)習(xí)一下如何實(shí)現(xiàn)吧

介紹

今天為大家分享一個(gè)真實(shí)的案例。

今天接到人力資源部同事的需求，想把他人投遞的PDF簡(jiǎn)歷資料里的關(guān)鍵信息數(shù)據(jù)，提取到excel表中匯總。

目標(biāo)資料背景：是由求職者自行編制的簡(jiǎn)歷材料，投遞到人力資源部。由于其數(shù)據(jù)格式的不確定，對(duì)數(shù)據(jù)信息的采集帶來(lái)了一定困難。

我的解答思路是：先從PDF文檔中抓取文字信息保存到word文檔中，然后再?gòu)膚ord文檔中讀取文字信息保存到excel中。

1. 將PDF文檔中的文字讀取到word中

import pdfplumber
from docx import Document

with pdfplumber.open('1_5的簡(jiǎn)歷1632532336.pdf') as rpdf:
    first_page = rpdf.pages[0]
    print(first_page.extract_text())

doc = Document()
rpdfword = first_page.extract_text()

pages = doc.add_paragraph(rpdfword)

doc.save('測(cè)試2.docx')

結(jié)果如下：

2. 將word中讀到的文字輸入到excel中

#導(dǎo)入所需庫(kù)
from docx import Document
import xlwings as xw

#寫數(shù)據(jù)
def excel_write(a,path,sheetname,write_cols,write_rows):
    app=xw.App(visible=False,add_book=False)
    app.display_alerts=False
    app.screen_updating=False
    wb=app.books.open(path)
    sht=wb.sheets[sheetname]
    weizhi = []
    try:
        i = 0
        while i!=len(write_cols):
            j = 0
            while j!=len(write_rows):
                weizhi.append(write_cols[i]+str(write_rows[j]))
                j+=1
            i+=1
        k=0
        while k!=len(a):
            sht.range(weizhi[k]).value=a[k].text
            print(weizhi[k])
            k+=1
    finally:
        wb.save()
        wb.close()
        app.kill()

if __name__ == "__main__":
    #打開word文檔
    document = Document(u"測(cè)試2.docx")
    
    #獲取所有段落
    all_paragraphs = document.paragraphs    
    print(len(all_paragraphs))
        
    
    excel_path =r'報(bào)名人員信息統(tǒng)計(jì)表（模板）.xls'
    SheetName = r'Sheet1'
    
    wcols = ['c','d','i','h','e','f','j','L']
    #新讀取一個(gè)簡(jiǎn)歷要換一行
    wrow = [3]
    excel_write(all_paragraphs,excel_path,SheetName,wcols,wrow)

結(jié)果如下：