對(duì)于是文字類(lèi)的PDF可以快速的提取其中文字,但是有許多PDF是圖片格式,并不能直接提取文字。本文采取PDF轉(zhuǎn)圖片,并通過(guò)OCR識(shí)別文字生成文本,進(jìn)而統(tǒng)計(jì)文本的詞頻的方式進(jìn)行快速預(yù)覽。一、PDF轉(zhuǎn)圖片1、PDF轉(zhuǎn)圖片本文使用PyMuPDF模塊進(jìn)行轉(zhuǎn)化。1、 PyMuPD網(wǎng)上有許多資料,但是多數(shù)比較老,這個(gè)模塊的API已有變動(dòng),本文做了更新。
www.dbjr.com.cn/python/338969v...htm 2025-6-4