如何利用Python將html轉(zhuǎn)為pdf、word文件
前言
在日常中有時需將 html 文件轉(zhuǎn)換為 pdf、word 文件。網(wǎng)上免費(fèi)的大多數(shù)不支持多個文件轉(zhuǎn)換的情況,而且在轉(zhuǎn)換幾個后就開始收費(fèi)了。
轉(zhuǎn) pdf
轉(zhuǎn) pdf 中使用 pdfkit 庫,它可以讓 web 網(wǎng)頁直接轉(zhuǎn)為 pdf 文件,多個 url 可以合并成一個文件。
安裝 pdfkit 庫
pip3 install pdfkit
安裝 wkhtmltopdf 文件
pdfkit 是基于 wkhtmltopdf 的 python 封裝庫,所以需要安裝 wkhtmltopdf 軟件。
在windows 系統(tǒng)中,需要將 wkhtmltopdf.exe 文件路徑配置在系統(tǒng)環(huán)境變量中。
url 生成 pdf
這里使用 baidu 首頁和 bing 首頁作為示例
import pdfkit # 第一個參數(shù)可以是列表,放入多個域名,第二個參數(shù)是生成的 PDF 名稱 pdfkit.from_url(['www.baidu.com','www.bing.com'],'search.pdf')
本地 html 文件生成 pdf
提前將需要轉(zhuǎn)換的 html 存儲到本地,也可以使用 python 爬蟲代碼抓取 html 文件到本地。
import pdfkit pdfkit.from_file('/Users/xx/Desktop/html/baidu.html', 'search.pdf')
轉(zhuǎn) word
使用 pypandoc 庫將 html 轉(zhuǎn)換為 word 文件,pypandoc 是一個支持多種文件格式轉(zhuǎn)換的 Python 庫,它用到了 pandoc 軟件,所以需要在電腦上安裝 pandoc 軟件
安裝 pypandoc 庫
pip install pypandoc
安裝 pandoc 軟件
pypandoc 是基于 pandoc 軟件的庫,所以要安裝一下 pandoc (https://github.com/jgm/pandoc/releases/tag/2.11.4),pandoc 支持多種類型轉(zhuǎn)換。下圖是 pandoc 的轉(zhuǎn)換類型。
使用
將 html 文件提前存儲在本地,也可以用爬蟲將需要轉(zhuǎn)換的 html 文件在代碼中抓取后使用。
import pypandoc # convert_file('原文件','目標(biāo)格式','目標(biāo)文件') output = pypandoc.convert_file('/Users/xx/Desktop/html/baidu.html', 'docx', outputfile="baidu.doc")
pypandoc 無法對 word 進(jìn)行排版,所以需要小伙伴們進(jìn)行 2 次排版。
補(bǔ)充:用python把pdf文件轉(zhuǎn)換為word文件
安裝pip install pdf2docx:
pip install pdf2docx
如果安裝過程出現(xiàn)報錯,可能是版本匹配問題,先安裝PyMuPDF這個庫即可正常安裝pip install PyMuPDF。
pip install PyMuPDF
安裝好后,把需要轉(zhuǎn)換的PDF文檔放到和python代碼同一個文件夾內(nèi)。
python代碼:
import os from pdf2docx import Converter def pdf_docx(): # 獲取當(dāng)前工作目錄 file_path = os.getcwd() # 獲取所有文件 files = os.listdir(file_path) # 遍歷所有文件 for file in files: # 過濾臨時文件 if '~$' in file: continue # 過濾非pdf格式文件 if file.split('.')[-1] != 'pdf': continue # 獲取文件名稱 file_name = file.split('.')[0] # pdf文件名稱 pdf_name = os.getcwd() + '\\' + file # docx文件名稱 docx_name = os.getcwd() + '\\' + file_name + '.docx' # 加載pdf文檔 cv = Converter(pdf_name) cv.convert(docx_name, start=0, end=12) cv.close() if __name__ == '__main__': pdf_docx()
start是pdf轉(zhuǎn)換的起始頁,end是結(jié)束頁。如果不傳入start和end這兩個參數(shù),默認(rèn)就是從第一頁轉(zhuǎn)換到最后一頁。也可以通過pages方法確定轉(zhuǎn)換頁數(shù),方法為:cv.convert(docx_file, pages=[0,2, 5])
總結(jié)
利用好 Python 第三方庫類,可以為小伙伴寫出各種個性化定制的小程序
到此這篇關(guān)于如何利用Python將html轉(zhuǎn)為pdf、word文件的文章就介紹到這了,更多相關(guān)Python將html轉(zhuǎn)pdf word內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
使用tensorflow實(shí)現(xiàn)矩陣分解方式
今天小編就為大家分享一篇使用tensorflow實(shí)現(xiàn)矩陣分解方式,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-02-02Python編程中使用Pillow來處理圖像的基礎(chǔ)教程
這篇文章主要介紹了Python編程中使用Pillow來處理圖像的基礎(chǔ)教程,Pillow和PIL都是Python下十分強(qiáng)大的圖片處理利器,朋友可以參考下2015-11-11解決Pytorch半精度浮點(diǎn)型網(wǎng)絡(luò)訓(xùn)練的問題
這篇文章主要介紹了解決Pytorch半精度浮點(diǎn)型網(wǎng)絡(luò)訓(xùn)練的問題,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2021-05-05Python實(shí)現(xiàn)連接FTP并下載文件夾
這篇文章主要為大家介紹了如何利用Python實(shí)現(xiàn)鏈接FTP服務(wù)器,并下載相應(yīng)的文件夾,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以了解一下2022-03-03python+PyQT實(shí)現(xiàn)系統(tǒng)桌面時鐘
這篇文章主要為大家詳細(xì)介紹了python+PyQT實(shí)現(xiàn)系統(tǒng)桌面時鐘,文中示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下2018-11-11