欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

如何利用Python將html轉(zhuǎn)為pdf、word文件

 更新時間:2022年12月19日 08:30:19   作者:Python妙妙屋  
網(wǎng)絡(luò)上存在很多將HTML轉(zhuǎn)換為PDF的軟件和工具,但是大家都知道收費(fèi),所以下面這篇文章主要給大家介紹了關(guān)于如何利用Python將html轉(zhuǎn)為pdf、word文件的相關(guān)資料,文中通過示例代碼介紹介紹的非常詳細(xì),需要的朋友可以參考下

前言

在日常中有時需將 html 文件轉(zhuǎn)換為 pdf、word 文件。網(wǎng)上免費(fèi)的大多數(shù)不支持多個文件轉(zhuǎn)換的情況,而且在轉(zhuǎn)換幾個后就開始收費(fèi)了。

轉(zhuǎn) pdf

轉(zhuǎn) pdf 中使用 pdfkit 庫,它可以讓 web 網(wǎng)頁直接轉(zhuǎn)為 pdf 文件,多個 url 可以合并成一個文件。

安裝 pdfkit 庫

pip3 install pdfkit

安裝 wkhtmltopdf 文件

pdfkit 是基于 wkhtmltopdf 的 python 封裝庫,所以需要安裝 wkhtmltopdf 軟件。

在windows 系統(tǒng)中,需要將 wkhtmltopdf.exe 文件路徑配置在系統(tǒng)環(huán)境變量中。

url 生成 pdf

這里使用 baidu 首頁和 bing 首頁作為示例

import pdfkit
 
# 第一個參數(shù)可以是列表,放入多個域名,第二個參數(shù)是生成的 PDF 名稱
pdfkit.from_url(['www.baidu.com','www.bing.com'],'search.pdf')

本地 html 文件生成 pdf

提前將需要轉(zhuǎn)換的 html 存儲到本地,也可以使用 python 爬蟲代碼抓取 html 文件到本地。

import pdfkit
 
pdfkit.from_file('/Users/xx/Desktop/html/baidu.html', 'search.pdf')

轉(zhuǎn) word

使用 pypandoc 庫將 html 轉(zhuǎn)換為 word 文件,pypandoc 是一個支持多種文件格式轉(zhuǎn)換的 Python 庫,它用到了 pandoc 軟件,所以需要在電腦上安裝 pandoc 軟件

安裝 pypandoc 庫

pip install pypandoc

安裝 pandoc 軟件

pypandoc 是基于 pandoc 軟件的庫,所以要安裝一下 pandoc (https://github.com/jgm/pandoc/releases/tag/2.11.4),pandoc 支持多種類型轉(zhuǎn)換。下圖是 pandoc 的轉(zhuǎn)換類型。

使用

將 html 文件提前存儲在本地,也可以用爬蟲將需要轉(zhuǎn)換的 html 文件在代碼中抓取后使用。

import pypandoc
 
# convert_file('原文件','目標(biāo)格式','目標(biāo)文件')
output = pypandoc.convert_file('/Users/xx/Desktop/html/baidu.html', 'docx', outputfile="baidu.doc")

pypandoc 無法對 word 進(jìn)行排版,所以需要小伙伴們進(jìn)行 2 次排版。

補(bǔ)充:用python把pdf文件轉(zhuǎn)換為word文件

安裝pip install pdf2docx:

pip install pdf2docx

如果安裝過程出現(xiàn)報錯,可能是版本匹配問題,先安裝PyMuPDF這個庫即可正常安裝pip install PyMuPDF。

pip install PyMuPDF

安裝好后,把需要轉(zhuǎn)換的PDF文檔放到和python代碼同一個文件夾內(nèi)。

python代碼:

import os
from pdf2docx import Converter
 
def pdf_docx():
 
    # 獲取當(dāng)前工作目錄
    file_path = os.getcwd()
 
    # 獲取所有文件
    files = os.listdir(file_path)
 
    # 遍歷所有文件
    for file in files:
 
        # 過濾臨時文件
        if '~$' in file:
            continue
 
        # 過濾非pdf格式文件
        if file.split('.')[-1] != 'pdf':
            continue
        # 獲取文件名稱
        file_name = file.split('.')[0]
        # pdf文件名稱
        pdf_name = os.getcwd() + '\\' + file
        # docx文件名稱
        docx_name = os.getcwd() + '\\' + file_name + '.docx'
        # 加載pdf文檔
        cv = Converter(pdf_name)
        cv.convert(docx_name, start=0, end=12)
        cv.close()
 
if __name__ == '__main__':
    pdf_docx()

start是pdf轉(zhuǎn)換的起始頁,end是結(jié)束頁。如果不傳入start和end這兩個參數(shù),默認(rèn)就是從第一頁轉(zhuǎn)換到最后一頁。也可以通過pages方法確定轉(zhuǎn)換頁數(shù),方法為:cv.convert(docx_file, pages=[0,2, 5])

總結(jié)

利用好 Python 第三方庫類,可以為小伙伴寫出各種個性化定制的小程序

到此這篇關(guān)于如何利用Python將html轉(zhuǎn)為pdf、word文件的文章就介紹到這了,更多相關(guān)Python將html轉(zhuǎn)pdf word內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • 使用tensorflow實(shí)現(xiàn)矩陣分解方式

    使用tensorflow實(shí)現(xiàn)矩陣分解方式

    今天小編就為大家分享一篇使用tensorflow實(shí)現(xiàn)矩陣分解方式,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-02-02
  • python處理csv中的空值方法

    python處理csv中的空值方法

    今天小編就為大家分享一篇python處理csv中的空值方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-06-06
  • 詳解Python中的Lock和Rlock

    詳解Python中的Lock和Rlock

    這篇文章主要介紹了Python中的Lock和Rlock的相關(guān)資料,幫助大家更好的理解和學(xué)習(xí)python線程的相關(guān)知識,感興趣的朋友可以了解下
    2021-01-01
  • Django重設(shè)Admin密碼過程解析

    Django重設(shè)Admin密碼過程解析

    這篇文章主要介紹了Django重設(shè)Admin密碼過程解析,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2020-02-02
  • Python編程中使用Pillow來處理圖像的基礎(chǔ)教程

    Python編程中使用Pillow來處理圖像的基礎(chǔ)教程

    這篇文章主要介紹了Python編程中使用Pillow來處理圖像的基礎(chǔ)教程,Pillow和PIL都是Python下十分強(qiáng)大的圖片處理利器,朋友可以參考下
    2015-11-11
  • 解決Pytorch半精度浮點(diǎn)型網(wǎng)絡(luò)訓(xùn)練的問題

    解決Pytorch半精度浮點(diǎn)型網(wǎng)絡(luò)訓(xùn)練的問題

    這篇文章主要介紹了解決Pytorch半精度浮點(diǎn)型網(wǎng)絡(luò)訓(xùn)練的問題,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2021-05-05
  • 使用PYTHON創(chuàng)建XML文檔

    使用PYTHON創(chuàng)建XML文檔

    今天想使用python來創(chuàng)建一個xml文件。找了下資料,發(fā)現(xiàn)資料不是很多,基本上都是使用python來解析xml文件的
    2012-03-03
  • Python實(shí)現(xiàn)連接FTP并下載文件夾

    Python實(shí)現(xiàn)連接FTP并下載文件夾

    這篇文章主要為大家介紹了如何利用Python實(shí)現(xiàn)鏈接FTP服務(wù)器,并下載相應(yīng)的文件夾,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以了解一下
    2022-03-03
  • python+PyQT實(shí)現(xiàn)系統(tǒng)桌面時鐘

    python+PyQT實(shí)現(xiàn)系統(tǒng)桌面時鐘

    這篇文章主要為大家詳細(xì)介紹了python+PyQT實(shí)現(xiàn)系統(tǒng)桌面時鐘,文中示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2018-11-11
  • python生成圖片驗(yàn)證碼的方法

    python生成圖片驗(yàn)證碼的方法

    這篇文章主要為大家詳細(xì)介紹了python生成圖片驗(yàn)證碼的方法,文中示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2022-05-05

最新評論