欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python實(shí)現(xiàn)Word文檔轉(zhuǎn)換Markdown的示例

 更新時(shí)間:2020年12月22日 09:40:31   作者:州的先生  
這篇文章主要介紹了Python實(shí)現(xiàn)Word文檔轉(zhuǎn)換Markdown的示例,幫助大家更好的理解和使用python,感興趣的朋友可以了解下

隨著SaaS服務(wù)的流行,越來越多的人選擇在各個(gè)平臺(tái)上編寫文檔,制作表格并進(jìn)行分享。

同時(shí),隨著Markdown語法的破圈,很多平臺(tái)開始集成支持這種簡潔的書寫標(biāo)記語言,這樣可以保證平臺(tái)上用戶文檔樣式的統(tǒng)一性。

但是在一些場景下,我們還是會(huì)在本地的Office軟件上寫有很多文檔,或者歷史遺留了很多本地文檔。

如果我們需要將其上傳到各大平臺(tái),直接復(fù)制粘貼,大概率是會(huì)造成文檔內(nèi)容結(jié)構(gòu)和樣式的丟失。于此我們需要將其轉(zhuǎn)換為 Markdown 語法。

很多桌面軟件(比如Typora)都提供了導(dǎo)入 Word 文件的功能,這類功能一般是通過 Pandoc 這個(gè)軟件來擴(kuò)展實(shí)現(xiàn)的。

Pandoc 是一個(gè)全能型的文檔格式轉(zhuǎn)換工具,其能夠?qū)⒍喾N文檔格式轉(zhuǎn)換為各類常見的文檔格式。具體的文檔格式之間的轉(zhuǎn)換如下圖所示(來源于官網(wǎng)):

Pandoc 是瑞士軍刀一般的存在,能夠較好的處理各類的文檔格式轉(zhuǎn)換,但是如果我們需要自己寫程序,調(diào)用 Pandoc 則需要額外的安裝 Pandoc 才行,并且也不方便自定義。

幸而,在 Python 中有很多第三方模塊提供了此類文檔格式的轉(zhuǎn)換功能。今天,我們來實(shí)現(xiàn)一下比較頻繁使用到的 Word 文檔轉(zhuǎn) Markdown 文檔。

轉(zhuǎn)換邏輯

Word 文檔到 Markdown 文檔的轉(zhuǎn)換總體而言分兩步來實(shí)現(xiàn):

  • 第一步,將 Word 文檔轉(zhuǎn)換為 HTML 文檔;
  • 第二步,將 HTML 文檔轉(zhuǎn)換為 Markdown 文檔;

依賴模塊

要實(shí)現(xiàn)這個(gè)功能我們需要借助 Python 的兩個(gè)第三方模塊:

  • mammoth
  • markdownify

mammoth 是一個(gè)用于將 Word 文檔轉(zhuǎn)換為 HTML 的模塊,它支持在 Python、JavaScript、Java、.Net等平臺(tái)使用。而 markdownify 則是將 HTML 轉(zhuǎn)換為 Markdown 文檔的模塊。

處理 Word 圖片

因?yàn)?Word 文檔中不可避免地會(huì)存在很多圖片,為了在轉(zhuǎn)換后的文檔中能夠正確地顯示圖片,我們需要自定義一下Word 文檔內(nèi)圖片的處理方式。默認(rèn)情況下,mammoth 會(huì)將圖片轉(zhuǎn)換為 base64 編碼的字符串,這樣不用生成額外的本地圖片文件,但是會(huì)使文檔體積變得很大。所以我們選擇將圖片另存為本地圖片:

# 轉(zhuǎn)存Word文檔內(nèi)的圖片
def convert_img(image):
  with image.open() as image_bytes:
    file_suffix = image.content_type.split("/")[1]
    path_file = "./img/{}.{}".format(str(time.time()),file_suffix)
    with open(path_file, 'wb') as f:
      f.write(image_bytes.read())

  return {"src":path_file}

正式轉(zhuǎn)換

在這里,我們以州的先生很久以前寫的《Python爬蟲實(shí)戰(zhàn)與機(jī)器學(xué)習(xí)應(yīng)用》(需要這本書的小伙伴可以微信私聊我)這本書的 Word 文檔來演示。

代碼如下所示:

# 讀取Word文件
with open(r"F:\自媒體\Python爬蟲實(shí)戰(zhàn)與機(jī)器學(xué)習(xí)應(yīng)用.docx" ,"rb") as docx_file:
  # 轉(zhuǎn)化Word文檔為HTML
  result = mammoth.convert_to_html(docx_file,convert_image=mammoth.images.img_element(convert_img))
  # 獲取HTML內(nèi)容
  html = result.value
  # 轉(zhuǎn)化HTML為Markdown
  md = markdownify(html,heading_style="ATX")
  print(md)
  with open("./docx_to_html.html",'w',encoding='utf-8') as html_file,open("./docx_to_md.md","w",encoding='utf-8') as md_file:
    html_file.write(html)
    md_file.write(md)
  messages = result.messages

運(yùn)行程序,最終生成2個(gè)文件:

  • docx_to_html.html
  • docx_to_md.md

其中,docx_to_html.html 是 Word 文檔轉(zhuǎn)換為 HTML 后的文檔:

docx_to_md.md 是 HTML 轉(zhuǎn)換為 Markdown 后的文檔:

最后是另存為的圖片:

怎么樣,簡單的二三十行代碼就完成了 Word 到 Markdown 文檔的轉(zhuǎn)換,是不是很簡單?

此功能將集成到覓道文檔作為文檔導(dǎo)入的功能實(shí)現(xiàn),歡迎持續(xù)進(jìn)行關(guān)注!

  文章版權(quán)所有:州的先生博客

  原文地址:https://zmister.com/archives/1601.html

以上就是Python實(shí)現(xiàn)Word文檔轉(zhuǎn)換Markdown的示例的詳細(xì)內(nèi)容,更多關(guān)于python Word文檔轉(zhuǎn)換Markdown的資料請關(guān)注腳本之家其它相關(guān)文章!

相關(guān)文章

  • matplotlib之pyplot模塊坐標(biāo)軸標(biāo)簽設(shè)置使用(xlabel()、ylabel())

    matplotlib之pyplot模塊坐標(biāo)軸標(biāo)簽設(shè)置使用(xlabel()、ylabel())

    這篇文章主要介紹了matplotlib之pyplot模塊坐標(biāo)軸標(biāo)簽設(shè)置使用(xlabel()、ylabel()),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2021-02-02
  • 解決Django layui {{}}沖突的問題

    解決Django layui {{}}沖突的問題

    今天小編就為大家分享一篇解決Django layui {{}}沖突的問題,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-08-08
  • python實(shí)現(xiàn)比對美團(tuán)接口返回?cái)?shù)據(jù)和本地mongo數(shù)據(jù)是否一致示例

    python實(shí)現(xiàn)比對美團(tuán)接口返回?cái)?shù)據(jù)和本地mongo數(shù)據(jù)是否一致示例

    這篇文章主要介紹了python實(shí)現(xiàn)比對美團(tuán)接口返回?cái)?shù)據(jù)和本地mongo數(shù)據(jù)是否一致,涉及Python基于requests模塊的數(shù)據(jù)請求與比較運(yùn)算相關(guān)操作技巧,需要的朋友可以參考下
    2019-08-08
  • Python復(fù)制Excel中的行、列和單元格的操作代碼

    Python復(fù)制Excel中的行、列和單元格的操作代碼

    在Excel中,復(fù)制行、列和單元格是日常工作中經(jīng)常需要進(jìn)行的操作,它可以幫助你快速調(diào)整數(shù)據(jù)布局、復(fù)制數(shù)據(jù)模板或進(jìn)行數(shù)據(jù)的批量處理,本文將詳細(xì)介紹如何使用Python將Excel中的行、列、或單元格范圍復(fù)制到指定位置,需要的朋友可以參考下
    2024-09-09
  • python?matplotlib用面積填充實(shí)現(xiàn)lmplot的代碼示例

    python?matplotlib用面積填充實(shí)現(xiàn)lmplot的代碼示例

    這篇文章主要介紹了python?matplotlib如何用面積填充實(shí)現(xiàn)lmplot,文章通過代碼示例介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴可以參考閱讀
    2023-07-07
  • python datetime處理時(shí)間小結(jié)

    python datetime處理時(shí)間小結(jié)

    這篇文章主要介紹了python datetime處理時(shí)間小結(jié),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2020-04-04
  • Python?中的對象析構(gòu)函數(shù)__del__?詳情

    Python?中的對象析構(gòu)函數(shù)__del__?詳情

    這篇文章主要介紹了Python?中的對象析構(gòu)函數(shù)del詳情,Python?中的類的構(gòu)造函數(shù)???__init__???,?每當(dāng)實(shí)例產(chǎn)生就會(huì)調(diào)用這個(gè)構(gòu)造函下面更多相關(guān)內(nèi)容,需要的小伙伴可以參考一下
    2022-03-03
  • Python操作Word檔的主流庫使用選擇與對比指南

    Python操作Word檔的主流庫使用選擇與對比指南

    利用 Python 程序化地創(chuàng)建、讀取或修改 Microsoft Word 文檔 (.docx 格式) 是一項(xiàng)非常實(shí)用的技能,本文將從功能、易用性、適用場景等方面,對比分析幾個(gè)最主流的 Python 庫,幫助您做出正確的選擇
    2025-08-08
  • Python數(shù)值求解微分方程方法(歐拉法,隱式歐拉)

    Python數(shù)值求解微分方程方法(歐拉法,隱式歐拉)

    這篇文章主要介紹了Python數(shù)值求解微分方程方法(歐拉法,隱式歐拉),文章圍繞主題展開詳細(xì)的內(nèi)介紹,具有一定的參考價(jià)值,需要的小伙伴可以參考一下
    2022-09-09
  • Django中F函數(shù)的使用示例代碼詳解

    Django中F函數(shù)的使用示例代碼詳解

    這篇文章主要介紹了Django中F函數(shù)的使用,本文通過實(shí)例代碼給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2020-07-07

最新評論