欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python將博客內(nèi)容html導(dǎo)出為Markdown格式

 更新時(shí)間:2025年04月04日 16:12:27   作者:DriverWon  
Python將博客內(nèi)容html導(dǎo)出為Markdown格式,通過(guò)博客url地址抓取文章,分析并提取出文章標(biāo)題和內(nèi)容,將內(nèi)容構(gòu)建成html,再轉(zhuǎn)換為Markdown文件

一、為什么要搞?

有一部分博客文章需要搬家,逐個(gè)手動(dòng)CV復(fù)制粘貼不僅效率低下,還容易出錯(cuò),而且還面臨格式調(diào)整的問(wèn)題。為了簡(jiǎn)化這一流程,這里嘗試使用Python來(lái)自動(dòng)化處理,確保文章內(nèi)容的準(zhǔn)確性和一致性。

二、準(zhǔn)備如何搞?

通過(guò)博客url地址抓取文章,分析并提取出文章標(biāo)題和內(nèi)容,將內(nèi)容構(gòu)建成html,再轉(zhuǎn)換為Markdown文件。

在文章新家導(dǎo)入生成的Markdown文件。

三、說(shuō)搞咱就搞!

抓取文章

在瀏覽器中(Google Chrome)輸入博客網(wǎng)頁(yè)地址,并F12打開(kāi)開(kāi)發(fā)者工具

選中Doc,在Response中看到響應(yīng)結(jié)果是html文檔

Python實(shí)搞:博客內(nèi)容導(dǎo)出為Markdown_爬蟲

在Headers中復(fù)制出User-Agent,以便模擬瀏覽器的請(qǐng)求

Python實(shí)搞:博客內(nèi)容導(dǎo)出為Markdown_爬蟲_02

Python代碼

requests模擬瀏覽器抓取文章

import requests

blog_url = 'https://blog.csdn.net/qq_40605196/article/details/134268057'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36'}
res = requests.get(url=blog_url, headers=headers)
print(res.text)

Python實(shí)搞:博客內(nèi)容導(dǎo)出為Markdown_Python_03

可見(jiàn)Python抓取結(jié)果和瀏覽器中的響應(yīng)結(jié)果一致

提取內(nèi)容

分析響應(yīng)結(jié)果html

標(biāo)題在articleContentId中

Python實(shí)搞:博客內(nèi)容導(dǎo)出為Markdown_實(shí)戰(zhàn)_04

內(nèi)容在content_views中

Python實(shí)搞:博客內(nèi)容導(dǎo)出為Markdown_markdown_05

Python代碼

使用parsel的Selector解析抓取到的文章,css選擇器提取標(biāo)題和內(nèi)容

import parsel

selector = parsel.Selector(res.text)  # 創(chuàng)建Selector解析對(duì)象
title = selector.css('#articleContentId::text').get()  # CSS選擇器提取文章標(biāo)題
print(title)
print("="*100)
content = selector.css('#content_views').get()  # CSS選擇器提取文章內(nèi)容
print(content)

Python實(shí)搞:博客內(nèi)容導(dǎo)出為Markdown_markdown_06

構(gòu)建html

將提取到的content構(gòu)建成html

html_content = f"""
<!doctype html>
<html lang="zh-CN">
<head>
    <meta charset="UTF-8">
    <title>Document</title>
</head>
<body>
{content}
</body>
</html>
"""

轉(zhuǎn)存markdown

html2text將構(gòu)建好的html轉(zhuǎn)換為markdown文件

from html2text import html2text

markdown = html2text(html_content)  # html轉(zhuǎn)換為markdown
md_path = f'{title}.md'
with open(md_path, 'w+', encoding='utf-8') as f:  # 保存為md文件
    f.write(markdown)

markdown文件內(nèi)容如下圖:

Python實(shí)搞:博客內(nèi)容導(dǎo)出為Markdown_爬蟲_07

搬入新家

在新家中導(dǎo)入保存的.md文件

Python實(shí)搞:博客內(nèi)容導(dǎo)出為Markdown_Python_08

文章中的文字、圖片、代碼塊以及格式都完美搬入新家

到此這篇關(guān)于Python將博客內(nèi)容html導(dǎo)出為Markdown格式的文章就介紹到這了,更多相關(guān)Python將html導(dǎo)出為Markdown內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Django之第三方平臺(tái)QQ授權(quán)登錄的實(shí)現(xiàn)

    Django之第三方平臺(tái)QQ授權(quán)登錄的實(shí)現(xiàn)

    本文主要介紹了Django之第三方平臺(tái)QQ授權(quán)登錄的實(shí)現(xiàn),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2023-05-05
  • python tqdm實(shí)現(xiàn)進(jìn)度條的示例代碼

    python tqdm實(shí)現(xiàn)進(jìn)度條的示例代碼

    這篇文章主要介紹了python tqdm實(shí)現(xiàn)進(jìn)度條的示例代碼,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2020-11-11
  • Python+OpenCV實(shí)現(xiàn)六種常用圖像特效

    Python+OpenCV實(shí)現(xiàn)六種常用圖像特效

    這篇文章主要為大家介紹了用Python和OpenCV實(shí)現(xiàn)的六種常見(jiàn)圖像特效:圖像融合、灰度處理、馬賽克效果、浮雕效果、毛玻璃效果和顏色反轉(zhuǎn),需要的可以參考一下
    2022-05-05
  • Python 自動(dòng)化修改word的案例

    Python 自動(dòng)化修改word的案例

    這篇文章主要介紹了Python 自動(dòng)化修改word的操作,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2021-03-03
  • python 如何將浮點(diǎn)數(shù)尾部無(wú)效0去掉和無(wú)效的‘.’號(hào)

    python 如何將浮點(diǎn)數(shù)尾部無(wú)效0去掉和無(wú)效的‘.’號(hào)

    這篇文章主要介紹了python 如何將浮點(diǎn)數(shù)尾部無(wú)效0去掉和無(wú)效的‘.’號(hào),具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2021-03-03
  • 對(duì)python mayavi三維繪圖的實(shí)現(xiàn)詳解

    對(duì)python mayavi三維繪圖的實(shí)現(xiàn)詳解

    今天小編就為大家分享一篇對(duì)python mayavi三維繪圖的實(shí)現(xiàn)詳解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2019-01-01
  • pytorch  RNN參數(shù)詳解(最新)

    pytorch  RNN參數(shù)詳解(最新)

    這篇文章主要介紹了pytorch  RNN參數(shù)詳解,這個(gè)示例代碼展示了如何使用 PyTorch 定義和訓(xùn)練一個(gè) LSTM 模型,并詳細(xì)解釋了每個(gè)類和方法的參數(shù)及其作用,需要的朋友可以參考下
    2024-06-06
  • 用Django寫天氣預(yù)報(bào)查詢網(wǎng)站

    用Django寫天氣預(yù)報(bào)查詢網(wǎng)站

    今天小編就為大家分享一篇關(guān)于用Django寫天氣預(yù)報(bào)查詢網(wǎng)站的文章,小編覺(jué)得內(nèi)容挺不錯(cuò)的,現(xiàn)在分享給大家,具有很好的參考價(jià)值,需要的朋友一起跟隨小編來(lái)看看吧
    2018-10-10
  • python實(shí)現(xiàn)敲木魚加功德包含加音效和敲擊動(dòng)作(附demo)

    python實(shí)現(xiàn)敲木魚加功德包含加音效和敲擊動(dòng)作(附demo)

    敲木魚加功德是一款很火的動(dòng)畫,本文主要介紹了python實(shí)現(xiàn)敲木魚加功德包含加音效和敲擊動(dòng)作,具有一定的參考價(jià)值,感興趣的可以了解一下
    2023-11-11
  • 新手學(xué)python應(yīng)該下哪個(gè)版本

    新手學(xué)python應(yīng)該下哪個(gè)版本

    在本篇內(nèi)容中小編給大家整理的是關(guān)于新手學(xué)python應(yīng)該下版本的相關(guān)知識(shí)點(diǎn),需要的朋友們可以參考學(xué)習(xí)下。
    2020-06-06

最新評(píng)論