Python拆分Word文檔的四種實(shí)用技巧分享

更新時(shí)間：2025年02月17日 10:33:52 作者：nuclear2011

在日常文檔處理中,將大型 Word 文檔拆分為多個(gè)獨(dú)立文件是一項(xiàng)常見的需求,拆分文檔可以帶來許多好處,這篇文章將介紹使用Python將Word文檔拆分為多個(gè)文檔的四種不同方式,需要的朋友可以參考下

引言

在日常文檔處理中，將大型 Word 文檔拆分為多個(gè)獨(dú)立文件是一項(xiàng)常見的需求。拆分文檔可以帶來許多好處，例如：

提高管理效率：大型文檔通常包含大量信息，處理和維護(hù)可能非常復(fù)雜。通過拆分文檔，可以將內(nèi)容分解成更小的部分，從而簡化管理和更新過程。
便于協(xié)作：在團(tuán)隊(duì)協(xié)作中，多位成員可能同時(shí)處理同一個(gè)文檔。將文檔拆分后，團(tuán)隊(duì)成員可以各自負(fù)責(zé)不同的部分，減少沖突，提高工作效率。
優(yōu)化性能：大文檔在加載、編輯和保存時(shí)可能導(dǎo)致軟件性能下降。拆分文檔可以減輕文件大小對系統(tǒng)性能的影響，使操作更加流暢。
簡化版本控制：對于版本控制，小文件的變更跟蹤更加直觀，便于回溯和審查，避免對整個(gè)大文檔進(jìn)行重復(fù)操作。
信息組織和查找：將文檔按章節(jié)或主題拆分，有助于信息的分類和整理，便于后續(xù)的查找和引用。

這篇文章將介紹使用Python將Word文檔拆分為多個(gè)文檔的四種不同方式，包括：

Python按節(jié)拆分Word文檔
Python按標(biāo)題拆分Word文檔
Python按書簽拆分Word文檔
Python將Word文檔拆分為多個(gè)HTML頁面

使用工具

要在 Python中拆分Word 文檔，可以使用 Spire.Doc for Python 庫。

Spire.Doc for Python主要用于在Python應(yīng)用程序中創(chuàng)建、讀取、編輯和轉(zhuǎn)換Word文件。它可以處理各種Word格式，包括Doc、Docx、Docm、Dot、Dotx、Dotm等。此外，還可以將Word文檔轉(zhuǎn)換為其他類型的文件格式，如Word轉(zhuǎn)PDF、Word轉(zhuǎn)RTF、Word轉(zhuǎn)HTML、Word轉(zhuǎn)文本、Word轉(zhuǎn)圖片、Word轉(zhuǎn)OFD/XPS/PostScript。

你可以通過在終端中運(yùn)行以下命令從 PyPI 安裝 Spire.Doc for Python：

pip install Spire.Doc

Python按節(jié)拆分Word文檔

在Word中，節(jié)用于將文檔分成不同的部分，每部分可以具有獨(dú)立的頁眉、頁腳、頁面方向、頁邊距及其他格式設(shè)置。按節(jié)拆分Word文檔，可以將每個(gè)節(jié)保存為獨(dú)立文件，從而提高對特定部分的管理、編輯和協(xié)作效率，同時(shí)不會影響整個(gè)文檔。

按節(jié)拆分Word文檔的主要步驟如下：

打開源文檔：創(chuàng)建 Document 類的實(shí)例，并加載需要拆分的源Word文檔。
遍歷節(jié)：逐一訪問源文檔中的各個(gè)節(jié)。對于每個(gè)節(jié)：
- 創(chuàng)建新文檔：為每個(gè)節(jié)生成一個(gè)新的Word文檔。
- 復(fù)制節(jié)內(nèi)容：將當(dāng)前節(jié)的內(nèi)容從源文檔復(fù)制到新文檔中。
- 保存文件：將每個(gè)新文檔保存為獨(dú)立的文件。

實(shí)現(xiàn)代碼：

from spire.doc import *
from spire.doc.common import *
 
# 加載源文檔
with Document() as document:
    document.LoadFromFile("測試.docx")
 
    # 遍歷文檔中的所有節(jié)
    for sec_index in range(document.Sections.Count):
        # 訪問當(dāng)前節(jié)
        section = document.Sections[sec_index]
 
        # 為當(dāng)前節(jié)創(chuàng)建一個(gè)新文檔
        with Document() as new_document:
            # 將當(dāng)前節(jié)復(fù)制到新文檔
            new_document.Sections.Add(section.Clone())
 
            # 復(fù)制源文檔的主題和樣式到新文檔以確保格式一致
            document.CloneThemesTo(new_document)
            document.CloneDefaultStyleTo(new_document)
 
            # 將新文檔保存為單獨(dú)的文件
            output_file = f"Output/節(jié){sec_index + 1}.docx"
            new_document.SaveToFile(output_file, FileFormat.Docx2016)

Python按標(biāo)題拆分Word文檔

另一種常見的Word文檔拆分方法是按標(biāo)題進(jìn)行拆分。該方法基于指定的標(biāo)題樣式（如“Heading1”）將文檔分割成多個(gè)獨(dú)立的文件。

按標(biāo)題拆分Word文檔的主要步驟如下：

打開源文檔：創(chuàng)建 Document 類的實(shí)例，并加載要拆分的源Word文檔。
遍歷節(jié)：逐一訪問源文檔中的各個(gè)節(jié)。對于每個(gè)節(jié)：
- 識別標(biāo)題：逐一訪問節(jié)中的各個(gè)對象，查找樣式為“Heading1”的段落作為分割點(diǎn)。
- 創(chuàng)建新文檔：在發(fā)現(xiàn)“Heading1”時(shí)，生成一個(gè)新文檔，并將該標(biāo)題段落復(fù)制到新文檔中。
- 復(fù)制內(nèi)容：繼續(xù)復(fù)制內(nèi)容到新文檔，直到遇到下一個(gè)“Heading1”。
- 保存文件：將每個(gè)新文檔保存為獨(dú)立的文件。

實(shí)現(xiàn)代碼：

from spire.doc import *
from spire.doc.common import *
 
# 加載源文檔
with Document() as source_document:
    source_document.LoadFromFile("測試.docx")
 
    # 初始化變量
    new_documents = []
    new_document = None
    new_section = None
    is_inside_heading = False
 
    # 遍歷文檔中的所有節(jié)
    for sec_index in range(source_document.Sections.Count):
        # 訪問當(dāng)前節(jié)
        section = source_document.Sections[sec_index]
 
        # 遍歷當(dāng)前節(jié)中的所有對象
        for obj_index in range(section.Body.ChildObjects.Count):
            # 訪問當(dāng)前對象
            obj = section.Body.ChildObjects[obj_index]
            # 檢查當(dāng)前對象是否為段落
            if isinstance(obj, Paragraph):
                para = obj
                # 檢查段落樣式是否為"Heading1"
                if para.StyleName == "Heading1":
                    # 將文檔對象添加到列表
                    if new_document is not None:
                        new_documents.append(new_document)
 
                    # 創(chuàng)建一個(gè)新文檔 
                    new_document = Document()
                    # 為新文檔添加一個(gè)新節(jié)
                    new_section = new_document.AddSection()
 
                    # 復(fù)制源文檔的節(jié)屬性到新文檔的節(jié)
                    section.CloneSectionPropertiesTo(new_section)
                    # 將段落復(fù)制到新文檔的節(jié)中
                    new_section.Body.ChildObjects.Add(para.Clone())
 
                    # 設(shè)置is_inside_heading標(biāo)志為True
                    is_inside_heading = True
                else:
                    if is_inside_heading:
                        # 將下一個(gè)Heading1前的段落復(fù)制到新文檔的節(jié)中
                        new_section.Body.ChildObjects.Add(para.Clone())
            else:
                if is_inside_heading:
                    # 將非段落對象復(fù)制到新文檔的節(jié)中
                    new_section.Body.ChildObjects.Add(obj.Clone())
 
    # 將文檔對象添加到列表中
    if new_document is not None:
        new_documents.append(new_document)
 
    # 遍歷列表中的所有文檔對象
    for i, doc in enumerate(new_documents):
        # 復(fù)制源文檔的主題和樣式以確保格式一致
        source_document.CloneThemesTo(doc)
        source_document.CloneDefaultStyleTo(doc)
 
        # 將文檔保存為單獨(dú)的文件
        output_file = f"Output/標(biāo)題內(nèi)容{i + 1}.docx"
        doc.SaveToFile(output_file, FileFormat.Docx2016)

Python按書簽拆分Word文檔

書簽是文檔中的標(biāo)記，用于指示特定的位置或區(qū)域。用戶可以在需要的位置插入書簽，以自定義拆分點(diǎn)，從而生成符合特定結(jié)構(gòu)或邏輯的獨(dú)立文件。

按書簽拆分Word文檔的主要步驟如下：

打開源文檔：創(chuàng)建Document類的實(shí)例，并加載要拆分的源Word文檔。
遍歷書簽：逐一訪問源文檔中的各個(gè)書簽。對于每個(gè)書簽：
- 創(chuàng)建新文檔：為每個(gè)書簽生成一個(gè)新文檔。
- 添加節(jié)：在新文檔中添加一個(gè)新的節(jié)。
- 替換書簽內(nèi)容：使用 BookmarksNavigator 類提取當(dāng)前書簽的內(nèi)容，然后向新文檔插入相同名稱的書簽，并使用提取的書簽內(nèi)容替換新書簽的內(nèi)容。
- 保存文件：將每個(gè)新文檔保存為獨(dú)立的文件。

實(shí)現(xiàn)代碼：

from spire.doc import *
from spire.doc.common import *
 
# 加載源文檔
with Document() as document:
    document.LoadFromFile("測試.docx")
 
    # 遍歷文檔中的所有書簽
    for bookmark_index in range(document.Bookmarks.Count):
        # 訪問當(dāng)前書簽
        bookmark = document.Bookmarks[bookmark_index]
 
        # 為當(dāng)前書簽創(chuàng)建一個(gè)新文檔
        with Document() as new_document:
            # 向新文檔添加一個(gè)新節(jié)
            new_section = new_document.AddSection()
 
            # 復(fù)制節(jié)屬性
            document.Sections[0].CloneSectionPropertiesTo(new_section)
 
            # 為源文檔創(chuàng)建書簽導(dǎo)航器
            bookmarks_navigator = BookmarksNavigator(document)
            # 導(dǎo)航到當(dāng)前書簽
            bookmarks_navigator.MoveToBookmark(bookmark.Name)
            # 獲取書簽內(nèi)容
            textBodyPart = bookmarks_navigator.GetBookmarkContent()
 
            # 向新文檔添加一個(gè)段落
            paragraph = new_section.AddParagraph()
            # 向段落添加相同的書簽
            paragraph.AppendBookmarkStart(bookmark.Name)
            paragraph.AppendBookmarkEnd(bookmark.Name)
 
            # 為新文檔創(chuàng)建書簽導(dǎo)航器
            new_bookmarks_navigator = BookmarksNavigator(new_document)
            # 導(dǎo)航到新文檔中新添加的書簽
            new_bookmarks_navigator.MoveToBookmark(bookmark.Name)
            # 使用原文檔中書簽的內(nèi)容替換新書簽的內(nèi)容
            new_bookmarks_navigator.ReplaceBookmarkContent(textBodyPart)
 
            # 復(fù)制源文檔的主題和樣式以確保格式一致
            document.CloneThemesTo(new_document)
            document.CloneDefaultStyleTo(new_document)
 
            # 將新文檔保存為單獨(dú)的文件
            output_file = f"Output/書簽_{bookmark.Name}.docx"
            new_document.SaveToFile(output_file, FileFormat.Docx2016)

Python將Word文檔拆分為多個(gè)HTML頁面

將Word文檔拆分為多個(gè)HTML頁面，就是將文檔內(nèi)容分割并轉(zhuǎn)化為多個(gè)獨(dú)立的HTML網(wǎng)頁。這種方式使得文檔可以在瀏覽器中以多個(gè)頁面的形式展示，提升了瀏覽和操作的靈活性。

下面是將一個(gè)Word文檔按節(jié)拆分為多個(gè)HTML頁面的主要步驟：

打開源文檔：創(chuàng)建 Document類實(shí)例，并加載要拆分的源Word文檔。
遍歷節(jié)：逐一訪問源文檔中的各個(gè)節(jié)。對于每個(gè)節(jié)：
- 創(chuàng)建新文檔：為當(dāng)前節(jié)創(chuàng)建一個(gè)新的文檔。
- 復(fù)制節(jié)內(nèi)容：將當(dāng)前節(jié)的內(nèi)容從源文檔復(fù)制到新文檔中。
- 嵌入CSS和圖像：設(shè)置新文檔的HTML導(dǎo)出選項(xiàng)，以便將CSS樣式和圖像嵌入到HTML頁面中。
- 保存為HTML文件：將新文檔保存為HTML文件。

from spire.doc import *
from spire.doc.common import *
 
# 加載源文檔
with Document() as document:
    document.LoadFromFile("測試.docx")
    
    # 遍歷文檔中的所有節(jié)
    for sec_index in range(document.Sections.Count):
        # 獲取當(dāng)前節(jié)
        section = document.Sections[sec_index]
        
        # 創(chuàng)建一個(gè)新的文檔
        new_document = Document()
        # 將當(dāng)前節(jié)復(fù)制到新文檔中
        new_document.Sections.Add(section.Clone())
 
        # 復(fù)制源文檔的主題和樣式以確保格式一致
        document.CloneThemesTo(new_document)
        document.CloneDefaultStyleTo(new_document)
            
        # 將CSS樣式和圖像數(shù)據(jù)嵌入到HTML頁面中
        new_document.HtmlExportOptions.CssStyleSheetType = CssStyleSheetType.Internal
        new_document.HtmlExportOptions.ImageEmbedded = True
            
        # 保存新文檔為單獨(dú)的HTML文件
        output_file = f"Output/節(jié)-{sec_index + 1}.html"
        new_document.SaveToFile(output_file, FileFormat.Html)

除了將Word文檔的內(nèi)容拆分為HTML頁面外，你還可以通過調(diào)整FileFormat參數(shù)將其拆分為其他多種格式，如PDF、XPS、Markdown等。

到此這篇關(guān)于Python拆分Word文檔的四種實(shí)用技巧分享的文章就介紹到這了,更多相關(guān)Python拆分Word文檔內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: