快捷導(dǎo)航

基于Python開發(fā)批量提取PDF書簽的實用工具

更新時間：2025年08月05日 09:46:26 作者：Y雨何時停T

在日常學(xué)習(xí)或工作中,我們經(jīng)常會遇到需要整理大量PDF文件的情況,PDF文件中的書簽是快速導(dǎo)航的重要工具,本文將介紹一個基于Python的工具,它可以批量處理指定目錄下的PDF文件,提取其中的書簽并保存為文本文件,需要的朋友可以參考下

引言

在日常學(xué)習(xí)或工作中，我們經(jīng)常會遇到需要整理大量 PDF 文件的情況。PDF 文件中的書簽（也稱為大綱或目錄）是快速導(dǎo)航的重要工具，但有時我們需要將這些書簽提取出來單獨保存以便查看或編輯。本文將介紹一個基于 Python 的工具，它可以批量處理指定目錄下的 PDF 文件，提取其中的書簽并保存為文本文件。無論你是技術(shù)愛好者還是需要處理文檔的專業(yè)人士，這個工具都能幫到你！

背景與需求

PDF 文件的書簽通常嵌套在文檔的元數(shù)據(jù)中，手動復(fù)制粘貼既費時又容易出錯。如果需要處理多個 PDF 文件，這種重復(fù)勞動更是讓人頭疼。好在 Python 提供了強(qiáng)大的庫，比如 PyPDF2，可以幫助我們輕松訪問 PDF 的內(nèi)部結(jié)構(gòu)。通過編寫一個自動化腳本，我們可以一次性處理多個文件，提取書簽并按層級保存。

這個工具的目標(biāo)是：

遍歷指定目錄下的所有 PDF 文件。
提取每個 PDF 的書簽（包括嵌套層級）。
將書簽保存為格式化的文本文件。
提供友好的交互式界面，支持批量處理。

功能概覽

腳本包含以下幾個核心功能：

遞歸提取書簽：支持多層嵌套的書簽結(jié)構(gòu)。
批量處理：自動掃描目錄中的 PDF 文件并逐一處理。
錯誤處理：對無效文件或缺少書簽的情況進(jìn)行提示。
交互式界面：用戶可以輸入目錄路徑并選擇是否繼續(xù)處理。

接下來，我們將深入探討代碼的實現(xiàn)細(xì)節(jié)。

技術(shù)實現(xiàn)

依賴庫

腳本依賴以下兩個庫：

os：用于文件和目錄操作。
PyPDF2：用于讀取 PDF 文件并提取書簽。

安裝 PyPDF2 的命令如下：

pip install PyPDF2

核心函數(shù)解析

extract_bookmarks(outline, level=0, bookmarks_list=None)

功能：遞歸提取 PDF 的書簽（outline），支持嵌套結(jié)構(gòu)。
邏輯：
- 如果傳入的 outline 為空，直接返回。
- 遍歷每個書簽項，檢查其類型：
  - 如果是字典（dict），提取標(biāo)題并記錄層級（通過縮進(jìn)表示）。
  - 如果是列表（list），遞歸調(diào)用自身處理子節(jié)點。
  - 對未識別的類型打印調(diào)試信息。
返回值：包含所有書簽的列表，每項前面帶有縮進(jìn)以反映層級。

save_bookmarks_to_file(bookmarks, output_file)

功能：將提取的書簽保存到指定文本文件中。
細(xì)節(jié)：使用 UTF-8 編碼寫入，確保支持多語言字符。

process_pdfs_in_directory(input_dir, output_dir)

功能：處理指定目錄中的所有 PDF 文件。
步驟：
- 檢查并創(chuàng)建輸出目錄。
- 掃描 .pdf 文件并逐一處理。
- 使用 PdfReader 讀取 PDF，提取 outline。
- 調(diào)用 extract_bookmarks 獲取書簽列表。
- 將結(jié)果保存為 {文件名}_bookmarks.txt。

main()

功能：提供交互式入口。
流程：
- 提示用戶輸入 PDF 文件目錄和輸出目錄。
- 調(diào)用 process_pdfs_in_directory 處理文件。
- 支持循環(huán)操作，直到用戶選擇退出。

代碼亮點

遞歸設(shè)計：extract_bookmarks 使用遞歸優(yōu)雅地處理嵌套書簽。
健壯性：通過異常捕獲和條件檢查，避免程序因文件損壞或缺少書簽而崩潰。
用戶友好：交互式界面讓非技術(shù)用戶也能輕松使用。

使用場景

假設(shè)你有一個文件夾，里面存放了多本電子書的 PDF 文件，每本都有詳細(xì)的書簽。你可以使用這個工具：

運行腳本，輸入文件夾路徑。
腳本自動掃描并生成每個 PDF 的書簽文本文件。
你可以將這些書簽導(dǎo)入筆記軟件，或用于快速檢索內(nèi)容。

例如：

輸入目錄：D:/Books
輸出結(jié)果：D:/Books/book1_bookmarks.txt, D:/Books/book2_bookmarks.txt

輸出文件可能如下：

- Chapter 1
  - Section 1.1
  - Section 1.2
- Chapter 2

如何運行

確保安裝了 Python 和 PyPDF2。
將腳本保存為 pdf_bookmark_extractor.py。
在終端運行：

python pdf_bookmark_extractor.py

注意事項

腳本依賴 PDF 文件的書簽數(shù)據(jù)。如果 PDF 未嵌入書簽，程序會提示并跳過。
對于復(fù)雜或損壞的 PDF 文件，可能會出現(xiàn)提取失敗的情況，此時會顯示錯誤信息。

完整代碼

以下是完整的 Python 腳本：

import os
from PyPDF2 import PdfReader

def extract_bookmarks(outline, level=0, bookmarks_list=None):
    """遞歸提取所有層級的書簽內(nèi)容"""
    if bookmarks_list is None:
        bookmarks_list = []
    
    if not outline:
        return bookmarks_list
    
    for item in outline:
        if isinstance(item, dict):
            title = item.get('/Title', 'Unnamed')
            bookmarks_list.append("  " * level + f"- {title}")
            if '/Kids' in item or 'kids' in item:
                kids = item.get('/Kids', item.get('kids', []))
                extract_bookmarks(kids, level + 1, bookmarks_list)
        elif isinstance(item, list):
            extract_bookmarks(item, level + 1, bookmarks_list)
        else:
            print(f"未識別的書簽項類型: {type(item)} - {item}")
    
    return bookmarks_list

def save_bookmarks_to_file(bookmarks, output_file):
    """將書簽保存到文件中"""
    with open(output_file, 'w', encoding='utf-8') as f:
        for line in bookmarks:
            f.write(line + "\n")
    print(f"書簽已保存到: {output_file}")

def process_pdfs_in_directory(input_dir, output_dir):
    """處理指定目錄下的所有 PDF 文件"""
    if not os.path.exists(output_dir):
        os.makedirs(output_dir)
        print(f"已創(chuàng)建輸出目錄: {output_dir}")

    pdf_files = [f for f in os.listdir(input_dir) if f.lower().endswith('.pdf')]
    
    if not pdf_files:
        print("指定目錄中沒有找到 PDF 文件！")
        return

    print(f"找到 {len(pdf_files)} 個 PDF 文件，開始處理...")
    
    for pdf_file in pdf_files:
        pdf_path = os.path.join(input_dir, pdf_file)
        print(f"\n正在處理: {pdf_file}")
        
        try:
            pdf = PdfReader(pdf_path)
            outline = pdf.outline
            
            if not outline:
                print(f"{pdf_file} 沒有書簽，跳過。")
                continue
            
            bookmarks = extract_bookmarks(outline)
            if not bookmarks:
                print(f"{pdf_file} 未提取到任何書簽，可能結(jié)構(gòu)復(fù)雜。")
                continue
            
            print("提取到的書簽：")
            for idx, bookmark in enumerate(bookmarks, 1):
                print(f"{idx}. {bookmark}")
            
            output_filename = os.path.splitext(pdf_file)[0] + "_bookmarks.txt"
            output_path = os.path.join(output_dir, output_filename)
            save_bookmarks_to_file(bookmarks, output_path)
        
        except Exception as e:
            print(f"處理 {pdf_file} 時出錯：{e}")

def main():
    """主程序：交互式選擇目錄并提取所有 PDF 的書簽"""
    print("歡迎使用 PDF 書簽批量提取工具！")
    
    while True:
        input_dir = input("請輸入包含 PDF 文件的目錄路徑（或輸入 'q' 退出）：").strip()
        
        if input_dir.lower() == 'q':
            print("退出程序。")
            break
        
        if not os.path.isdir(input_dir):
            print("目錄不存在，請重新輸入！")
            continue
        
        output_dir = input("請輸入保存書簽的輸出目錄路徑（默認(rèn)與輸入目錄相同）：").strip()
        if not output_dir:
            output_dir = input_dir
        
        process_pdfs_in_directory(input_dir, output_dir)
        
        continue_choice = input("\n是否繼續(xù)處理其他目錄？(y/n): ").strip().lower()
        if continue_choice != 'y':
            print("退出程序。")
            break

if __name__ == "__main__":
    main()

總結(jié)

這款工具展示了 Python 在文件處理和自動化任務(wù)中的強(qiáng)大能力。通過幾行代碼，我們實現(xiàn)了一個實用的小程序，不僅節(jié)省時間，還能輕松擴(kuò)展功能（比如支持其他格式或添加圖形界面）。希望這篇文章能激發(fā)你對 Python 的興趣，也歡迎根據(jù)自己的需求改進(jìn)這個腳本！

以上就是基于Python開發(fā)批量提取PDF書簽的實用工具的詳細(xì)內(nèi)容，更多關(guān)于Python批量提取PDF書簽的資料請關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章: