快捷導(dǎo)航

使用Python打造一個將PDF轉(zhuǎn)換為文本的工具

更新時間：2025年08月05日 09:41:35 作者：Y雨何時停T

在數(shù)字化時代,PDF 文件是我們?nèi)粘Ｉ钪谐Ｒ姷奈臋n格式,PDF 的廣泛使用讓提取其中文字內(nèi)容成為一個常見需求,本文將介紹一個基于 Python 和 PyPDF2 的工具,用于將 PDF 文件中的文字提取并保存為文本文件,需要的朋友可以參考下

引言

在數(shù)字化時代，PDF 文件是我們?nèi)粘Ｉ钪谐Ｒ姷奈臋n格式。無論是學(xué)術(shù)論文、工作報告還是電子書，PDF 的廣泛使用讓提取其中文字內(nèi)容成為一個常見需求。手動復(fù)制粘貼顯然效率低下，而借助 Python，我們可以輕松實現(xiàn)自動化提取。本文將介紹一個基于 Python 和 PyPDF2 的工具，用于將 PDF 文件中的文字提取并保存為文本文件。讓我們一起來探索它的實現(xiàn)過程吧！

背景與需求

PDF 文件通常包含豐富的文本信息，但其格式特性使得直接訪問內(nèi)容并不總是直觀。許多場景下，我們需要將 PDF 轉(zhuǎn)為純文本，例如：

將電子書內(nèi)容導(dǎo)入筆記軟件。
提取報告數(shù)據(jù)進(jìn)行分析。
為后續(xù)自然語言處理任務(wù)準(zhǔn)備數(shù)據(jù)。

Python 的 PyPDF2 庫為我們提供了讀取 PDF 文件并提取文字的便捷方法。通過編寫一個簡單的腳本，我們可以實現(xiàn)從 PDF 到 TXT 的轉(zhuǎn)換，并支持交互式操作。這個工具的目標(biāo)是：

輸入單個 PDF 文件路徑。
提取所有頁面的文字內(nèi)容。
將結(jié)果保存為同名的 TXT 文件。
提供錯誤提示和用戶友好的交互界面。

功能概覽

腳本包含以下核心功能：

文本提取：逐頁讀取 PDF 并提取文字。
文件處理：將提取的文本保存為 TXT 文件。
錯誤管理：處理文件不存在、格式錯誤等問題。
交互式界面：支持用戶輸入路徑并選擇是否繼續(xù)。

接下來，我們將深入探討代碼的實現(xiàn)細(xì)節(jié)。

技術(shù)實現(xiàn)

依賴庫

腳本依賴以下兩個庫：

os：用于文件路徑操作。
PyPDF2：用于讀取 PDF 文件并提取文本。

安裝 PyPDF2 的命令如下：

pip install PyPDF2

核心函數(shù)解析

pdf_to_txt(pdf_path)

功能：將指定 PDF 文件的文字提取并保存為 TXT 文件。
邏輯：
- 檢查文件是否存在及是否為 PDF 格式。
- 使用 PdfReader 打開 PDF 文件。
- 逐頁提取文本并拼接。
- 將結(jié)果寫入同名 TXT 文件（UTF-8 編碼）。
錯誤處理：
- FileNotFoundError：文件不存在。
- ValueError：文件不是 PDF 格式。
- 通用異常：其他潛在錯誤。
返回值：布爾值，表示操作是否成功。

main()

功能：提供交互式入口。
流程：
- 提示用戶輸入 PDF 文件路徑。
- 調(diào)用 pdf_to_txt 執(zhí)行轉(zhuǎn)換。
- 根據(jù)結(jié)果詢問是否繼續(xù)處理其他文件。
- 支持輸入 ‘q’ 退出程序。

代碼亮點

異常處理：通過多層次 try-except，確保程序在遇到問題時不會崩潰，并給出清晰提示。
簡潔性：核心邏輯集中在 pdf_to_txt 函數(shù)中，易于維護(hù)和擴(kuò)展。
用戶體驗：交互式設(shè)計讓操作直觀，支持非技術(shù)用戶。

使用場景

假設(shè)你有一份學(xué)術(shù)論文的 PDF 文件，想提取其中的文字進(jìn)行引用或分析。你可以：

運(yùn)行腳本，輸入文件路徑（例如 C:/Docs/paper.pdf）。
腳本自動生成 paper.txt，包含所有頁面文字。
打開 TXT 文件，輕松復(fù)制或編輯內(nèi)容。

輸出文件示例：

第一頁內(nèi)容...
第二頁內(nèi)容...

如何運(yùn)行

確保安裝了 Python 和 PyPDF2。
將腳本保存為 pdf_to_txt.py。
在終端運(yùn)行：

python pdf_to_txt.py

按照提示輸入 PDF 文件路徑即可。

注意事項

文字提取限制：PyPDF2 的 extract_text() 方法依賴 PDF 的文本編碼。如果 PDF 是掃描件或圖像格式，提取可能失?。ㄐ枧浜?OCR 工具如 Tesseract）。
編碼支持：使用 UTF-8 確保多語言兼容性。
文件覆蓋：如果目標(biāo) TXT 文件已存在，會被覆蓋。

完整代碼

以下是完整的 Python 腳本：

import PyPDF2
import os

def pdf_to_txt(pdf_path):
    try:
        # 檢查文件是否存在
        if not os.path.exists(pdf_path):
            raise FileNotFoundError("指定的PDF文件未找到")
            
        # 檢查文件是否為PDF
        if not pdf_path.lower().endswith('.pdf'):
            raise ValueError("文件必須是PDF格式")
            
        # 獲取文件名（不含擴(kuò)展名）
        file_name = os.path.splitext(pdf_path)[0]
        # 創(chuàng)建輸出txt文件路徑
        txt_path = f"{file_name}.txt"
        
        # 打開PDF文件
        with open(pdf_path, 'rb') as pdf_file:
            # 創(chuàng)建PDF閱讀器對象
            pdf_reader = PyPDF2.PdfReader(pdf_file)
            # 獲取PDF頁數(shù)
            num_pages = len(pdf_reader.pages)
            
            # 初始化存儲提取文本的字符串
            text = ""
            
            # 逐頁提取文字
            for page_num in range(num_pages):
                # 獲取頁面對象
                page = pdf_reader.pages[page_num]
                # 提取文字并添加到text中
                text += page.extract_text() + "\n"  # 每頁后加換行符
                
            # 將提取的文字寫入txt文件
            with open(txt_path, 'w', encoding='utf-8') as txt_file:
                txt_file.write(text)
                
        print(f"\n成功提取 {num_pages} 頁內(nèi)容！")
        print(f"文字已保存到: {txt_path}")
        return True
        
    except FileNotFoundError as e:
        print(f"\n錯誤: {str(e)}")
        return False
    except ValueError as e:
        print(f"\n錯誤: {str(e)}")
        return False
    except Exception as e:
        print(f"\n發(fā)生錯誤: {str(e)}")
        return False

def main():
    print("歡迎使用 PDF 文字提取工具！")
    print("請輸入完整的 PDF 文件路徑（或輸入 'q' 退出）")
    
    while True:
        # 獲取用戶輸入
        pdf_path = input("\nPDF 文件路徑: ").strip()
        
        # 檢查是否退出
        if pdf_path.lower() == 'q':
            print("程序已退出")
            break
            
        # 執(zhí)行轉(zhuǎn)換
        success = pdf_to_txt(pdf_path)
        
        # 如果成功，問是否繼續(xù)
        if success:
            while True:
                choice = input("\n是否繼續(xù)處理其他文件？(y/n): ").lower().strip()
                if choice in ['y', 'n']:
                    break
                print("請輸入 'y' 或 'n'")
            
            if choice == 'n':
                print("程序已退出")
                break
        else:
            print("請檢查文件路徑后重試")

if __name__ == "__main__":
    main()