Python實現(xiàn)常用文本內容提取

更新時間：2025年03月23日 15:26:24 作者：擁抱AI

在日常工作和學習中,我們經常需要從PDF、Word文檔中提取文本,本文將介紹如何使用Python編寫一個文本內容提取工具,有需要的小伙伴可以參考下

一、引言

在日常工作和學習中，我們經常需要從PDF、Word文檔中提取文本，例如為了數據分析和文本處理等。如果手動進行這些操作，不僅費時費力，而且容易出錯。因此，編寫一個文本內容提取變得尤為重要。本文將介紹如何使用Python編寫一個文本內容提取，該工具可以從PDF、Word文檔中提取文本。

二、文本內容提取的原理

文本內容提取的核心原理是遍歷指定目錄下的所有文件，根據文件類型（PDF或Word）使用相應的庫提取文本，然后將提取的文本保存到指定目錄。在這個過程中，我們需要考慮以下幾個問題：

如何遍歷指定目錄下的所有文件？

如何根據文件類型提取文本？

如何保存提取的文本？

接下來，我們將分別介紹這三個問題的解決方案。

三、文本內容提取的設計

在設計文本內容提取時，我們需要考慮以下幾個方面的內容：

用戶界面：為了方便用戶使用，我們可以設計一個簡單的命令行界面，讓用戶可以輸入目錄、輸出目錄等參數。

文件遍歷：我們需要編寫一個文件遍歷，用于遍歷指定目錄下的所有文件。

文本提?。何覀冃枰帉懸粋€文本提取，用于根據文件類型提取文本。

文本保存：我們需要編寫一個文本保存，用于將提取的文本保存到指定目錄。

四、文本內容提取的實現(xiàn)

接下來，我們將詳細介紹文本內容提取的實現(xiàn)過程。為了方便起見，我們將使用Python編寫這個工具。

1.用戶界面

我們可以使用Python的argparse庫來設計一個簡單的命令行界面。界面包括以下幾個部分：

目錄參數：讓用戶指定需要提取文本的文件所在的目錄。

輸出目錄參數：讓用戶指定提取的文本保存到的目錄。

2.文件遍歷

我們可以使用Python的os庫來遍歷指定目錄下的所有文件。具體實現(xiàn)如下：

import os
def traverse_dir(dir_path):
    file_list = []
    for root, dirs, files in os.walk(dir_path):
        for file in files:
            file_list.append(os.path.join(root, file))
    return file_list

3.文本提取

對于PDF文件，我們可以使用Python的PyPDF2庫來提取文本。具體實現(xiàn)如下：

import PyPDF2
def extract_text_from_pdf(pdf_path, output_path):
    with open(pdf_path, 'rb') as file:
        pdf_reader = PyPDF2.PdfFileReader(file)
        for page_num in range(pdf_reader.numPages):
            page = pdf_reader.getPage(page_num)
            text = page.extractText()
            with open(output_path, 'a', encoding='utf-8') as output_file:
                output_file.write(text)

對于Word文檔，我們可以使用Python的python-docx庫來提取文本。具體實現(xiàn)如下：

from docx import Document
def extract_text_from_docx(docx_path, output_path):
    doc = Document(docx_path)
    text = []
    for para in doc.paragraphs:
        text.append(para.text)
    with open(output_path, 'a', encoding='utf-8') as output_file:
        output_file.write('\n'.join(text))

4.文本保存

我們可以使用Python的os.path.join()函數來保存提取的文本。具體實現(xiàn)如下：

import os
def save_text(text, output_path):
    with open(output_path, 'w', encoding='utf-8') as output_file:
        output_file.write(text)

五、完整代碼示例

import argparse
import os
import PyPDF2
from docx import Document
def traverse_dir(dir_path):
    file_list = []
    for root, dirs, files in os.walk(dir_path):
        for file in files:
            file_list.append(os.path.join(root, file))
    return file_list
def extract_text_from_pdf(pdf_path, output_path):
    with open(pdf_path, 'rb') as file:
        pdf_reader = PyPDF2.PdfFileReader(file)
        for page_num in range(pdf_reader.numPages):
            page = pdf_reader.getPage(page_num)
            text = page.extractText()
            with open(output_path, 'a', encoding='utf-8') as output_file:
                output_file.write(text)
def extract_text_from_docx(docx_path, output_path):
    doc = Document(docx_path)
    text = []
    for para in doc.paragraphs:
        text.append(para.text)
    with open(output_path, 'a', encoding='utf-8') as output_file:
        output_file.write('\n'.join(text))
def save_text(text, output_path):
    with open(output_path, 'w', encoding='utf-8') as output_file:
        output_file.write(text)
def main():
    parser = argparse.ArgumentParser(description="文本內容提取")
    parser.add_argument("directory", help="指定目錄")
    parser.add_argument("output_directory", help="指定輸出目錄")
    args = parser.parse_args()
    dir_path = args.directory
    output_dir = args.output_directory
    file_list = traverse_dir(dir_path)
    for file_path in file_list:
        if file_path.lower().endswith(('.pdf')):
            extract_text_from_pdf(file_path, output_dir)
        elif file_path.lower().endswith(('.docx', '.doc')):
            extract_text_from_docx(file_path, output_dir)
if __name__ == "__main__":
    main()

以上就是Python實現(xiàn)常用文本內容提取的詳細內容，更多關于Python文本內容提取的資料請關注腳本之家其它相關文章！

您可能感興趣的文章: