快捷導(dǎo)航

Python使用wxPython和PyMuPDF提取PDF頁(yè)面指定頁(yè)數(shù)的內(nèi)容

更新時(shí)間：2023年08月16日 10:04:40 作者：winfredzhang

在本篇博客中,我們將探討如何使用wxPython和PyMuPDF庫(kù)創(chuàng)建一個(gè)簡(jiǎn)單的Bokeh應(yīng)用程序,用于選擇PDF文件并提取指定頁(yè)面的內(nèi)容,并將提取的內(nèi)容顯示在文本框中,需要的朋友可以參考下

前言

在本篇博客中，我們將探討如何使用wxPython和PyMuPDF庫(kù)創(chuàng)建一個(gè)簡(jiǎn)單的Bokeh應(yīng)用程序，用于選擇PDF文件并提取指定頁(yè)面的內(nèi)容，并將提取的內(nèi)容顯示在文本框中。
C:\pythoncode\new\pdfgetcontent.py

準(zhǔn)備工作

首先，確保你已經(jīng)安裝了以下庫(kù)：

wxPython：用于創(chuàng)建桌面應(yīng)用程序界面。
PyMuPDF：用于處理PDF文件和提取頁(yè)面內(nèi)容。

你可以使用以下命令來(lái)安裝這些庫(kù)：

pip install wxPython pymupdf

創(chuàng)建應(yīng)用程序界面

我們將使用wxPython來(lái)創(chuàng)建應(yīng)用程序的圖形界面。在應(yīng)用程序窗口中，我們將添加一個(gè)選擇按鈕，一個(gè)頁(yè)碼輸入框，一個(gè)提取按鈕和一個(gè)文本框用于顯示提取的內(nèi)容。

  def __init__(self):
        super().__init__(None, title="提取PDF頁(yè)面內(nèi)容", size=(400, 300))
        panel = wx.Panel(self)
        vbox = wx.BoxSizer(wx.VERTICAL)
        select_button = wx.Button(panel, label="選擇PDF文件")
        select_button.Bind(wx.EVT_BUTTON, self.on_select_pdf)
        vbox.Add(select_button, proportion=0, flag=wx.ALIGN_CENTER | wx.ALL, border=10)
        page_label = wx.StaticText(panel, label="頁(yè)碼:")
        vbox.Add(page_label, proportion=0, flag=wx.LEFT, border=10)
        self.page_input = wx.TextCtrl(panel)
        vbox.Add(self.page_input, proportion=0, flag=wx.EXPAND | wx.ALL, border=10)
        extract_button = wx.Button(panel, label="提取內(nèi)容")
        extract_button.Bind(wx.EVT_BUTTON, self.on_extract_content)
        vbox.Add(extract_button, proportion=0, flag=wx.ALIGN_CENTER | wx.ALL, border=10)
        content_label = wx.StaticText(panel, label="內(nèi)容:")
        vbox.Add(content_label, proportion=0, flag=wx.LEFT, border=10)
        self.content_text = wx.TextCtrl(panel, style=wx.TE_MULTILINE | wx.TE_READONLY)
        vbox.Add(self.content_text, proportion=1, flag=wx.EXPAND | wx.ALL, border=10)
        panel.SetSizer(vbox)
    def on_select_pdf(self, event):
        dialog = wx.FileDialog(self, message="選擇PDF文件", wildcard="PDF files (*.pdf)|*.pdf", style=wx.FD_OPEN)
        if dialog.ShowModal() == wx.ID_OK:
            self.pdf_path = dialog.GetPath()
        dialog.Destroy()

在上述代碼中，我們創(chuàng)建了一個(gè)名為PDFContentExtractor的類，繼承自wx.Frame。在該類中，我們使用Bokeh創(chuàng)建了一個(gè)包含選擇按鈕、頁(yè)碼輸入框、提取按鈕和內(nèi)容文本框的布局。我們?yōu)檫x擇按鈕和提取按鈕綁定了相應(yīng)的事件處理方法。

處理PDF文件選擇和內(nèi)容提取

我們使用wxPython的文件對(duì)話框來(lái)選擇PDF文件，并使用PyMuPDF庫(kù)來(lái)打開(kāi)和處理PDF文件。當(dāng)用戶選擇PDF文件并點(diǎn)擊提取按鈕時(shí)，我們將提取指定頁(yè)碼的內(nèi)容，并將其顯示在內(nèi)容文本框中。

import wx
import fitz
class MyFrame(wx.Frame):
    def __init__(self):
        super().__init__(None, title="提取PDF頁(yè)面內(nèi)容", size=(400, 300))
        panel = wx.Panel(self)
        vbox = wx.BoxSizer(wx.VERTICAL)
        select_button = wx.Button(panel, label="選擇PDF文件")
        select_button.Bind(wx.EVT_BUTTON, self.on_select_pdf)
        vbox.Add(select_button, proportion=0, flag=wx.ALIGN_CENTER | wx.ALL, border=10)
        page_label = wx.StaticText(panel, label="頁(yè)碼:")
        vbox.Add(page_label, proportion=0, flag=wx.LEFT, border=10)
        self.page_input = wx.TextCtrl(panel)
        vbox.Add(self.page_input, proportion=0, flag=wx.EXPAND | wx.ALL, border=10)
        extract_button = wx.Button(panel, label="提取內(nèi)容")
        extract_button.Bind(wx.EVT_BUTTON, self.on_extract_content)
        vbox.Add(extract_button, proportion=0, flag=wx.ALIGN_CENTER | wx.ALL, border=10)
        content_label = wx.StaticText(panel, label="內(nèi)容:")
        vbox.Add(content_label, proportion=0, flag=wx.LEFT, border=10)
        self.content_text = wx.TextCtrl(panel, style=wx.TE_MULTILINE | wx.TE_READONLY)
        vbox.Add(self.content_text, proportion=1, flag=wx.EXPAND | wx.ALL, border=10)
        panel.SetSizer(vbox)
    def on_select_pdf(self, event):
        dialog = wx.FileDialog(self, message="選擇PDF文件", wildcard="PDF files (*.pdf)|*.pdf", style=wx.FD_OPEN)
        if dialog.ShowModal() == wx.ID_OK:
            self.pdf_path = dialog.GetPath()
        dialog.Destroy()
    def on_extract_content(self, event):
        page_num = int(self.page_input.GetValue())
        self.extract_page_content(page_num)
    def extract_page_content(self, page_num):
        doc = fitz.open(self.pdf_path)
        if page_num < 1 or page_num > doc.page_count:
            wx.MessageBox("無(wú)效的頁(yè)碼！", "錯(cuò)誤", wx.OK | wx.ICON_ERROR)
            return
        page = doc.load_page(page_num - 1)
        text = page.get_text()
        self.content_text.SetValue(text)
        doc.close()
if __name__ == '__main__':
    app = wx.App()
    frame = MyFrame()
    frame.Show()
    app.MainLoop()
# ...
class PDFContentExtractor(wx.Frame):
    # ...
    def on_select_pdf(self):
        dialog = wx.FileDialog(self, message="選擇PDF文件", wildcard="PDF files (*.pdf)|*.pdf", style=wx.FD_OPEN)
        if dialog.ShowModal() == wx.ID_OK:
            self.pdf_path = dialog.GetPath()
        dialog.Destroy()
    def on_extract_content(self):
        page_num = int(self.page_input.value)
        self.extract_page_content(page_num)
    def extract_page_content(self, page_num):
        doc = fitz.open(self.pdf_path)
        if page_num < 1 or page_num > doc.page_count:
            self.content_text.text = "無(wú)效的頁(yè)碼！"
            return
        page = doc.load_page(page_num - 1)
        text = page.get_text()
        self.content_text.text = text
        doc.close()
# ...

在上述代碼中，我們使用wx.FileDialog對(duì)話框來(lái)選擇PDF文件，并將選擇的文件路徑存儲(chǔ)在self.pdf_path變量中。

在on_extract_content方法中，我們獲取輸入框中的頁(yè)碼，并調(diào)用extract_page_content方法來(lái)提取指定頁(yè)碼的內(nèi)容。

在extract_page_content方法中，我們使用PyMuPDF打開(kāi)并讀取PDF文件。然后，我們通過(guò)doc.load_page方法加載指定頁(yè)碼的頁(yè)面，并使用get_text方法獲取該頁(yè)的文本內(nèi)容。最后，我們將提取的內(nèi)容設(shè)置到文本框content_text中。

運(yùn)行應(yīng)用程序

if __name__ == '__main__':
    app = wx.App()
    frame = PDFContentExtractor()
    frame.Show()
    app.MainLoop()

在上述代碼中，我們創(chuàng)建了一個(gè)wx.App實(shí)例，并實(shí)例化了PDFContentExtractor類。然后，我們顯示應(yīng)用程序窗口，并通過(guò)調(diào)用app.MainLoop()來(lái)啟動(dòng)應(yīng)用程序的事件循環(huán)。

結(jié)論

通過(guò)本篇博客，我們學(xué)習(xí)了如何使用wxPython和PyMuPDF創(chuàng)建用于選擇PDF文件并提取指定頁(yè)面的內(nèi)容。我們還了解了如何使用Bokeh來(lái)創(chuàng)建交互式應(yīng)用程序界面，并通過(guò)事件處理方法來(lái)處理用戶的選擇和操作。

到此這篇關(guān)于Python使用wxPython和PyMuPDF提取PDF頁(yè)面指定頁(yè)數(shù)的內(nèi)容的文章就介紹到這了,更多相關(guān)Python wxPython和PyMuPDF提取PDF內(nèi)容內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: