快捷導(dǎo)航

Python如何實(shí)現(xiàn)PDF隱私信息檢測

更新時(shí)間：2025年02月20日 15:35:04 作者：winfredzhang

隨著越來越多的個(gè)人信息以電子形式存儲和傳輸,確保這些信息的安全至關(guān)重要,本文將介紹如何使用Python檢測PDF文件中的隱私信息,需要的可以參考下

在當(dāng)今，數(shù)據(jù)隱私保護(hù)變得尤為重要。隨著越來越多的個(gè)人信息以電子形式存儲和傳輸，確保這些信息的安全至關(guān)重要。本文將介紹如何使用Python及其相關(guān)庫來檢測PDF文件中的隱私信息，如姓名、身份證號、手機(jī)號和郵箱等。

項(xiàng)目背景

我們的目標(biāo)是開發(fā)一個(gè)簡單的桌面應(yīng)用程序，該程序能夠加載PDF文件，并檢查其中是否包含特定的隱私信息。如果檢測到這些信息，程序?qū)@示它們的具體位置（頁碼和行號）。

技術(shù)棧

Python: 作為主要編程語言。

wxPython: 用于創(chuàng)建圖形用戶界面。

pdfplumber: 用于從PDF文件中提取文本。

正則表達(dá)式(re): 用于匹配隱私信息的模式。

代碼解析

首先，我們需要安裝必要的庫：

pip install wxPython pdfplumber

接下來是核心代碼部分：

import wx
import pdfplumber
import re

class PDFPrivacyChecker(wx.Frame):
    def __init__(self):
        super().__init__(None, title="PDF 個(gè)人隱私檢查", size=(600, 400))

        panel = wx.Panel(self)
        vbox = wx.BoxSizer(wx.VERTICAL)

        # 選擇文件按鈕
        self.btn_select = wx.Button(panel, label="選擇 PDF 文件")
        self.btn_select.Bind(wx.EVT_BUTTON, self.on_select_file)
        vbox.Add(self.btn_select, flag=wx.EXPAND | wx.ALL, border=5)

        # 結(jié)果顯示框（Memo）
        self.memo = wx.TextCtrl(panel, style=wx.TE_MULTILINE | wx.TE_READONLY)
        vbox.Add(self.memo, proportion=1, flag=wx.EXPAND | wx.ALL, border=5)

        panel.SetSizer(vbox)
        self.Show()

    def on_select_file(self, event):
        """ 選擇 PDF 文件并分析隱私信息 """
        with wx.FileDialog(self, "選擇 PDF 文件", wildcard="PDF 文件 (*.pdf)|*.pdf",
                           style=wx.FD_OPEN | wx.FD_FILE_MUST_EXIST) as fileDialog:
            if fileDialog.ShowModal() == wx.ID_CANCEL:
                return

            pdf_path = fileDialog.GetPath()
            self.memo.SetValue(f"已選擇文件: {pdf_path}\n\n正在分析...\n")
            wx.CallLater(100, self.analyze_pdf, pdf_path)

    def analyze_pdf(self, pdf_path):
        """ 分析 PDF 文檔中的隱私信息 """
        results = []
        
        # 定義隱私信息匹配規(guī)則
        patterns = {
            "姓名": r"[\u4e00-\u9fa5]{2,4}",
            "身份證": r"\b\d{18}|\d{17}X\b",
            "手機(jī)號": r"\b1[3-9]\d{9}\b",
            "郵箱": r"[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+",
            "公司": r"[\u4e00-\u9fa5]+公司"
        }

        with pdfplumber.open(pdf_path) as pdf:
            for page_num, page in enumerate(pdf.pages, start=1):
                text = page.extract_text()
                if not text:
                    continue

                lines = text.split("\n")
                for line_num, line in enumerate(lines, start=1):
                    for label, pattern in patterns.items():
                        matches = re.findall(pattern, line)
                        for match in matches:
                            results.append(f"第 {page_num} 頁，第 {line_num} 行：{label} - {match}")

        # 顯示結(jié)果
        if results:
            self.memo.SetValue("\n".join(results))
        else:
            self.memo.SetValue("未檢測到隱私信息。")

if __name__ == "__main__":
    app = wx.App(False)
    frame = PDFPrivacyChecker()
    app.MainLoop()