Python合并pdf文件的工具

更新時間：2021年07月01日 09:50:33 作者：滑稽研究所

PDF文件合并工具是非常好用可以把多個pdf文件合并成一個，本文以5個pdf文件為例給大家分享具體操作方法，通過實例代碼給大家介紹的非常詳細，需要的朋友參考下吧

如果你需要一個PDF文件合并工具，那么本文章完全可以滿足您的要求。哈嘍，大家好呀，這里是滑稽研究所。不多廢話，本期我們利用Python合并把多個pdf文件合并為一個。我們提前準備了5個pdf文件，來驗證代碼。

在這里插入圖片描述
源代碼：

import os
from PyPDF2 import PdfFileReader, PdfFileWriter

# 使用os模塊的walk函數(shù)，搜索出指定目錄下的全部PDF文件
# 獲取同一目錄下的所有PDF文件的絕對路徑
def getFileName(filedir):

    file_list = [os.path.join(root, filespath) \
                 for root, dirs, files in os.walk(filedir) \
                 for filespath in files \
                 if str(filespath).endswith('pdf')
                 ]
    return file_list if file_list else []

# 合并同一目錄下的所有PDF文件
def MergePDF(filepath, outfile):

    output = PdfFileWriter()
    outputPages = 0
    pdf_fileName = getFileName(filepath)

    if pdf_fileName:
        for pdf_file in pdf_fileName:
            print("路徑：%s"%pdf_file)

            # 讀取源PDF文件
            input = PdfFileReader(open(pdf_file, "rb"))

            # 獲得源PDF文件中頁面總數(shù)
            pageCount = input.getNumPages()
            outputPages += pageCount
            print("頁數(shù)：%d"%pageCount)

            # 分別將page添加到輸出output中
            for iPage in range(pageCount):
                output.addPage(input.getPage(iPage))

        print("合并后的總頁數(shù):%d."%outputPages)
        # 寫入到目標PDF文件
        outputStream = open(os.path.join(filepath, outfile), "wb")
        output.write(outputStream)
        outputStream.close()
        print("PDF文件合并完成！")

    else:
        print("沒有可以合并的PDF文件！")

# 主函數(shù)
def main():
    file_dir = input('請輸入存有Pdf的文件夾').replace('/','//')# 存放PDF的原文件夾
    outfile = "pick_me.pdf" # 輸出的PDF文件的名稱
    MergePDF(file_dir, outfile)
    print('done')

main()

在這里插入圖片描述

可以看到5個PDF文件合并到了一起，那么到這里就結束了嗎？當然不是，代碼運行遇到PDF文件中文件格式較多時，比如多圖，word格式等，會出現(xiàn)以下報錯。

在這里插入圖片描述

最后一行報錯的意思為：

PyPDF2。utils.PdfReadError：對于鍵/Im82，字典中字節(jié)0xc0161處有多個定義

通俗一點就是說遇到了一個多義詞，程序不知道該取哪個意思了。我們點進pdf.py文件里，找到下圖位置。

在這里插入圖片描述

嚴格模式默認是打開的，我們改成False。

構造方法：
PyPDF2.PdfFileReader(stream,strict = True,warndest = None,overwriteWarnings = True)
stream：File 對象或支持與 File 對象類似的標準讀取和查找方法的對象，也可以是表示 PDF 文件路徑的字符串。
strict（bool）：確定是否應該警告用戶所用的問題，也導致一些可糾正的問題是致命的，默認是 True
warndest : 記錄警告的目標(默認是 sys.stderr)
overwriteWarnings(bool)：確定是否 warnings.py 用自定義實現(xiàn)覆蓋 Python 模塊（默認為 True）

我們重新運行程序.

在這里插入圖片描述