使用Python合并PDF文件并添加自定義目錄及頁腳的全過程
引言
在處理文檔時(shí),我們經(jīng)常遇到需要合并多個(gè)PDF文件并添加目錄及頁腳的情況。本文將介紹如何使用Python,特別是PyPDF2
和reportlab
庫來實(shí)現(xiàn)這一功能。我們將通過一個(gè)實(shí)用的示例來演示整個(gè)過程,包括如何動(dòng)態(tài)創(chuàng)建目錄頁和在每頁底部添加頁碼。
實(shí)現(xiàn)步驟:
步驟一:準(zhǔn)備環(huán)境
首先,確保你的環(huán)境中安裝了PyPDF2
和reportlab
庫。如果還沒有安裝,可以通過以下命令進(jìn)行安裝:
pip install PyPDF2 reportlab
步驟二:合并PDF文件
我們首先定義一個(gè)函數(shù)add_catalog_page(bookmarks)來創(chuàng)建一個(gè)包含目錄的PDF頁面。這個(gè)目錄基于傳入的書簽列表動(dòng)態(tài)生成,每個(gè)書簽對(duì)應(yīng)一個(gè)文檔標(biāo)題和其開始的頁碼。
接下來,使用create_footer_page(footer_text)函數(shù)為每個(gè)PDF頁面添加自定義頁腳。這個(gè)函數(shù)通過繪制一個(gè)足夠大的白色矩形來覆蓋原有的頁碼,然后在指定位置添加新的頁碼文本。
步驟三:處理特定文件
在合并多個(gè)PDF文件之前,我們可能需要調(diào)整它們的順序。在本例中,我們將特定的文件(如"第一篇.pdf")移動(dòng)到文件列表的開頭,以確保它作為合并后PDF文檔的第一個(gè)文件出現(xiàn)。
步驟四:合并并添加目錄與頁腳
遍歷每個(gè)PDF文件,讀取其頁面,并將它們添加到一個(gè)列表中。同時(shí),我們記錄每個(gè)文件的標(biāo)題和起始頁碼,用于生成目錄頁。
在所有頁面都處理完畢后,我們首先將目錄頁添加到最終的PDF文檔中,然后為每個(gè)頁面添加頁腳,并將它們一一加入到文檔中。
步驟五:保存最終文檔
完成所有頁面的處理和添加后,我們將這些頁面寫入到一個(gè)新的PDF文件中,完成了合并、添加目錄和頁腳的整個(gè)過程。
結(jié)語
通過上述步驟,我們展示了如何使用Python處理PDF文件,包括合并多個(gè)PDF文件、動(dòng)態(tài)創(chuàng)建目錄頁和在每頁底部添加自定義頁腳。這種方法不僅提高了文檔處理的自動(dòng)化程度,也為管理和閱讀PDF文檔提供了便利。希望這篇文章能幫助到需要進(jìn)行PDF文檔處理的讀者。
完整代碼
import io import os from PyPDF2 import PdfReader from PyPDF2 import PdfWriter from reportlab.lib.pagesizes import letter from reportlab.pdfbase.pdfmetrics import stringWidth from reportlab.pdfgen import canvas def create_footer_page(footer_text): packet = io.BytesIO() c = canvas.Canvas(packet, pagesize=letter) width, height = letter # letter頁面的寬度和高度 font_name = "Helvetica" # 使用的字體 font_size = 12 # 字體大小 cover_height = font_size + 4 # 覆蓋區(qū)域的高度稍大于字體大小,以確保完全覆蓋原有頁碼 cover_y_position = 28 # 覆蓋區(qū)域的Y位置,根據(jù)需要進(jìn)行調(diào)整以確保覆蓋原有頁碼 # 計(jì)算文本寬度和起始X位置以居中文本 text_width = c.stringWidth(footer_text, font_name, font_size) text_start_position = (width - text_width) / 2 # 繪制一個(gè)足夠大的白色矩形以覆蓋原有頁碼 c.setFillColorRGB(1, 1, 1) # 設(shè)置填充顏色為白色 c.rect(0, cover_y_position, width, cover_height, stroke=False, fill=True) # 在頁腳區(qū)域居中添加文本,高度可以根據(jù)需要調(diào)整 c.setFont(font_name, font_size) # 設(shè)置字體和大小 c.setFillColorRGB(0, 0, 0) # 設(shè)置文本顏色為黑色 c.drawString(text_start_position, 32, footer_text) # 繪制居中的頁腳文本 c.save() packet.seek(0) return PdfReader(packet) def add_catalog_page(bookmarks): packet = io.BytesIO() c = canvas.Canvas(packet, pagesize=letter) width, height = letter top_margin = 60 # 頂部留白增加 bottom_margin = 60 # 底部留白增加 y_position = height - top_margin # 根據(jù)頂部留白調(diào)整初始y_position c.setFont("Helvetica-Bold", 16) # 設(shè)置標(biāo)題的字體和大小 c.drawString(280, y_position, "Directory") # 在頂部繪制標(biāo)題“目錄” y_position -= 30 # 更新y_position以為目錄項(xiàng)留出空間 c.setFont("Helvetica", 12) # 設(shè)置目錄項(xiàng)的字體和大小 left_margin = 72 right_margin = width - 72 dot_space = 5 # 點(diǎn)間隔可調(diào)整 different_title_spacing = 25 # 不同標(biāo)題之間的間隔 same_title_line_spacing = 15 # 同一個(gè)標(biāo)題換行的間隔 split_ratio = 0.9 # 定義分割點(diǎn)的位置比例 for title, page_number in bookmarks: available_width = right_margin - left_margin - dot_space * 2 # 計(jì)算可用寬度 title_width = stringWidth(title, "Helvetica", 12) page_number_str = str(page_number) page_number_width = stringWidth(page_number_str, "Helvetica", 12) # 判斷標(biāo)題是否需要分割 if title_width > available_width * split_ratio: # 尋找分割點(diǎn) split_title = title while stringWidth(split_title + "-", "Helvetica", 12) > available_width * split_ratio: split_title = split_title[:-1] split_title += "-" c.drawString(left_margin, y_position, split_title) y_position -= same_title_line_spacing # 分割后的第二行位置向下調(diào)整,間隔小一點(diǎn) title = title[len(split_title) - 1:] # 繪制標(biāo)題 c.drawString(left_margin, y_position, title) # 繪制頁碼 c.drawRightString(right_margin, y_position, page_number_str) # 繪制點(diǎn)線 dot_line_start = left_margin + stringWidth(title, "Helvetica", 12) + 10 dot_line_end = right_margin - page_number_width - 10 current_position = dot_line_start while current_position < dot_line_end: c.drawString(current_position, y_position, ".") current_position += dot_space y_position -= different_title_spacing # 移到下一個(gè)標(biāo)題,間隔大一點(diǎn) if y_position < bottom_margin: # 根據(jù)底部留白調(diào)整翻頁判斷 c.showPage() y_position = height - top_margin # 重置y_position時(shí)也考慮頂部留白 c.setFont("Helvetica", 12) # 確保新頁面開始時(shí)使用正確的字體和大小 c.save() packet.seek(0) return PdfReader(packet) # 讀取PDF/路徑下所有.pdf為后綴的文件 pdf_dir = '我的論文集/' pdf_files = sorted([f for f in os.listdir(pdf_dir) if f.endswith('.pdf')]) # 找到特定文件并將其移動(dòng)到列表的開頭 specific_file = "第一篇.pdf" if specific_file in pdf_files: pdf_files.insert(0, pdf_files.pop(pdf_files.index(specific_file))) #print(pdf_files) # 存儲(chǔ)所有處理后的頁面,以便后續(xù)添加頁腳 all_pages = [] bookmarks = [] total_pages = 0 # 首先處理每個(gè)PDF文件,但不立即添加頁腳 for filename in pdf_files: reader = PdfReader(os.path.join(pdf_dir, filename)) bookmarks.append((filename.replace('.pdf', ''), total_pages + 1)) for page in reader.pages: all_pages.append(page) total_pages += 1 # 創(chuàng)建目錄頁并添加到最終PDF writer = PdfWriter() catalog_pdf = add_catalog_page(bookmarks) for page in catalog_pdf.pages: writer.add_page(page) # 為每頁添加頁腳,并將頁面添加到最終的PDF中 current_page_number = 1 # 從目錄頁之后的第一頁開始計(jì)數(shù)頁碼 catalog_pages_count = len(catalog_pdf.pages) # 計(jì)算目錄頁數(shù)量 for page in all_pages: # 不再需要在頁碼中加上目錄頁的數(shù)量 footer_pdf = create_footer_page(f"Page number: {current_page_number}") page.merge_page(footer_pdf.pages[0]) writer.add_page(page) current_page_number += 1 # 保存最終的PDF output_pdf_path = "MergePapers.pdf" with open(output_pdf_path, "wb") as f_out: writer.write(f_out)
到此這篇關(guān)于使用Python合并PDF文件并添加自定義目錄及頁腳的全過程的文章就介紹到這了,更多相關(guān)Python合并PDF并添加目錄及頁腳內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
基于python實(shí)現(xiàn)語音錄入識(shí)別代碼實(shí)例
這篇文章主要介紹了如何通過python實(shí)現(xiàn)語音錄入識(shí)別,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-01-01關(guān)于使用Python的time庫制作進(jìn)度條程序
這篇文章主要介紹了關(guān)于使用Python的time庫制作進(jìn)度條程序,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2023-04-04Python實(shí)現(xiàn)經(jīng)典算法拓?fù)渑判?、字符串匹配算法和最小生成樹?shí)例
這篇文章主要介紹了Python實(shí)現(xiàn)經(jīng)典算法拓?fù)渑判?、字符串匹配算法和最小生成樹?shí)例,拓?fù)渑判?、字符串匹配算法和最小生成樹是?jì)算機(jī)科學(xué)中常用的數(shù)據(jù)結(jié)構(gòu)和算法,它們?cè)诮鉀Q各種實(shí)際問題中具有重要的應(yīng)用價(jià)值,需要的朋友可以參考下2023-08-08Python應(yīng)用03 使用PyQT制作視頻播放器實(shí)例
本篇文章主要介紹了Python使用PyQT制作視頻播放器實(shí)例,具有一定的參考價(jià)值,有興趣的可以了解一下。2016-12-12Python3.7 pyodbc完美配置訪問access數(shù)據(jù)庫
最近小編需要學(xué)習(xí)python連接access數(shù)據(jù)庫,發(fā)現(xiàn)很多朋友推薦pyodbc,那么這篇文章就先為大家介紹一下Python3.7下pyodbc的配置方法2019-10-10python logging設(shè)置level失敗的解決方法
今天小編就為大家分享一篇python logging設(shè)置level失敗的解決方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2020-02-02Python爬蟲實(shí)例——scrapy框架爬取拉勾網(wǎng)招聘信息
這篇文章主要介紹了Python爬蟲實(shí)例——scrapy框架爬取拉勾網(wǎng)招聘信息的相關(guān)資料,文中講解非常細(xì)致,代碼幫助大家更好的理解和學(xué)習(xí),感興趣的朋友可以了解下2020-07-07