腳本之家服務(wù)器常用軟件

快捷導(dǎo)航

解決pyPdf和pyPdf2在合并pdf時(shí)出現(xiàn)異常的問題

更新時(shí)間：2020年04月03日 14:42:15 作者：shanzhizi

這篇文章主要介紹了解決pyPdf和pyPdf2在合并pdf時(shí)出現(xiàn)異常的問題，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過來看看吧

當(dāng)一個(gè)pdf文件有多page的時(shí)候，它將出來見你！

方法是取直接修改那個(gè)文件generic.py

(1) pyPdf

路徑大約在這里：

/usr/lib/python2.7/site-packages/pyPdf/generic.py

if data.has_key(key):
  # multiple definitions of key not permitted
  raise utils.PdfReadError, "multiple definitions in dictionary"
data[key] = value

大約在532--536行

將它修改為：

if not data.get(key):
 
 data[key] = value

（2）pyPdf2

路徑大約在：

/usr/lib/python2.7/site-packages/PyPDF2/generic.py

if not data.get(key):
  data[key] = value
elif pdf.strict:
  # multiple definitions of key not permitted
  raise utils.PdfReadError("Multiple definitions in dictionary at byte %s for key %s" \
           % (utils.hexStr(stream.tell()), key))

修改為：

if not data.get(key):
  data[key] = value

補(bǔ)充知識(shí)：在Python里如何切分中文文本句子（分句）、英文文本分句（切分句子）

在處理文本時(shí)，會(huì)遇到需要將文本以句子為單位進(jìn)行切分（分句）的場(chǎng)景，而文本又可以分為中文文本和英文文本，處理的方法會(huì)略有不同。本文會(huì)介紹 Python 是如何處理分句的。

分句的關(guān)鍵是找到合適的結(jié)束符號(hào)，比如：中文里的。，英文里的 . 等，而且，在這一點(diǎn)上中英也是有很大區(qū)分的。

這里介紹一種純用 Python 實(shí)現(xiàn)的分句函數(shù)。

def cut_sentences(content):
	# 結(jié)束符號(hào)，包含中文和英文的
	end_flag = ['?', '!', '.', '？', '！', '。', '…']
	
	content_len = len(content)
	sentences = []
	tmp_char = ''
	for idx, char in enumerate(content):
		# 拼接字符
		tmp_char += char

		# 判斷是否已經(jīng)到了最后一位
		if (idx + 1) == content_len:
			sentences.append(tmp_char)
			break
			
		# 判斷此字符是否為結(jié)束符號(hào)
		if char in end_flag:
			# 再判斷下一個(gè)字符是否為結(jié)束符號(hào)，如果不是結(jié)束符號(hào)，則切分句子
			next_idx = idx + 1
			if not content[next_idx] in end_flag:
				sentences.append(tmp_char)
				tmp_char = ''
				
	return sentences

content = '在處理文本時(shí)，會(huì)遇到需要將文本以 句子 為單位進(jìn)行切分（分句）的場(chǎng)景，而文本又可以分為 中文文本 和 英文文本 ，處理的方法會(huì)略有不同。本文會(huì)介紹 Python 是如何處理 分句 的。'
sentences = cut_sentences(content)
print('\n\n'.join(sentences))

在處理文本時(shí)，會(huì)遇到需要將文本以 句子 為單位進(jìn)行切分（分句）的場(chǎng)景，而文本又可以分為 中文文本 和 英文文本 ，處理的方法會(huì)略有不同。

本文會(huì)介紹 Python 是如何處理 分句 的。

這個(gè)函數(shù)可以通過修改 end_flag （結(jié)束符號(hào)），來自定義特定的句子切分方式，比如加入；等符號(hào)。

當(dāng)然，也可以用正則表達(dá)式來完成分句，使用 re.split 的方法。

import re

def cut_sentences(content):
	sentences = re.split(r'(\.|\!|\?|。|！|？|\.{6})', content)
	return sentences

content = content = '在處理文本時(shí)，會(huì)遇到需要將文本以 句子 為單位進(jìn)行切分（分句）的場(chǎng)景，而文本又可以分為 中文文本 和 英文文本 ，處理的方法會(huì)略有不同。本文會(huì)介紹 Python 是如何處理 分句 的。'
sentences = cut_sentences(content)
print('\n\n'.join(sentences))

在處理文本時(shí)，會(huì)遇到需要將文本以 句子 為單位進(jìn)行切分（分句）的場(chǎng)景，而文本又可以分為 中文文本 和 英文文本 ，處理的方法會(huì)略有不同

。

本文會(huì)介紹 Python 是如何處理 分句 的

。

這里還可以安利大家一個(gè)非常不錯(cuò)的處理中文標(biāo)點(diǎn)符號(hào)的第三庫： zhon，可以通過 pip install zhon 安裝，功能也算非常豐富。

我們使用 zhon 來實(shí)現(xiàn)中文分句。

import re
import zhon

rst = re.findall(zhon.hanzi.sentence, '我買了一輛車。媽媽做的菜，很好吃！')
print(rst)

['我買了一輛車。', '媽媽做的菜，很好吃！']

大家可以閱讀 zhon 的官方文檔，了解更多的使用案例。

以上這篇解決pyPdf和pyPdf2在合并pdf時(shí)出現(xiàn)異常的問題就是小編分享給大家的全部?jī)?nèi)容了，希望能給大家一個(gè)參考，也希望大家多多支持腳本之家。

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

解決pyPdf和pyPdf2在合并pdf時(shí)出現(xiàn)異常的問題

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具