欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

解決pyPdf和pyPdf2在合并pdf時出現(xiàn)異常的問題

 更新時間:2020年04月03日 14:42:15   作者:shanzhizi  
這篇文章主要介紹了解決pyPdf和pyPdf2在合并pdf時出現(xiàn)異常的問題,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧

當(dāng)一個pdf文件有多page的時候,它將出來見你!

方法是取直接修改那個文件generic.py

(1) pyPdf

路徑大約在這里:

/usr/lib/python2.7/site-packages/pyPdf/generic.py

if data.has_key(key):
  # multiple definitions of key not permitted
  raise utils.PdfReadError, "multiple definitions in dictionary"
data[key] = value

大約在532--536行

將它修改為:

if not data.get(key):
 
 data[key] = value

(2)pyPdf2

路徑大約在:

/usr/lib/python2.7/site-packages/PyPDF2/generic.py

if not data.get(key):
  data[key] = value
elif pdf.strict:
  # multiple definitions of key not permitted
  raise utils.PdfReadError("Multiple definitions in dictionary at byte %s for key %s" \
           % (utils.hexStr(stream.tell()), key))

修改為:

if not data.get(key):
  data[key] = value

補(bǔ)充知識:在Python里如何切分中文文本句子(分句)、英文文本分句(切分句子)

在處理文本時,會遇到需要將文本以 句子 為單位進(jìn)行切分(分句)的場景,而文本又可以分為 中文文本 和 英文文本 ,處理的方法會略有不同。本文會介紹 Python 是如何處理 分句 的。

分句的關(guān)鍵是找到合適的結(jié)束符號,比如:中文里的 。,英文里的 . 等,而且,在這一點上中英也是有很大區(qū)分的。

這里介紹一種純用 Python 實現(xiàn)的分句函數(shù)。

def cut_sentences(content):
	# 結(jié)束符號,包含中文和英文的
	end_flag = ['?', '!', '.', '?', '!', '。', '…']
	
	content_len = len(content)
	sentences = []
	tmp_char = ''
	for idx, char in enumerate(content):
		# 拼接字符
		tmp_char += char

		# 判斷是否已經(jīng)到了最后一位
		if (idx + 1) == content_len:
			sentences.append(tmp_char)
			break
			
		# 判斷此字符是否為結(jié)束符號
		if char in end_flag:
			# 再判斷下一個字符是否為結(jié)束符號,如果不是結(jié)束符號,則切分句子
			next_idx = idx + 1
			if not content[next_idx] in end_flag:
				sentences.append(tmp_char)
				tmp_char = ''
				
	return sentences

content = '在處理文本時,會遇到需要將文本以 句子 為單位進(jìn)行切分(分句)的場景,而文本又可以分為 中文文本 和 英文文本 ,處理的方法會略有不同。本文會介紹 Python 是如何處理 分句 的。'
sentences = cut_sentences(content)
print('\n\n'.join(sentences))

在處理文本時,會遇到需要將文本以 句子 為單位進(jìn)行切分(分句)的場景,而文本又可以分為 中文文本 和 英文文本 ,處理的方法會略有不同。

本文會介紹 Python 是如何處理 分句 的。

這個函數(shù)可以通過修改 end_flag (結(jié)束符號),來自定義特定的句子切分方式,比如加入 ; 等符號。

當(dāng)然,也可以用正則表達(dá)式來完成分句,使用 re.split 的方法。

import re

def cut_sentences(content):
	sentences = re.split(r'(\.|\!|\?|。|!|?|\.{6})', content)
	return sentences

content = content = '在處理文本時,會遇到需要將文本以 句子 為單位進(jìn)行切分(分句)的場景,而文本又可以分為 中文文本 和 英文文本 ,處理的方法會略有不同。本文會介紹 Python 是如何處理 分句 的。'
sentences = cut_sentences(content)
print('\n\n'.join(sentences))

在處理文本時,會遇到需要將文本以 句子 為單位進(jìn)行切分(分句)的場景,而文本又可以分為 中文文本 和 英文文本 ,處理的方法會略有不同

。

本文會介紹 Python 是如何處理 分句 的

。

這里還可以安利大家一個非常不錯的處理中文標(biāo)點符號的第三庫: zhon,可以通過 pip install zhon 安裝,功能也算非常豐富。

我們使用 zhon 來實現(xiàn)中文分句。

import re
import zhon

rst = re.findall(zhon.hanzi.sentence, '我買了一輛車。媽媽做的菜,很好吃!')
print(rst)

['我買了一輛車。', '媽媽做的菜,很好吃!']

大家可以閱讀 zhon 的官方文檔,了解更多的使用案例。

以上這篇解決pyPdf和pyPdf2在合并pdf時出現(xiàn)異常的問題就是小編分享給大家的全部內(nèi)容了,希望能給大家一個參考,也希望大家多多支持腳本之家。

相關(guān)文章

  • Python腳本后臺運行的五種方式

    Python腳本后臺運行的五種方式

    最近需要在后臺運行腳本,本文主要介紹了Python腳本后臺運行的五種方式,文中通過示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2022-02-02
  • 使用python制作一個簡單的井字棋游戲

    使用python制作一個簡單的井字棋游戲

    井字棋(Tic-Tac-Toe)是一種經(jīng)典的兩人棋盤游戲,通常由兩名玩家輪流下棋,目標(biāo)是在一個3x3的棋盤上先形成橫向、縱向或?qū)蔷€的三個棋子,本文將介紹如何使用 Python 制作一個簡單的井字棋游戲、包括游戲規(guī)則、界面設(shè)計和實現(xiàn)代碼,需要的朋友可以參考下
    2023-11-11
  • 淺談Pycharm調(diào)用同級目錄下的py腳本bug

    淺談Pycharm調(diào)用同級目錄下的py腳本bug

    今天小編就為大家分享一篇淺談Pycharm調(diào)用同級目錄下的py腳本bug,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-12-12
  • Python中一行和多行import模塊問題

    Python中一行和多行import模塊問題

    我們通過本篇文章給大家分析了為什么Python不建議使用一行import所有模塊的原因,有興趣的朋友學(xué)習(xí)下。
    2018-04-04
  • Django中使用極驗Geetest滑動驗證碼過程解析

    Django中使用極驗Geetest滑動驗證碼過程解析

    這篇文章主要介紹了Django中使用極驗Geetest滑動驗證碼過程解析,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2019-07-07
  • python接入支付寶的實例操作

    python接入支付寶的實例操作

    在本篇文章里小編給大家整理的是一篇關(guān)于python接入支付寶的實例操作內(nèi)容,需要的朋友們可以學(xué)習(xí)下。
    2020-07-07
  • python 爬蟲一鍵爬取 淘寶天貓寶貝頁面主圖顏色圖和詳情圖的教程

    python 爬蟲一鍵爬取 淘寶天貓寶貝頁面主圖顏色圖和詳情圖的教程

    今天小編就為大家分享一篇python 爬蟲一鍵爬取 淘寶天貓寶貝頁面主圖顏色圖和詳情圖的教程,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-05-05
  • python 實現(xiàn)任務(wù)管理清單案例

    python 實現(xiàn)任務(wù)管理清單案例

    這篇文章主要介紹了python 實現(xiàn)任務(wù)管理清單案例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-04-04
  • Pandas之groupby( )用法筆記小結(jié)

    Pandas之groupby( )用法筆記小結(jié)

    這篇文章主要介紹了Pandas之groupby( )用法筆記小結(jié),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2019-07-07
  • 教你用Django將前端的數(shù)據(jù)存入Mysql數(shù)據(jù)庫

    教你用Django將前端的數(shù)據(jù)存入Mysql數(shù)據(jù)庫

    這篇文章主要給大家介紹了關(guān)于如何用Django將前端的數(shù)據(jù)存入Mysql數(shù)據(jù)庫的相關(guān)資料,文中通過圖文以及示例代碼介紹的非常詳細(xì),對大家學(xué)習(xí)或者使用Django具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2021-11-11

最新評論