Python?IO文件管理的具體使用

更新時間：2022年03月20日 09:49:47 作者：小小垂髫

我們可以使用python來操作文件，比如讀取文件內(nèi)容、寫入新的內(nèi)容等，本文主要介紹了Python?IO文件管理的具體使用，文中通過示例代碼介紹的非常詳細，具有一定的參考價值，感興趣的小伙伴們可以參考一下

文件操作

我們可以使用python來操作文件，比如讀取文件內(nèi)容、寫入新的內(nèi)容等，因為任何計算機文件的本質(zhì)都是一些有不同后綴的字符組成的。

python文件操作的兩種模式

打開模式

while，寫入模式，簡寫為 w ，指定的文件不存在則創(chuàng)建文件，存在則打開并清空內(nèi)容，并且將文件指針（光標）放在文件的開頭。
read，讀取模式，簡寫為 r ，文件不存在則報錯，存在則打開文件，并且將文件指針放在文件的開頭。
append，追加模式，簡寫為 a ，文件不存在則創(chuàng)建文件，存在則打開文件，并且將指針放在文件末尾。
xor，異或模式，簡寫為 x ，文件存在則報錯，不存在則創(chuàng)建文件，將文件指針放在文件的開頭。

擴展模式

擴展模式是用來配合打開模式的輔助模式，擴展模式單獨不能使用。

plus，增強模式，簡寫為 + ，可以讓打開模同時具有讀寫功能。
bytes，bytes模式，簡寫為 b ，將文件按照二進制字節(jié)流編碼進行讀寫。

因此我們根據(jù)這兩種大的模式可以組合成為16種操作文件的方法。

模式	作用	模式	作用
w	寫入模式，只可寫，不可讀。	a	追加模式，只可寫，不可讀。
w+	寫入模式，可寫可讀。	a+	追加模式，可寫可讀。
wb	寫入模式，按照二進制字節(jié)流編碼可寫不可讀	ab	追加模式，按照二進制字節(jié)流可寫不可讀
wb+	寫入模式，按照二進制字節(jié)流編碼可寫可讀	ab+	追加模式，按照二進制字節(jié)流可寫可讀。
r	讀取模式，只可讀，不可寫。（默認模式）	x	異或模式，只可寫，不可讀。
r+	讀取模式，可寫可讀。	x+	異或模式，可寫可讀。
rb	讀取模式，按照二進制字節(jié)流編碼可讀不可寫。	xb	異或模式，二進制字節(jié)流可寫不可讀。
rb+	讀取模式，按照二進制字節(jié)流編碼可讀可寫。	xb+	異或模式，二進制字節(jié)流可寫可讀。

異或模式和寫入模式的區(qū)別在于，異或模式如果打開的文件在指定的路徑中如果存在，就會報錯；而寫入模式是直接打開不會報錯，但是會將源文件中的所有內(nèi)容清空。因為寫入模式和讀取模式之間的互相配合，異或模式的使用頻率越來越少，正在逐步淘汰當中。

編碼格式的了解

編碼是信息從一種形式或格式轉(zhuǎn)換為另一種形式的過程，就是用預先規(guī)定的方法將文字、數(shù)字或其它對象編成數(shù)碼，或?qū)⑿畔?、?shù)據(jù)轉(zhuǎn)換成規(guī)定的電脈沖信號。這樣做的目的是為了簡化信息之間的傳遞。但是為保證編碼的正確性，編碼要規(guī)范化、標準化，即需有標準的編碼格式。常見的編碼格式有ASCII、ANSI、GBK、GB2312、Unicode、UTF-8等。

所有的編碼格式，都是將字符轉(zhuǎn)換成對應的二進制格式。將西方的字母文字和數(shù)字按照一個字節(jié)的方式存儲，而將亞洲中中、日、朝等文字按照多字節(jié)存儲。這是因為西方的字母語言，字母的數(shù)量遠少于東方的文字數(shù)量，因此編程工作中一般更加的傾向與盡量多的使用英文的原因，因為相對的來說使用漢字等字符較少的程序可以占據(jù)更少的系統(tǒng)資源。

常用的編碼格式英文原始編碼：ASCII碼

ACSII編碼只有128個字符，26個英文字母的大小寫之外，還有一些常用的符號，還有一些不可或缺的系統(tǒng)控制字符等。ACSII編碼中沒有除了英文字母之外的其它語言字符。

中文國家標準編碼：GB系列編碼

凡是由GB開頭的編碼集都是屬于中國國家的標準編碼字符集，只是不同的版本而已，使用這個編碼的漢字占用的系統(tǒng)資源最少，中文使用2個字節(jié)的存儲空間。比如GB2312。

萬國碼：Unicode編碼

Unicode編碼包含世界上所有的文字，無論什么字符都以4個字節(jié)進行存儲。這是Unicode編碼的缺點，雖然擁有世界上最齊全的字符，但是占用的系統(tǒng)資源很大，所以很少使用。

因此在這個基礎之上改進，創(chuàng)建了可變長的Unicode編碼集，UTF系列。這是目前世界上最主流的編碼字符集，在這個編碼集當中，不用擔心任何字符會亂碼，字母文字和數(shù)字使用一個字節(jié)的存儲空間，中文等字符使用三個字節(jié)的存儲空間，大大節(jié)省了空間的占用。比如UTF-8。

open函數(shù)的使用

python中操作文件要使用到open函數(shù)，open函數(shù)的作用是用于打開一個文件，創(chuàng)建一個file對象，使用相關的方法調(diào)用它對文件進行讀寫操作。

語法：open(file, mode=None, encoding=None)

參數(shù)說明：

file：文件的位置和名稱
mode：操作的模式，使用簡寫，就是我們上述的16中操作方式
encoding：指定編碼類型，比如UTF-8、GB2312、ACSII等

open函數(shù)指定這些信息之后，返回一個TextIOWrapper對象，使用這個對象，我們可以按照指定的操作模式和編碼格式來操作我們指定的文件。

文件的寫入（寫入模式）

現(xiàn)在我們在使用open函數(shù)創(chuàng)建一個文件，并寫入內(nèi)容。

可以看到我們當前的目錄當中只有一個main.py文件，我們現(xiàn)在寫入代碼。

# 指定文件的位置，要使用字符串，可以使用絕對路徑和相對路徑
# 操作模式的選擇，我們要創(chuàng)建一個新的文件并寫入內(nèi)容，使用 w
# 指定編碼格式為UTF-8，這是最常使用的編碼格式

# fp就是文件的IO對象，問價句柄，用來操作文件
# i --- >   input  輸入
# o --- >   output 輸出
fp = open('test.txt', 'w', encoding='UTF-8')

# 使用write函數(shù)寫入內(nèi)容
fp.write('Hello motherland')

# 使用close函數(shù)關閉文件
fp.close()

執(zhí)行python代碼之后，我們發(fā)現(xiàn)在原來的目錄下面多出了一個名為test.txt的文件。

打開這個文件我們就會發(fā)現(xiàn)，文件中的內(nèi)容就是我們寫下的內(nèi)容。

現(xiàn)在我們重新使用 w 模式打開這個文件，但是不操作任何東西，讓我們看看結(jié)果如何。

fp = open('test.txt', 'w', encoding='UTF-8')
fp.close()

沒錯，這個文件中的內(nèi)容被清空了，這就是w模式的如果文件存在，就打開文件并清空。

文件的讀?。ㄗx取模式）

我們現(xiàn)在執(zhí)行下面的代碼，使用 r 模式讀取文件中的內(nèi)容。

# 使用 r 模式打開msr.txt文件
fp = open('msr.txt', 'r', encoding='UTF-8')

# 讀取文件中的內(nèi)容
res = fp.read()
print(res)

# 關閉文件
fp.close()

發(fā)現(xiàn)程序報錯了，這是為什么？因為使用 r 模式如果指定的文件不存在就會報錯。

那我們先創(chuàng)建一個msr.txt文件在重新讀取一下。

# 先創(chuàng)建一個msr.txt文件
fp = open('msr.txt', 'w', encoding='UTF-8')
# 寫入內(nèi)容
fp.write('劉德華太帥了。')
# 關閉文件
fp.close()


# 然后重新讀取這個文件
fp = open('msr.txt', 'r', encoding='UTF-8')

# 讀取文件中的內(nèi)容
res = fp.read()

# 打印讀取的內(nèi)容
print(res)   # 劉德華太帥了。

# 關閉文件
fp.close()

不再報錯了，而且也成功的打印出來文件中的內(nèi)容。

文件內(nèi)容追加（追加模式）

追加模式如果文件不存在就創(chuàng)建文件，反之就打開文件，但是可寫入模式的不同之處就在于，追加模式打開文件不會清空文件中的原有的數(shù)據(jù)內(nèi)容。

打開msr.txt文件，我們看到只有一行文字。

現(xiàn)在我們執(zhí)行下面的代碼

# 使用追加模式打開文件
fp = open('msr.txt', 'a', encoding='UTF-8')

# 在文件中寫入內(nèi)容
fp.write('但是劉德華沒有博主帥。')

# 關閉文件
fp.close()

打開文件我們看到，原有的數(shù)據(jù)并沒有被清空掉，并且寫入了新的內(nèi)容。

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-monzJF4R-1647692650673)(

字節(jié)流的轉(zhuǎn)換

bytes是用來傳輸或者是存儲的數(shù)據(jù)格式，如果是在文件的操作過程中按照bytes的模式操作的話，就需要將數(shù)據(jù)格式轉(zhuǎn)換成為bytes流才可以。

二進制的字節(jié)流就是底層的代碼。

使用 b 前綴

在字符串之前加上字符 b 代表是二進制的字節(jié)流，但是范圍只是ASCII編碼，也就是說這樣并不支持中文。

# 在字符串之前加上 b 前綴
bytechar = b'hello motherland'

print(bytechar)  # b'hello motherland'
# 該字符串的數(shù)據(jù)類型就變成了bytes流
print(type(bytechar))   # <class 'bytes'>

bytechar = b'你好祖國'	# error，只能將ACSII編碼中的字符變成bytes流

使用encode函數(shù)和decode函數(shù)可以將字符串在普通字符串和字節(jié)流的形式中來回的轉(zhuǎn)換，而且可以將所有的字符變成bytes字節(jié)流，因為默認使用UTF-8編碼，當然你也可以指定轉(zhuǎn)換的編碼格式。

函數(shù)	作用
encode	將字符串轉(zhuǎn)換為二進制的字節(jié)流
decode	將二進制的字節(jié)流轉(zhuǎn)換為字符串

語法：

string.encode(encoding='UTF-8')
bytes.decode(encoing='UTF-8')

var = '我的祖國'

# 將字符串變成字節(jié)流，默認使用UTF-8編碼
res = var.encode()
print(res)  # b'\xe6\x88\x91\xe7\x9a\x84\xe7\xa5\x96\xe5\x9b\xbd'
print(type(res))    # <class 'bytes'>


# 指定編碼格式UTF-8
res = var.encode(encoding='UTF-8')
print(res)  # b'\xe6\x88\x91\xe7\x9a\x84\xe7\xa5\x96\xe5\x9b\xbd'
# 可以看到指定為UTF-8編碼的和默認的結(jié)果是一樣的


# 指定編碼格式為ASCII
res = var.encode('ASCII')	# error
# 因為原字符串是中文，所以不能使用ASCII編碼


# 指定為GBK編碼
res = var.encode('GBK')
print(res)  # b'\xce\xd2\xb5\xc4\xd7\xe6\xb9\xfa'
# 可以看到GBK的編碼中文可以節(jié)省更多的空間


# 可以使用 len 函數(shù)檢測字節(jié)流的長度
print(len(res))	# 8


# 解碼
var = res.decode()  # error
# 應為默認使用的UTF-8解碼，但是res的編碼格式是GBK，所以失敗


# 只能使用對應的編碼格式解碼
var = res.decode('GBK')
print(var)  # 我的祖國

存儲二進制的字節(jié)流

如果在操作文件的時候要使用字節(jié)流的方式，在使用open函數(shù)選擇模式的時候要加上 b ，表示進行字節(jié)流的操作，然后open函數(shù)就不能在指定編碼格式了，因為現(xiàn)在的操作的都是字節(jié)流，然而字節(jié)流本身就已經(jīng)是指定的編碼格式編碼過了。

# 如果指定了字節(jié)流模式還要指定encoding參數(shù)就會報錯
fp = open('test.txt', 'wb', encoding='UTF-8')   # error


# 使用字節(jié)流模式只能進行字節(jié)流的寫入
fp = open('test.txt', 'wb')
# fp.write('hello motherland')    # error，不能直接使用字符串
fp.write(b'hello motherland')
fp.write('我的祖國'.encode())
fp.close()

寫在文件中的內(nèi)容還是原來的樣子，不是字節(jié)流的形式

注意事項：

使用字節(jié)流模式編輯過的文件只能使用字節(jié)流模式去操作
使用什么格式的字節(jié)流寫入文件的內(nèi)容，讀取的時候只能使用對應的編碼格式去解碼
任何文件都可以使用字節(jié)流模式去讀取內(nèi)容，讀取的內(nèi)容是字節(jié)流，如果這個文件是按照某個編碼格式寫入的，解碼需要使用對應的編碼格式；如果這個文件的內(nèi)容不是使用字節(jié)流模式寫入，讀取的字節(jié)流默認是UTF-8格式的。

上下文管理器

在python中，有一些任務是當你開啟之后，結(jié)束的時候需要專門的關閉任務，比如文件操作，在結(jié)束操作的使用需要使用close()函數(shù)專門的關閉文件、結(jié)束任務，這樣就很繁瑣，所以python中推出了 with …… as ……的語法，在 with 代碼塊中如果結(jié)束操作，不需要在專門的結(jié)束任務。

上下文管理器，任何需要進行上下文操作的對象，都可以使用此語法。

語法：with 任務 as 操作句柄:

# 不需要在使用close()函數(shù)專門的關閉文件，結(jié)束任務了
with open('test.txt', 'wb') as fp:
	fp.write(b'hello motherland')

刷新緩沖區(qū)

我們學習了這么久，每次都一定要關閉文件、結(jié)束任務，這樣做的意義是什么？

比較直觀的目的就是為了保存文件，但是好奇的我們早就測試了不使用close()關閉文件，寫入的內(nèi)容一樣是保存了文件中的，這是怎么回事？

看下面的代碼，發(fā)現(xiàn)我們文件中依然是保存了我們寫入的內(nèi)容。

fp = open('test.txt', 'w', encoding='UTF-8')
fp.write('我和我的祖國，就像是海和浪花一朵。')

這是因為，關閉文件的根本目的是為了刷新緩沖區(qū)，然而刷新緩沖區(qū)的方法不止一種。

當文件關閉的時候自動刷新緩沖區(qū)
當整個程序運行結(jié)束的時候自動刷新緩沖區(qū)
當緩沖區(qū)寫滿還自動刷新緩沖區(qū)
手動刷新緩沖區(qū)

刷新緩沖區(qū)的意義在于最后的保存文件，就好像在使用文檔編輯器的時候，雖然寫滿內(nèi)容，但最后不點擊保存按鈕內(nèi)容也不會保存下來。

而我們上面的例子就是因為程序運行結(jié)束的時候自動刷新了緩沖區(qū)，所以才保存了寫入文件的內(nèi)容，而close的作用就是關閉文件，關閉文件也可以刷新緩沖區(qū)，所以這就是每次要關閉文件的原因所在，為了防止自動刷新的失敗。

那么什么情況之下程序就沒有辦法執(zhí)行完呢？

比如說程序的意外中斷、或者是死循環(huán)，下面的代碼中就是因為死循環(huán)的原因?qū)е鲁绦驔]有辦法執(zhí)行完成，而沒有保存新寫入的內(nèi)容。

下面的代碼，先是寫入了內(nèi)容，然后就是一個死循環(huán)，這樣程序永遠都不會執(zhí)行完成，就不能自動的刷新緩沖區(qū)，如果程序意外中斷，內(nèi)容也不會寫入文件當中，你可以將程序運行起來之后，強制中斷測試一下，會發(fā)現(xiàn)是一個空文件。

with open('test.txt', 'w', encoding='UTF-8') as fp:
	fp.write('我和我的祖國，一刻也不能分割。')
	while True:
		pass

手動刷新

上面的例子中，文件沒有辦法關閉，程序沒有辦法執(zhí)行完成，貌似緩沖區(qū)也很難寫滿，難道我們的內(nèi)容就沒有辦法保存了嗎？

你機智的寫上了一行代碼，是close()函數(shù)，這樣就關閉了文件，就可以將死循環(huán)之前的內(nèi)容保存了嘛。

with open('test.txt', 'w', encoding='UTF-8') as fp:
	fp.write('我和我的祖國，一刻也不能分割。')
	fp.close()	# 關閉文件
	while True:
		pass

你經(jīng)過測試，上面的代碼的確的保存了寫入的內(nèi)容，但是我們關閉了文件，再次操作文件的時候就必須重新開啟文件，不然沒有辦法繼續(xù)操作。

with open('test.txt', 'w', encoding='UTF-8') as fp:
	fp.write('我和我的祖國，一刻也不能分割。')
	fp.close()
	fp.write('我和我的祖國，就像是海和浪花一朵。')   # error，文件已經(jīng)關閉
	while True:
		pass

發(fā)現(xiàn)寫入的第二條內(nèi)容根本就沒法執(zhí)行了，怎么辦？使用fiush()函數(shù)手動刷新緩沖區(qū)。

with open('test.txt', 'w', encoding='UTF-8') as fp:
	fp.write('我和我的祖國，一刻也不能分割。')
	fp.flush()
	fp.write('我和我的祖國，就像是海和浪花一朵。')
    fp.flush()
	while True:
		pass

發(fā)現(xiàn)手動刷新將內(nèi)容保存了下來，而且沒有影響程序的執(zhí)行。以后如果程序任務過大，沒有執(zhí)行完成就意外中斷，這樣就有一點數(shù)據(jù)保存不下來的風險，我們就可以隔著一段任務手動刷新一下，就不至于將所有的數(shù)據(jù)全部丟失。

文件的擴展模式

我們經(jīng)過上面的學習，用到了寫、讀、手動刷新、關閉文件等幾種操作文件的函數(shù)，但是除此之外，還有一些常用的相關函數(shù)。

函數(shù)	作用
write	寫入數(shù)據(jù)
read	讀取數(shù)據(jù)
fiush	手動刷新緩沖區(qū)
close	關閉文件
seek	調(diào)整指針（光標）的位置
tell	返回當前指針左側(cè)所有的字節(jié)數(shù)
readable	判斷文件對象是否可讀
writeable	判斷文件對象是否可寫
readline	讀取文件的一行內(nèi)容
readlines	將文件中的內(nèi)容按照換行讀取到列表當中
writelines	將內(nèi)容是字符串的可迭代數(shù)據(jù)寫入文件當中
truncate	把要截取的字符串提取出來，然后清空內(nèi)容并將截取的內(nèi)容重新寫入

read的使用

plus增強模式的使用

在open函數(shù)中，使用 + 號，進入增強模式，可讀可寫。

我們現(xiàn)在使用 r+ 模式打開之前的文件，讀取其中的內(nèi)容。

with open('test.txt', 'r+', encoding='UTF_8') as fp:
	# 讀取內(nèi)容
	res = fp.read()
	print(res)  # 我和我的祖國，一刻也不能分割。我和我的祖國，就像是海和浪花一朵。
	
	# 可以指定字符的個數(shù)，讀取指定個數(shù)的字符
	res = fp.read(5)
	print(res)  #

發(fā)現(xiàn)什么第二遍沒有讀取出任何的內(nèi)容，我們重新打開一遍文件，重新讀取。

with open('test.txt', 'r+', encoding='UTF_8') as fp:
	# 讀取五個字符
	res = fp.read(5)
	print(res)  # 我和我的祖

	# 再讀取五個字符
	res = fp.read(5)
	print(res)  # 國，一刻也

發(fā)現(xiàn)第二遍讀取的內(nèi)容是接著第一遍讀取的內(nèi)容之后的，我們重新打開一遍文件，寫一些內(nèi)容。

with open('test.txt', 'r+', encoding='UTF_8') as fp:
	# 寫入內(nèi)容
	fp.write('我永遠和我的祖國在一起')
	# 讀取其中的內(nèi)容
	res = fp.read()
	print(res)  # 能分割。我和我的祖國，就像是海和浪花一朵。

讀取內(nèi)容的時候，發(fā)現(xiàn)沒有我們寫入的內(nèi)容，而且讀取的文件內(nèi)容怎么看起來好怪異的感覺啊，怎么少了些內(nèi)容？

我們重新打開文件讀取一遍

with open('test.txt', 'r+', encoding='UTF_8') as fp:
	res = fp.read()
	print(res)  # 我永遠和我的祖國在一起能分割。我和我的祖國，就像是海和浪花一朵。

為什么我們的寫入的內(nèi)容在文件的開頭，而且還替換掉了原有的一部分數(shù)據(jù)？我們上面的一系列操作為什么那么的奇怪？

這都是因為光標的作用在做怪。

光標的作用

還記得我們之前介紹四種打開模式的時候嗎？寫入模式光標在文檔最后，讀取模式光標在文檔最前，追加模式光標在文檔最前，異或模式光標在文檔最前。

寫入的內(nèi)容和讀取的內(nèi)容都是從光標的位置開始的。

read()函數(shù)默認讀取光標一右側(cè)所有的內(nèi)容。而不是文檔中的所有內(nèi)容，之前的測試之所以可以一次性的讀取出所有的內(nèi)容是因為我們打開文檔使用的是讀取模式，光標的位置在文檔的開頭。光標會隨著讀取的內(nèi)容而移動，讀取到哪個字符光標就移動到哪個字符的后面。

write()寫入內(nèi)容的時候是覆蓋模式。我們都知道我們的計算機系統(tǒng)中的文本輸入方式是有兩種的，使用insert鍵就可以切換著兩種模式。一種是插入模式，一種是覆蓋模式。

插入模式是我們平常最經(jīng)常使用的，比如說我們打開一個文本編輯軟件，隨便的寫入一段內(nèi)容，然后把光標移動到文檔的開頭，寫入內(nèi)容，發(fā)現(xiàn)新的內(nèi)容是插入到了舊的內(nèi)容之前的，舊的內(nèi)容不會消失，而是后移，這就是插入模式；然后重新將光標移動到文檔的開頭，然后按下insert鍵，這個時候你的輸入方式就變成了覆蓋模式，現(xiàn)在的你每當輸入一個新的字符就會覆蓋掉后面的一個舊字符，這就是覆蓋模式，python的文本編輯就是這種覆蓋模式。光標隨著寫入的內(nèi)容向后移動。

光標位置的移動

我們剛才的時候就了解到了有一個可以調(diào)整光標位置的函數(shù)，叫做seek，使用這個函數(shù)我們可以隨意的調(diào)節(jié)光標的位置，從而編輯文件的時候可以更加的隨心所欲。

seek(offset: int, [whence: int = 0])
seek(偏移量, [基準位置])

seek函數(shù)的兩個參數(shù)都是整型。

第一個參數(shù)表示的是偏移量，單獨使用時表示將光標移動到從文檔的開頭算起的第N個字節(jié)的位置后；
第二個參數(shù)表示的光標的位置，使用的時候只有0、1、2三個選型，且偏移量必須為0；
0代表的是文檔的最開端
1代表的是光標的當前位置
2代表的是文檔的最后端

# 先使用 w+ 模式打開一個文件，這個時候的文件為空，光標在文檔的開頭位置
with open('test.txt', 'w+', encoding='UTF-8') as fp:
	
	# 我們寫入內(nèi)容，這個時候光標的位置隨著寫入的內(nèi)容到了文檔的最后
	fp.write('hello motherland.')
	
	# 所以現(xiàn)在的光標的右側(cè)沒有任何一個字節(jié)符，所以讀不出任何的內(nèi)容
	res = fp.read()
	print(repr(res))    # ''
	
	# 所以光標還是在最后的位置，使用seek切換光標的位置為開頭，讀取剛才寫入的內(nèi)容
	fp.seek(0)
	res = fp.read()
	print(repr(res))    # 'hello motherland.'
	
	# 讀取完內(nèi)容之后，光標又到了文檔的最后的位置，調(diào)整到開頭的第五個字節(jié)符的位置
	fp.seek(5)
	
	# 再次讀取文件的內(nèi)容，這一次只讀取5個字符，發(fā)現(xiàn)前五個字符沒有了
	res = fp.read(5)
	print(repr(res))    # ' moth'
	
	# 現(xiàn)在光標在文檔的第十個字符位置，我們將光標切換到文檔的最后，然后讀取文檔發(fā)現(xiàn)什么內(nèi)容也沒有
	fp.seek(0, 2)
	res = fp.read()
	print(repr(res))    # ''

注意到了嗎？我說的seek移動的是字節(jié)的數(shù)量，什么是字節(jié)的數(shù)量？

我們之前說的不同的編碼格式對于不同的字符都是不一樣的，但是所有的編碼格式對于英文字母為主的一些的字符都是一個字節(jié)的大小，但是漢字不一樣，漢字在GB中是兩個字節(jié)、UTF中是三個字節(jié)、Unicode中是四個字節(jié)。

seek的偏移單位是字節(jié)，不是字符，所以在使用seek在操作bytes字節(jié)流時，要注意移動的間隔，因為移動的是字節(jié)位數(shù)，而在GB編碼中一個漢字兩個字節(jié)，在Unicode（UTF-8）中，一個漢字三個字節(jié)，如果seek將指針移動至漢字之間，就會導致讀取時漢字的編碼不完整而導致錯誤。

# 重新寫入一個文件，注意我們的編碼格式
with open('test.txt', 'w+', encoding='UTF-8') as fp:

	fp.write('我和我的祖國，一刻也不能分割。我和我的祖國，就像是海和浪花一朵。')

	# 我們現(xiàn)在讀取除了第一句話之后的內(nèi)容，前面的內(nèi)容一共是15個字符，我們使用seek跳過去
	fp.seek(15)
	res = fp.read()
	print(repr(res))    # '國，一刻也不能分割。我和我的祖國，就像是海和浪花一朵。'

	# 咦？怎么只跳過了五個漢字？因為我們使用的UTF-8的編碼，一個漢字由3個字節(jié)，真好是15個單位

	# 你是幸運的，如果我們在右移一個字節(jié)的單位，就是一個漢字都沒有完全遷移完會怎么樣？
	fp.seek(1)
	# res = fp.read()
	# print(res)      # error， 報錯了，因為剩下的字符不是完整的，所以沒有辦法讀出，就報錯了

# 就像是你好的UTF-8編碼是六個字節(jié)組成的，
print('你好'.encode())    # b'\xe4\xbd\xa0\xe5\xa5\xbd'

# 如果去掉了一個字節(jié)，就是不完整的了，還能解碼出來嗎？
print(b'\xbd\xa0\xe5\xa5\xbd'.decode()) # error，解碼失敗

所以在使用seek函數(shù)的時候一定要慎用。

tell的使用

# tell 當前光標左側(cè)所有的字節(jié)數(shù)（返回字節(jié)數(shù)）

# 使用閱讀模式打開文件
with open('test.txt', 'r+', encoding='UTF-8') as fp:

   # 使用tell函數(shù)查看貫標左側(cè)的字節(jié)數(shù)
   res = fp.tell()
   print(res)  # 0

   # 因為閱讀模式的光標在文件的開頭，所以返回0個字節(jié)數(shù)

   # 使用seek將光標移動到文檔的末尾
   fp.seek(0, 2)

   # 使用tell查看整個文檔的字節(jié)數(shù)，這就是文檔的大小
   res = fp.tell()
   print(res)  # 96

   # 快去看看你的文件信息中的文件大小是不是96字節(jié)的？

其它的相關函數(shù)

判斷文件對象可讀可寫

# 使用 r+ 模式打開文件
with open('test.txt', 'r+', encoding='UTF-8') as fp:
   # 使用readable 和 readable 查看這個文檔是否可讀可寫
   if fp.readable():
      print('本文檔可讀')
   if fp.writable():
      print('本文檔可寫')
'''
結(jié)果：
本文檔可讀
本文檔可寫
'''

readline

讀取一行內(nèi)容

# 打開文件，重新寫入多行內(nèi)容
with open('test.txt', 'w+', encoding='UTF-8') as fp:
   # 可以使用多行字符串
   fp.write('''11111
22222
33333
''')

   # 也可以使用轉(zhuǎn)義字符進行換行
   fp.write('44444\n55555\n66666')

with open('test.txt', 'r+', encoding='UTF-8') as fp:

   # 使用read讀取的整個文檔的內(nèi)容
   res = fp.read()
   print(res)
   '''
   結(jié)果：
   11111
   22222
   33333
   44444
   55555
   66666
   '''

   # 使用readline讀取一一行的內(nèi)容
   fp.seek(0)
   res = fp.readline()
   print(res)  # 11111

   # 再讀取一行
   res = fp.readline()
   print(res)  # 22222

   # 可以指定讀取的字符個數(shù)
   res = fp.readline(3)
   print(res)  # 333

   # 如果指定的個數(shù)大于本行的字符個數(shù)，就讀取本行所有的內(nèi)容
   res = fp.readline(1000)
   print(res)  # 33
   
   # 為什么是33不是44444？因為readline也要受到光標的影響

readlines

將文件中的內(nèi)容按照換行讀取到列表中

with open('test.txt', 'r+', encoding='UTF-8') as fp:
	res = fp.readlines()
	print(res)  # ['11111\n', '22222\n', '33333\n', '44444\n', '55555\n', '66666'

注意：readlines不會影響光標的移動，但是讀取的是光標的右側(cè)數(shù)據(jù)；而且readlines的讀取將換行符也讀取上了，因為換行符本身也是一行的內(nèi)容。

按行讀取內(nèi)容我一般使用到readlines函數(shù)，但是也可以使用其它的方法，比如直接遍歷open實例化對象，open實例化對象本身就是一個可迭代對象，它將文件中的內(nèi)容按照換行符分開。

with open('text.txt', 'r', encoding='UTF-8') as fp:
    for line in fp:
        print(line)

writelines

將內(nèi)容是字符串的可迭代性數(shù)據(jù)寫入文件中，writelines不會根據(jù)元素換行。

lst = ['china', 'america', 'russia']

with open('test.txt', 'w+', encoding='UTF-8') as fp:
    # 使用writelines寫入內(nèi)容
    fp.writelines(lst)
	fp.seek(0)
    # 讀取數(shù)據(jù)
	res = fp.readlines()
	print(res)	# ['chinaamericarussia']

truncate

文件中的內(nèi)容只保留截取的內(nèi)容。

從文件開頭開始，截取指定字節(jié)長度的內(nèi)容，然后將文件清空，然后將截取的內(nèi)容重新填入文件中。

# 打開一個文件
with open('test.txt', 'w+', encoding='UTF-8') as fp:

	# 寫入一段內(nèi)容
	fp.write('1234567890')

	# 保留截取的內(nèi)容，只保留前5個字節(jié)的內(nèi)容
	fp.truncate(5)

	# 查看文件的內(nèi)容
	fp.seek(0)
	res = fp.read()
	print(res)  # 12345

關于生成文件MD5心得

我在工作時需要給調(diào)用翻譯狗的一個API，用于上傳文獻并翻譯返回，但是對方需要文件MD5進行驗證，我們需要在接入接口的時候，需要將文件md5傳入，這個時候就出現(xiàn)了一些問題，我在傳入文件和文件MD5的時候，被對方回應文件MD5不匹配，我很好奇，為什么會出現(xiàn)這樣的情況？

我在使用這個接口當中，有好幾處地方比如token的生成和文件md5的地方都會需要md5加密，所以為此我們專門將生成md5的代碼封裝成為一個函數(shù)（將字符串輸入，返回md5，代碼如下：

import hashlib

def enMD5(target):
    """ MD5加密 """
    res = hashlib.md5(target.encode()).hexdigest()
    return res

python中生成md5需要輸入字節(jié)流格式的數(shù)據(jù)，而我一開始只有字符串的數(shù)據(jù)需要使用md5加密，所以我在函數(shù)中將字符串變成字節(jié)流。token就是傳入字符串得到的。

但是文件md5的話可以直接讀出字節(jié)流的格式，但是因為再使用這個函數(shù)不方便，所以我使用正常讀取文檔的方式讀取文件中的內(nèi)容，然后放入函數(shù)中，結(jié)果就是上面說的，和對方得出的文件md5并不匹配。我自認為我的代碼是沒有問題的，于是我們依次查找問題的所在，后來我發(fā)現(xiàn)網(wǎng)上很多博主的方法都是直接從文件讀取二進制字節(jié)流的方式獲取的，我實在是沒有辦法了，就想會不會就是讀取方式的問題呢？果然，我就發(fā)現(xiàn)不同格式讀取的出來的結(jié)果是不同的，測試的案例如下：

with open(file_path, 'w', encoding='UTF-8') as fp:
    fp.write('msr\nhello\r\nmotherland.')

with open(file_path, 'rb') as fp:
    print(fp.read())

with open(file_path, 'r', encoding='UTF-8') as fp:
    print(r'f', repr(fp.read()), sep='')

上述的結(jié)果為：

b'msr\r\nhello\r\r\nmotherland.'
f'msr\nhello\n\nmotherland.'

沒錯，我發(fā)現(xiàn)直接使用b模式和普通模式讀取內(nèi)容然后轉(zhuǎn)化成為bytes的結(jié)果是不同的，那么也必將導致最后文件md5是不正確的。大家也看到了，不管是哪一種讀取的方法其實和我寫入的內(nèi)容都是不同的，在本次的測試案例當中對于換行有著不同的認知，讀取的原因我沒有深入了解，但是我注意到了官方文檔中說b模式就是專門讀取文件字節(jié)流格式的，所以以后大家生成文件md5的時候，一定要直接使用b模式讀取文件內(nèi)容。

上述的測試環(huán)境是：
python: python3.6.8_win_x64（Cpython）
system: windows_10_x64

到此這篇關于Python IO文件管理的具體使用的文章就介紹到這了,更多相關Python IO文件管理內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

python3+PyQt5 實現(xiàn)Rich文本的行編輯方法
今天小編就為大家分享一篇python3+PyQt5 實現(xiàn)Rich文本的行編輯方法，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2019-06-06
python 利用pyttsx3文字轉(zhuǎn)語音過程詳解
這篇文章主要介紹了python 利用pyttsx3文字轉(zhuǎn)語音過程詳解,文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
2019-09-09
python類特殊方法使用示例講解
這篇文章主要為大家介紹了python類特殊方法使用示例講解，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進步，早日升職加薪
2023-06-06
4種方法教你利用Python發(fā)現(xiàn)數(shù)據(jù)的規(guī)律
發(fā)現(xiàn)數(shù)據(jù)的規(guī)律是數(shù)據(jù)分析和數(shù)據(jù)科學中非常重要的一個步驟。這篇文章主要給大家整理了4個可以發(fā)現(xiàn)數(shù)據(jù)規(guī)律的方法，希望對大家有所幫助
2023-03-03
python 遍歷字符串(含漢字)實例詳解
這篇文章主要介紹了python 遍歷字符串(含漢字)實例詳解的相關資料,需要的朋友可以參考下
2017-04-04
Django之騰訊云短信的實現(xiàn)
這篇文章主要介紹了Django之騰訊云短信的實現(xiàn)，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧
2020-06-06
Python讀取本地文件并解析網(wǎng)頁元素的方法
今天小編就為大家分享一篇Python讀取本地文件并解析網(wǎng)頁元素的方法，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2018-05-05
python編程的核心知識點總結(jié)
在本篇文章里小編給大家整理的是一篇關于python編程的核心知識點總結(jié)內(nèi)容，對此有興趣的朋友們可以學習參考下。
2021-02-02
Python使用Flask框架實現(xiàn)文件上傳實例
這篇文章主要介紹了Python使用Flask庫文件上傳實例,用?Flask?處理文件上傳很容易，只要確保HTML表單中設置enctype="multipart/form-data"屬性就可以了,需要的朋友可以參考下
2023-08-08
python?HZK16字庫使用詳解
這篇文章主要介紹了python?HZK16字庫使用,本文結(jié)合實例代碼給大家講解的非常詳細，對大家的學習或工作具有一定的參考借鑒價值，需要的朋友可以參考下
2023-02-02

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

軟件下載

源碼下載

軟件編程

網(wǎng)絡編程

在線工具

數(shù)據(jù)庫

CMS

常用工具

Python?IO文件管理的具體使用

目錄

文件操作

python文件操作的兩種模式

編碼格式的了解

open函數(shù)的使用

文件的寫入（寫入模式）

文件的讀?。ㄗx取模式）

文件內(nèi)容追加（追加模式）

字節(jié)流的轉(zhuǎn)換

存儲二進制的字節(jié)流

上下文管理器

刷新緩沖區(qū)

手動刷新

文件的擴展模式

read的使用

plus增強模式的使用

光標的作用

其它的相關函數(shù)

關于生成文件MD5心得

相關文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

Python?IO文件管理的具體使用

目錄

文件操作

python文件操作的兩種模式

編碼格式的了解

open函數(shù)的使用

文件的寫入（寫入模式）

文件的讀?。ㄗx取模式）

文件內(nèi)容追加（追加模式）

字節(jié)流的轉(zhuǎn)換

存儲二進制的字節(jié)流

上下文管理器

刷新緩沖區(qū)

手動刷新

文件的擴展模式

read的使用

plus增強模式的使用

光標的作用

其它的相關函數(shù)

關于生成文件MD5心得

相關文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

文件的讀?。ㄗx取模式）