Python常見讀寫文件操作實(shí)例總結(jié)【文本、json、csv、pdf等】

更新時(shí)間：2019年04月15日 09:22:28 作者：微信1257309054

這篇文章主要介紹了Python常見讀寫文件操作,結(jié)合實(shí)例形式總結(jié)分析了Python常見的各種文件讀寫操作,包括文本、json、csv、pdf等文件的讀寫與相關(guān)注意事項(xiàng),需要的朋友可以參考下

本文實(shí)例講述了Python常見讀寫文件操作。分享給大家供大家參考，具體如下：

讀寫文件

讀寫文件是最常見的IO操作,python內(nèi)置了讀寫文件的函數(shù),用法和c是兼容的.

讀寫文件前,我們必須了解一下,在磁盤上讀寫文件的功能都是由操作系統(tǒng)提供的,現(xiàn)代操作系統(tǒng)不允許普通的程序直接操作磁盤,所以讀寫文件就是請(qǐng)求操作系統(tǒng)打開一個(gè)文件對(duì)象(文件描述),然后,通過(guò)操作系統(tǒng)提供的接口從這個(gè)文件對(duì)象中讀取數(shù)據(jù)(讀文件),或者把數(shù)據(jù)寫入這個(gè)文件對(duì)象(寫文件).

1、讀文件

要以讀文件的模式打開一個(gè)文件對(duì)象,使用python內(nèi)置的open()函數(shù),傳入文件名和標(biāo)識(shí)符:

f = open("t1.txt","r",encoding="utf-8")

標(biāo)識(shí)符'r'表示讀。

如果文件不存在,open()函數(shù)就會(huì)拋出一個(gè)IOError的錯(cuò)誤,并且會(huì)給出詳細(xì)的錯(cuò)誤碼和信息,告訴你文件不存在。

f = open("t122.txt","r",encoding="utf-8")

Traceback (most recent call last):
File "D:/Learn/python/day14/test.py", line 1, in <module>
f = open("t122.txt","r",encoding="utf-8")
FileNotFoundError: [Errno 2] No such file or directory: 't122.txt'

如果文件打開成功,接下來(lái),調(diào)用read()方法可以一次性讀取文件的全部?jī)?nèi)容,python把內(nèi)容讀取到內(nèi)存,用一個(gè)str對(duì)象表示。

print(f.read())

輸出：

hello world!

最后一步調(diào)用close()方法關(guān)閉文件,文件使用完畢之后必須關(guān)閉,因?yàn)槲募?duì)象會(huì)占用操作系統(tǒng)的資源,并且操作系統(tǒng)同一時(shí)間能打開的文件數(shù)量也是有限制的。

f.close()

f = open(r"文件地址","讀取方式",encoding="utf-8")

"r"：以只讀方式
encoding:讀取的編碼格式
f.read() ：一次性讀取文件全部?jī)?nèi)容
f.close()：關(guān)閉流
r"文件地址"：不讓轉(zhuǎn)義字符“\”起作用

由于文件讀寫都有可能產(chǎn)生IOError,一旦出錯(cuò),后面的f.close()就不會(huì)調(diào)用,所以,為了保證文件不管是否執(zhí)行出錯(cuò)都能夠正確的關(guān)閉文件,我們可以使用try … finally來(lái)實(shí)現(xiàn).

try:
 f = open("t1.txt", "r", encoding="utf-8")
 print(f.read())
finally:
 if f:
  f.close()

但是每次都這么寫實(shí)在太繁瑣,所以,引入了with語(yǔ)句來(lái)自動(dòng)幫我們調(diào)用close()方法:

with open("t1.txt", "r", encoding="utf-8") as f:
 print(f.read())

這和前面的try…finally是一樣的,但是代碼更加簡(jiǎn)潔,并且不必調(diào)用f.close()方法。

注意: 使用read()會(huì)一次性讀取文件的全部?jī)?nèi)容,如果你的文件特別大,比如說(shuō)有5G,那么你的內(nèi)存就爆了,所以,為了保險(xiǎn)起見,我們可以反復(fù)調(diào)用read(size)方法,每次最多讀取size個(gè)字節(jié)內(nèi)容,另外調(diào)用readline()可以每次讀取一行內(nèi)容,調(diào)用readlines()一次性讀取所有的內(nèi)容,并按行返回list,因此,要根據(jù)需要決定怎么調(diào)用。

如果文件很小,read()一次讀取最方便,如果不能確定文件大小,反復(fù)調(diào)用read(size)比較保險(xiǎn),如果是配置文件,調(diào)用readlines()最方便。

for line in f.readlines():
 #把末尾的'\n'刪掉
 print(line.strip())

2、二進(jìn)制文件

前面講的默認(rèn)都是讀取文本文件,并且是UTF-8編碼的文本文件,要讀取二進(jìn)制文件,比如圖片,視頻等等,用'rb'模式打開文件即可:

f = open("tigle.jpg", "rb")
print(f.read())
b'\xff\xd8\xff\xe1\x00\x18Exif\x00\x00...' # 十六進(jìn)制表示的字節(jié)

3、字符編碼

要讀取非UTF-8編碼的文本文件,需要給open()函數(shù)傳入encoding參數(shù),例如,讀取GBK編碼的文件:

f = open('/user/demo/gbk.txt','r',encoding = 'gbk')
f.read()
'測(cè)試'

遇到有些編碼不規(guī)范的文件,你可能遇到UnicodeDecodeError,因?yàn)樵谖谋疚募锌赡軍A雜了一些非法編碼的字符,遇到這種情況,open()函數(shù)還接收一個(gè)error參數(shù),表示如果遇到編碼錯(cuò)誤之后如何處理,最簡(jiǎn)單的辦法就是直接忽略。

f = open('/users/demo/gbk.txt','r',encoding = 'gbk',errors = 'ignore')

4、寫文件

寫文件和讀文件都是一樣的,唯一的區(qū)別就是調(diào)用open()函數(shù)時(shí),傳入標(biāo)識(shí)符'w'或者'wb'表示寫文件或?qū)懚M(jìn)制文件:

f = open("/users/demo/test.txt",'w')
f.write('hello, world!')
f.close()

你可以反復(fù)調(diào)用write()來(lái)寫入文件,但是務(wù)必要調(diào)用f.close()來(lái)關(guān)閉文件.

當(dāng)我們寫入文件時(shí),操作系統(tǒng)往往不會(huì)立刻把數(shù)據(jù)寫入磁盤,而是放到內(nèi)存緩存起來(lái),空閑的時(shí)候再慢慢寫入,只有調(diào)用close()方法時(shí),操作系統(tǒng)才保證把沒有寫入的數(shù)據(jù)全部寫入磁盤,忘記調(diào)用close()的后果是數(shù)據(jù)可能只寫了一部分到磁盤,剩余的丟失了,所以,還是使用with語(yǔ)句來(lái)的保險(xiǎn):

with open('/users/demo/test.txt', 'w') as f:
 f.write('hello, world')

要寫入特定編碼的文本文件,請(qǐng)給open()函數(shù)傳入encoding參數(shù),將字符串自動(dòng)轉(zhuǎn)成指定編碼。

以'w'模式寫入文件時(shí),如果文件已經(jīng)存在,直接覆蓋(相當(dāng)于刪掉后新寫入一個(gè)文件),如果我們希望追加到文件的末尾怎么辦?可以傳入'a'以追加模式寫入。

with open('/users/demo/test.txt', 'a') as f:
 f.write('hello, world')

5、StringIO

很多時(shí)候,數(shù)據(jù)讀寫不一定是文件,也可以在內(nèi)存讀寫.

stirngIO顧名思義就是在內(nèi)存中讀寫str。

要把str寫入StringIO,我們需要先創(chuàng)建一個(gè)StringIO,然后,像文件一樣寫入即可:

from io import StringIO
f = StringIO()
f.write("hello")
f.write(" ")
f.write('world')
#獲取寫入后的str
print(f.getvalue())

輸出：

hello world

要讀取StringIO,可以用一個(gè)str初始化StringIO,然后,像讀文件一樣讀取:

from io import StringIO
f = StringIO("Hello\nHi\nGoodBye!")
while True:
 s = f.readline()
 if s == '':
  break
 # 去掉換行符
 print(s.strip())

輸出：

Hello
Hi
GoodBye!

6、BytesIO

StringIO操作的只能是str,如果要操作二進(jìn)制數(shù)據(jù),就需要使用BytesIO。

BytesIO實(shí)現(xiàn)了在內(nèi)存中讀寫bytes,我們創(chuàng)建一個(gè)BytesIO,然后寫入一些bytes:

from io import BytesIO
f = BytesIO()
f.write("中文".encode('utf-8'))
print(f.getvalue())

輸出：

b'\xe4\xb8\xad\xe6\x96\x87'

注意:寫入的不是str,而是經(jīng)過(guò)UTF-8編碼的bytes。

和StringIO類似,可以用一個(gè)bytes初始化BytesIO,然后,像讀文件一樣讀取:

from io import BytesIO
f = BytesIO(b'\xe4\xb8\xad\xe6\x96\x87')
d = f.read()
print(d)
print(d.decode())

輸出：

b'\xe4\xb8\xad\xe6\x96\x87'
中文

StringIO和BytesIO是在內(nèi)存中操作str和bytes的方法,使得讀寫文件具有一致的接口.

7、序列化

在程序運(yùn)行的過(guò)程中，所有的變量都是在內(nèi)存中，比如定義一個(gè)dict

dict1 = {name:"lili",age:18}

在這里我把name進(jìn)行修改，改成”leilei“，但是一旦程序結(jié)束，變量所占用的內(nèi)存就會(huì)被操作系統(tǒng)全部回收，如果沒有把修改的name存到磁盤上，下次name初始化的時(shí)候又是”lili“

在這里我們把變量從內(nèi)存中變成可存儲(chǔ)或者傳輸?shù)倪^(guò)程稱之為序列化，在python中叫picking，序列化之后，我們就可以把序列化后的內(nèi)容寫入磁盤，或是通過(guò)網(wǎng)絡(luò)傳輸?shù)絼e的機(jī)器上。反之，把變量?jī)?nèi)容從序列化的對(duì)象重新讀取到內(nèi)存里稱之為反序列化，即unpicking。

python提供了pickle模塊來(lái)實(shí)現(xiàn)序列化。

import pickle
d = dict({"name":"lili","age":18})
#pickle.dumps()方法把任意對(duì)象序列化成一個(gè)bytes，然后就可以把bytes寫入文件
print(pickle.dumps(d))
#把序列化后的對(duì)象寫入文件
f = open("t1.txt",'wb')
#參數(shù)一：要寫入的對(duì)象， 參數(shù)二：寫入文件的對(duì)象
pickle.dump(d,f)
f.close()
#從文件中讀取序列化后的對(duì)象
f2 = open("t1.txt","rb")
#pickle.load()反序列化對(duì)象
d = pickle.load(f2)
f2.close()
print(d)
print(type(d))

輸出：

{'name': 'lili', 'age': 18}
<class 'dict'>

注意：pickle只能用于python，并且不同版本的python彼此都不兼容，因此，只能用pickle保存一些不重要的數(shù)據(jù)，這樣即使不能成功的反序列化也沒什么關(guān)系。

8、Json

如果我們需要在不同的編程語(yǔ)言之間傳遞對(duì)象，那么我們必須把對(duì)象序列化成標(biāo)準(zhǔn)化格式，比如xml，但是更好的方法是json，因?yàn)閖son表現(xiàn)出來(lái)就是一個(gè)字符串，可以被所有的語(yǔ)言讀取，也方便存儲(chǔ)到磁盤或者網(wǎng)絡(luò)傳輸，json不僅是標(biāo)準(zhǔn)模式，并且速度也比xml更快，還可以在web中讀取，非常方便。

JSON類型	Python類型
{}	dict
[]	list
“string”	str
1234.56	int或float
true/false	True/False
null	None

把python的dict對(duì)象變成一個(gè)json

import json
dict1 = {"name":"lili","age":18}
ji = json.dumps(dict1)
print(type(ji))
with open("dd.txt","w") as f:
 json.dump(dict1,f)
with open("dd.txt","r",encoding="utf-8") as f:
 du = json.load(f)
 print(du)
 print(type(du))

輸出：

<class 'str'>
{'name': 'lili', 'age': 18}
<class 'dict'>

將一個(gè)class對(duì)象序列化為json

import json
class Student(object):
 def __init__(self, name, age, score):
  self.name = name
  self.age = age
  self.score = score
# 將student對(duì)象轉(zhuǎn)換為dict
def student2dict(std):
 return {
  'name': std.name,
  'age': std.age,
  'score': std.score
 }
s = Student('Bob', 20, 88)
# 參數(shù)一：要傳入的對(duì)象 參數(shù)二：將對(duì)象轉(zhuǎn)為dict的函數(shù)
d = json.dumps(s, default=student2dict)
# 將dict轉(zhuǎn)為對(duì)象
def dict2student(d):
 return Student(d['name'], d['age'], d['score'])
jsonStr = '{"age": 20, "score": 88, "name": "Bob"}'
# json反序列化為一個(gè)對(duì)象
# 參數(shù)一：json字符串，參數(shù)二：dict轉(zhuǎn)為對(duì)象的函數(shù)
print(json.loads(jsonStr, object_hook=dict2student))
# 寫入文件
with open("t1.txt","w") as f:
 f.write(d)
 #或者直接使用下面的語(yǔ)句
 #json.dump(s,f,default=student2dict)
# 讀取文件
with open("t1.txt","r",encoding="utf-8") as f:
 du = json.load(f,object_hook=dict2student)
print(du)

輸出：

<__main__.Student object at 0x000002CA795AA0F0>
<__main__.Student object at 0x000002CA7975B0F0>

9、讀寫csv文件

①、讀csv文件

csv文件本身就是個(gè)純文本文件,這種文件格式經(jīng)常用來(lái)作為不同程序之間的數(shù)據(jù)交互的格式.

演示:

需求:讀取001.scv文件

說(shuō)明:可以直接打印,然后定義list

import csv
def readCsv(path):
 #列表
 infoList = []
 #以只讀的形式打開文件
 with open(path, 'r') as f:
  #讀取文件的內(nèi)容
  allFileInfo = csv.reader(f)
  #將獲取到的內(nèi)容逐行追加到列表中
  for row in allFileInfo:
   infoList.append(row)
 return infoList
path = r"C:\Users\xlg\Desktop\001.csv"
info = readCsv(path)

②、寫csv文件

演示:

需求:向002.csv文件中寫入內(nèi)容

import csv
#以寫的方式打開文件
def writeCsv(path,data):
 with open(path,'w',newline='') as f:
  writer = csv.writer(f)
  for rowData in data:
   print("rowData =", rowData)
   #按行寫入
   writer.writerow(rowData)
path = r"C:\Users\xlg\Desktop\002.csv"
writeCsv(path,[[1,2,3],[4,5,6],[7,8,9]])

10、讀取pdf文件

pip是一個(gè)安裝和管理python包的工具

在進(jìn)行代碼演示之前,首先進(jìn)行安裝和pdf相關(guān)的工具

a.在cmd中輸入以下命令: pip list [作用:列出pip下安裝的所有的工具]

b.安裝pdfminer3k,繼續(xù)輸入以下命令:pip install pdfminer3k

c.代碼演示

import sys
import importlib
importlib.reload(sys)
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter #解釋器
from pdfminer.converter import PDFPageAggregator #轉(zhuǎn)換器
from pdfminer.layout import LTTextBoxHorizontal, LAParams #布局
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed #是否允許pdf和text轉(zhuǎn)換
def readPDF(path, toPath):
 #以二進(jìn)制形式打開pdf文件
 f = open(path, "rb")
 #創(chuàng)建一個(gè)pdf文檔分析器
 parser = PDFParser(f)
 #創(chuàng)建pdf文檔
 pdfFile = PDFDocument()
 #鏈接分析器與文檔對(duì)象
 parser.set_document(pdfFile)
 pdfFile.set_parser(parser)
 #提供初始化密碼
 pdfFile.initialize()
 #檢測(cè)文檔是否提供txt轉(zhuǎn)換
 if not pdfFile.is_extractable:
  raise PDFTextExtractionNotAllowed
 else:
  #解析數(shù)據(jù)
  #數(shù)據(jù)管理器
  manager = PDFResourceManager()
  #創(chuàng)建一個(gè)PDF設(shè)備對(duì)象
  laparams = LAParams()
  device = PDFPageAggregator(manager, laparams=laparams)
  #解釋器對(duì)象
  interpreter = PDFPageInterpreter(manager, device)
  #開始循環(huán)處理，每次處理一頁(yè)
  for page in pdfFile.get_pages():
   interpreter.process_page(page)
   layout = device.get_result()
   for x in layout:
    if (isinstance(x, LTTextBoxHorizontal)):
     with open(toPath, "a") as f:
      str = x.get_text()
      #print(str)
      f.write(str+"\n")
path = r"0319開始.pdf"
toPath = r"n.txt"
readPDF(path, toPath)

更多關(guān)于Python相關(guān)內(nèi)容感興趣的讀者可查看本站專題：《Python文件與目錄操作技巧匯總》、《Python文本文件操作技巧匯總》、《Python數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Python函數(shù)使用技巧總結(jié)》、《Python字符串操作技巧匯總》及《Python入門與進(jìn)階經(jīng)典教程》

希望本文所述對(duì)大家Python程序設(shè)計(jì)有所幫助。

您可能感興趣的文章: