Python3 mmap內存映射文件示例解析
1. mmap內存映射文件
建立一個文件的內存映射將使用操作系統(tǒng)虛擬內存來直接訪問文件系統(tǒng)上的數(shù)據(jù),而不是使用常規(guī)的I/O函數(shù)訪問數(shù)據(jù)。內存映射通??梢蕴峁㊣/O性能,因為使用內存映射是,不需要對每個訪問都建立一個單獨的系統(tǒng)調用,也不需要在緩沖區(qū)之間復制數(shù)據(jù);實際上,內核和用戶應用都能直接訪問內存。
內存映射文件可以看作是可修改的字符串或類似文件的對象,這取決于具體的需要。映射文件支持一般的文件API方法,如close()、flush()、read()、readline()、seek()、tell()和write()。它還支持字符串API,提供分片等特性以及類似find()的方法。
下面的所有示例都會使用文本文件lorem.txt,其中包含一些Lorem Ipsum。為便于參考,下面的代碼清單給出這個文件的文本。
Lorem ipsum dolor sit amet, consectetuer adipiscing elit.
Donec egestas, enim et consectetuer ullamcorper, lectus ligula rutrum leo,
a elementum elit tortor eu quam. Duis tincidunt nisi ut ante. Nulla
facilisi. Sed tristique eros eu libero. Pellentesque vel
arcu. Vivamus purus orci, iaculis ac, suscipit sit amet, pulvinar eu,
lacus. Praesent placerat tortor sed nisl. Nunc blandit diam egestas
dui. Pellentesque habitant morbi tristique senectus et netus et
malesuada fames ac turpis egestas. Aliquam viverra fringilla
leo. Nulla feugiat augue eleifend nulla. Vivamus mauris. Vivamus sed
mauris in nibh placerat egestas. Suspendisse potenti. Mauris
massa. Ut eget velit auctor tortor blandit sollicitudin. Suspendisse
imperdiet justo.
1.1 讀文件
使用mmap()函數(shù)可以創(chuàng)建一個內存映射文件。第一個參數(shù)是文件描述符,可能來自file對象的fileno()方法,也可能來自os.open()。調用者在調用mmap()之前負責打開文件,不再需要文件時要負責將其關閉。
mmap()的第二個參數(shù)是要映射的文件部分的大小(以字節(jié)為單位)。如果這個值為0,則映射整個文件。如果這個大小大于文件的當前大小,則會擴展該文件。
這兩個平臺都支持一個可選的關鍵字參數(shù)access。使用ACCESS_READ表示只讀訪問;ACCESS_WRITE表示“寫通過”(write-through),即對內存的賦值直接寫入文件;ACCESS_COPY表示“寫時復制”(copy-on-write),對內存的賦值不會寫至文件。
import mmap with open('lorem.txt', 'r') as f: with mmap.mmap(f.fileno(), 0, access=mmap.ACCESS_READ) as m: print('First 10 bytes via read :', m.read(10)) print('First 10 bytes via slice:', m[:10]) print('2nd 10 bytes via read :', m.read(10))
文件指針會跟蹤通過一個分片操作訪問的最后一個字節(jié)。在這個例子中,第一次讀之后,指針向前移動10個字節(jié)。然后由分片操作將指針重置回文件的起點位置,并由分片使指針再次向前移動10個字節(jié)。分片操作之后,再調用read()會給出文件的11~20字節(jié)。
1.2 寫文件
要建立內存映射文件來接收更新,映射之前首先要使用模式'r+'(而不是'w')打開文件以便完成追加。然后可以使用任何改變數(shù)據(jù)的API方法(例如write()或賦值到一個分片等)。
下面的例子使用了默認訪問模式ACCESS_WRITE,并賦值到一個分片,以原地修改某一行的一部分。
import mmap import shutil # Copy the example file shutil.copyfile('lorem.txt', 'lorem_copy.txt') word = b'consectetuer' reversed = word[::-1] print('Looking for :', word) print('Replacing with :', reversed) with open('lorem_copy.txt', 'r+') as f: with mmap.mmap(f.fileno(), 0) as m: print('Before:\n{}'.format(m.readline().rstrip())) m.seek(0) # rewind loc = m.find(word) m[loc:loc + len(word)] = reversed m.flush() m.seek(0) # rewind print('After :\n{}'.format(m.readline().rstrip())) f.seek(0) # rewind print('File :\n{}'.format(f.readline().rstrip()))
內存的文件中第一行中間的單詞“consectetuer”將被替換。
使用訪問設置ACCESS_COPY時不會把修改寫入磁盤上的文件。
import mmap import shutil # Copy the example file shutil.copyfile('lorem.txt', 'lorem_copy.txt') word = b'consectetuer' reversed = word[::-1] with open('lorem_copy.txt', 'r+') as f: with mmap.mmap(f.fileno(), 0, access=mmap.ACCESS_COPY) as m: print('Memory Before:\n{}'.format( m.readline().rstrip())) print('File Before :\n{}\n'.format( f.readline().rstrip())) m.seek(0) # rewind loc = m.find(word) m[loc:loc + len(word)] = reversed m.seek(0) # rewind print('Memory After :\n{}'.format( m.readline().rstrip())) f.seek(0) print('File After :\n{}'.format( f.readline().rstrip()))
在這個例子中,必須單獨的回轉文件句柄和mmap句柄,因為這兩個對象的內部狀態(tài)會單獨維護。
1.3 正則表達式
由于內存映射文件就類似于一個字符串,因此也常與其他處理字符串的模塊一起使用,如正則表達式。下面的例子會找出所有包含“nulla”的句子。
import mmap import re pattern = re.compile(rb'(\.\W+)?([^.]?nulla[^.]*?\.)', re.DOTALL | re.IGNORECASE | re.MULTILINE) with open('lorem.txt', 'r') as f: with mmap.mmap(f.fileno(), 0, access=mmap.ACCESS_READ) as m: for match in pattern.findall(m): print(match[1].replace(b'\n', b' '))
由于這個模式包含兩個組,所以findall()的返回值是一個元組序列。print語句會找到匹配的句子,并用空格代替換行符,使各個結果都打印在同一行上。
以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。
相關文章
Python使用pymysql模塊操作mysql增刪改查實例分析
這篇文章主要介紹了Python使用pymsql模塊操作mysql增刪改查,結合實例形式分析了Python使用pymsql模塊針對mysql進行增刪改查操作的相關實現(xiàn)方法與操作注意事項,需要的朋友可以參考下2019-12-12