Python使用稀疏矩陣節(jié)省內(nèi)存實(shí)例
推薦系統(tǒng)中經(jīng)常需要處理類似user_id, item_id, rating這樣的數(shù)據(jù),其實(shí)就是數(shù)學(xué)里面的稀疏矩陣,scipy中提供了sparse模塊來解決這個(gè)問題,但scipy.sparse有很多問題不太合用:
1、不能很好的同時(shí)支持data[i, ...]、data[..., j]、data[i, j]快速切片;
2、由于數(shù)據(jù)保存在內(nèi)存中,不能很好的支持海量數(shù)據(jù)處理。
要支持data[i, ...]、data[..., j]的快速切片,需要i或者j的數(shù)據(jù)集中存儲;同時(shí),為了保存海量的數(shù)據(jù),也需要把數(shù)據(jù)的一部分放在硬盤上,用內(nèi)存做buffer。這里的解決方案比較簡單,用一個(gè)類Dict的東西來存儲數(shù)據(jù),對于某個(gè)i(比如9527),它的數(shù)據(jù)保存在dict['i9527']里面,同樣的,對于某個(gè)j(比如3306),它的全部數(shù)據(jù)保存在dict['j3306']里面,需要取出data[9527, ...]的時(shí)候,只要取出dict['i9527']即可,dict['i9527']原本是一個(gè)dict對象,儲存某個(gè)j對應(yīng)的值,為了節(jié)省內(nèi)存空間,我們把這個(gè)dict以二進(jìn)制字符串形式存儲,直接上代碼:
'''
Sparse Matrix
'''
import struct
import numpy as np
import bsddb
from cStringIO import StringIO
class DictMatrix():
def __init__(self, container = {}, dft = 0.0):
self._data = container
self._dft = dft
self._nums = 0
def __setitem__(self, index, value):
try:
i, j = index
except:
raise IndexError('invalid index')
ik = ('i%d' % i)
# 為了節(jié)省內(nèi)存,我們把j, value打包成字二進(jìn)制字符串
ib = struct.pack('if', j, value)
jk = ('j%d' % j)
jb = struct.pack('if', i, value)
try:
self._data[ik] += ib
except:
self._data[ik] = ib
try:
self._data[jk] += jb
except:
self._data[jk] = jb
self._nums += 1
def __getitem__(self, index):
try:
i, j = index
except:
raise IndexError('invalid index')
if (isinstance(i, int)):
ik = ('i%d' % i)
if not self._data.has_key(ik): return self._dft
ret = dict(np.fromstring(self._data[ik], dtype = 'i4,f4'))
if (isinstance(j, int)): return ret.get(j, self._dft)
if (isinstance(j, int)):
jk = ('j%d' % j)
if not self._data.has_key(jk): return self._dft
ret = dict(np.fromstring(self._data[jk], dtype = 'i4,f4'))
return ret
def __len__(self):
return self._nums
def __iter__(
測試代碼:
import timeit
timeit.Timer('foo = __main__.data[9527, ...]', 'import __main__').timeit(number = 1000)
消耗1.4788秒,大概讀取一條數(shù)據(jù)1.5ms。
采用類Dict來存儲數(shù)據(jù)的另一個(gè)好處是你可以隨便用內(nèi)存Dict或者其他任何形式的DBM,甚至傳說中的Tokyo Cabinet….
好了,碼完收工。
相關(guān)文章
python并發(fā)編程多進(jìn)程之守護(hù)進(jìn)程原理解析
這篇文章主要介紹了python并發(fā)編程多進(jìn)程之守護(hù)進(jìn)程原理解析,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2019-08-08教你用python實(shí)現(xiàn)一個(gè)無界面的小型圖書管理系統(tǒng)
今天帶大家學(xué)習(xí)怎么用python實(shí)現(xiàn)一個(gè)無界面的小型圖書管理系統(tǒng),文中有非常詳細(xì)的圖文解說及代碼示例,對正在學(xué)習(xí)python的小伙伴們有很好地幫助,需要的朋友可以參考下2021-05-05機(jī)器學(xué)習(xí)經(jīng)典算法-logistic回歸代碼詳解
這篇文章主要介紹了機(jī)器學(xué)習(xí)經(jīng)典算法-logistic回歸代碼詳解,具有一定借鑒價(jià)值,需要的朋友可以參考下。2017-12-12Python優(yōu)雅實(shí)現(xiàn)二分查找的示例詳解
二分查找是一種高效的搜索算法,用于在有序數(shù)組中查找特定元素,本文將介紹二分查找的基本原理,并通過Python代碼進(jìn)行詳細(xì)講解,需要的可以參考一下2023-07-07