欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python使用稀疏矩陣節(jié)省內存實例

 更新時間:2014年06月27日 11:31:41   投稿:junjie  
這篇文章主要介紹了Python使用稀疏矩陣節(jié)省內存實例,矩陣中非零元素的個數(shù)遠遠小于矩陣元素的總數(shù),并且非零元素的分布沒有規(guī)律,則稱該矩陣為稀疏矩陣,需要的朋友可以參考下

推薦系統(tǒng)中經(jīng)常需要處理類似user_id, item_id, rating這樣的數(shù)據(jù),其實就是數(shù)學里面的稀疏矩陣,scipy中提供了sparse模塊來解決這個問題,但scipy.sparse有很多問題不太合用:

1、不能很好的同時支持data[i, ...]、data[..., j]、data[i, j]快速切片;
2、由于數(shù)據(jù)保存在內存中,不能很好的支持海量數(shù)據(jù)處理。

要支持data[i, ...]、data[..., j]的快速切片,需要i或者j的數(shù)據(jù)集中存儲;同時,為了保存海量的數(shù)據(jù),也需要把數(shù)據(jù)的一部分放在硬盤上,用內存做buffer。這里的解決方案比較簡單,用一個類Dict的東西來存儲數(shù)據(jù),對于某個i(比如9527),它的數(shù)據(jù)保存在dict['i9527']里面,同樣的,對于某個j(比如3306),它的全部數(shù)據(jù)保存在dict['j3306']里面,需要取出data[9527, ...]的時候,只要取出dict['i9527']即可,dict['i9527']原本是一個dict對象,儲存某個j對應的值,為了節(jié)省內存空間,我們把這個dict以二進制字符串形式存儲,直接上代碼:

復制代碼 代碼如下:

'''
Sparse Matrix
'''
import struct
import numpy as np
import bsddb
from cStringIO import StringIO
 
class DictMatrix():
    def __init__(self, container = {}, dft = 0.0):
        self._data  = container
        self._dft   = dft
        self._nums  = 0
 
    def __setitem__(self, index, value):
        try:
            i, j = index
        except:
            raise IndexError('invalid index')
 
        ik = ('i%d' % i)
        # 為了節(jié)省內存,我們把j, value打包成字二進制字符串
        ib = struct.pack('if', j, value)
        jk = ('j%d' % j)
        jb = struct.pack('if', i, value)
 
        try:
            self._data[ik] += ib
        except:
            self._data[ik] = ib
        try:
            self._data[jk] += jb
        except:
            self._data[jk] = jb
        self._nums += 1
 
    def __getitem__(self, index):
        try:
            i, j = index
        except:
            raise IndexError('invalid index')
 
        if (isinstance(i, int)):
            ik = ('i%d' % i)
            if not self._data.has_key(ik): return self._dft
            ret = dict(np.fromstring(self._data[ik], dtype = 'i4,f4'))
            if (isinstance(j, int)): return ret.get(j, self._dft)
 
        if (isinstance(j, int)):
            jk = ('j%d' % j)
            if not self._data.has_key(jk): return self._dft
            ret = dict(np.fromstring(self._data[jk], dtype = 'i4,f4'))
 
        return ret
 
    def __len__(self):
        return self._nums
 
    def __iter__(

測試代碼:

復制代碼 代碼如下:

import timeit
timeit.Timer('foo = __main__.data[9527, ...]', 'import __main__').timeit(number = 1000)

消耗1.4788秒,大概讀取一條數(shù)據(jù)1.5ms。
采用類Dict來存儲數(shù)據(jù)的另一個好處是你可以隨便用內存Dict或者其他任何形式的DBM,甚至傳說中的Tokyo Cabinet….

好了,碼完收工。

相關文章

  • 基于DATAFRAME中元素的讀取與修改方法

    基于DATAFRAME中元素的讀取與修改方法

    今天小編就為大家分享一篇基于DATAFRAME中元素的讀取與修改方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-06-06
  • python并發(fā)編程多進程之守護進程原理解析

    python并發(fā)編程多進程之守護進程原理解析

    這篇文章主要介紹了python并發(fā)編程多進程之守護進程原理解析,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2019-08-08
  • 用Python編寫一個高效的端口掃描器的方法

    用Python編寫一個高效的端口掃描器的方法

    這篇文章主要介紹了用Python編寫一個高效的端口掃描器的方法,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2018-12-12
  • python中的flask框架Jinja?模板入門教程

    python中的flask框架Jinja?模板入門教程

    這篇文章主要介紹了?python中的flask框架Jinja?模板入門,Jinja?模板其實是?html?文件,一般情況下放在?Flask?工程的?/templates?目錄下,對python?flask?Jinja?模板相關知識感興趣的朋友一起看看吧
    2022-04-04
  • python錯誤處理詳解

    python錯誤處理詳解

    這篇文章主要介紹了python錯誤處理詳解,本文講解了try語句、錯誤堆棧、記錄錯誤、拋出錯誤等內容,需要的朋友可以參考下
    2014-09-09
  • 教你用python實現(xiàn)一個無界面的小型圖書管理系統(tǒng)

    教你用python實現(xiàn)一個無界面的小型圖書管理系統(tǒng)

    今天帶大家學習怎么用python實現(xiàn)一個無界面的小型圖書管理系統(tǒng),文中有非常詳細的圖文解說及代碼示例,對正在學習python的小伙伴們有很好地幫助,需要的朋友可以參考下
    2021-05-05
  • 機器學習經(jīng)典算法-logistic回歸代碼詳解

    機器學習經(jīng)典算法-logistic回歸代碼詳解

    這篇文章主要介紹了機器學習經(jīng)典算法-logistic回歸代碼詳解,具有一定借鑒價值,需要的朋友可以參考下。
    2017-12-12
  • 用python腳本24小時刷瀏覽器的訪問量方法

    用python腳本24小時刷瀏覽器的訪問量方法

    今天小編就為大家分享一篇用python腳本24小時刷瀏覽器的訪問量方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-12-12
  • Python優(yōu)雅實現(xiàn)二分查找的示例詳解

    Python優(yōu)雅實現(xiàn)二分查找的示例詳解

    二分查找是一種高效的搜索算法,用于在有序數(shù)組中查找特定元素,本文將介紹二分查找的基本原理,并通過Python代碼進行詳細講解,需要的可以參考一下
    2023-07-07
  • python DataFrame 取差集實例

    python DataFrame 取差集實例

    今天小編就為大家分享一篇python DataFrame 取差集實例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-01-01

最新評論