Python使用稀疏矩陣節(jié)省內(nèi)存實(shí)例
推薦系統(tǒng)中經(jīng)常需要處理類(lèi)似user_id, item_id, rating這樣的數(shù)據(jù),其實(shí)就是數(shù)學(xué)里面的稀疏矩陣,scipy中提供了sparse模塊來(lái)解決這個(gè)問(wèn)題,但scipy.sparse有很多問(wèn)題不太合用:
1、不能很好的同時(shí)支持data[i, ...]、data[..., j]、data[i, j]快速切片;
2、由于數(shù)據(jù)保存在內(nèi)存中,不能很好的支持海量數(shù)據(jù)處理。
要支持data[i, ...]、data[..., j]的快速切片,需要i或者j的數(shù)據(jù)集中存儲(chǔ);同時(shí),為了保存海量的數(shù)據(jù),也需要把數(shù)據(jù)的一部分放在硬盤(pán)上,用內(nèi)存做buffer。這里的解決方案比較簡(jiǎn)單,用一個(gè)類(lèi)Dict的東西來(lái)存儲(chǔ)數(shù)據(jù),對(duì)于某個(gè)i(比如9527),它的數(shù)據(jù)保存在dict['i9527']里面,同樣的,對(duì)于某個(gè)j(比如3306),它的全部數(shù)據(jù)保存在dict['j3306']里面,需要取出data[9527, ...]的時(shí)候,只要取出dict['i9527']即可,dict['i9527']原本是一個(gè)dict對(duì)象,儲(chǔ)存某個(gè)j對(duì)應(yīng)的值,為了節(jié)省內(nèi)存空間,我們把這個(gè)dict以二進(jìn)制字符串形式存儲(chǔ),直接上代碼:
'''
Sparse Matrix
'''
import struct
import numpy as np
import bsddb
from cStringIO import StringIO
class DictMatrix():
def __init__(self, container = {}, dft = 0.0):
self._data = container
self._dft = dft
self._nums = 0
def __setitem__(self, index, value):
try:
i, j = index
except:
raise IndexError('invalid index')
ik = ('i%d' % i)
# 為了節(jié)省內(nèi)存,我們把j, value打包成字二進(jìn)制字符串
ib = struct.pack('if', j, value)
jk = ('j%d' % j)
jb = struct.pack('if', i, value)
try:
self._data[ik] += ib
except:
self._data[ik] = ib
try:
self._data[jk] += jb
except:
self._data[jk] = jb
self._nums += 1
def __getitem__(self, index):
try:
i, j = index
except:
raise IndexError('invalid index')
if (isinstance(i, int)):
ik = ('i%d' % i)
if not self._data.has_key(ik): return self._dft
ret = dict(np.fromstring(self._data[ik], dtype = 'i4,f4'))
if (isinstance(j, int)): return ret.get(j, self._dft)
if (isinstance(j, int)):
jk = ('j%d' % j)
if not self._data.has_key(jk): return self._dft
ret = dict(np.fromstring(self._data[jk], dtype = 'i4,f4'))
return ret
def __len__(self):
return self._nums
def __iter__(
測(cè)試代碼:
import timeit
timeit.Timer('foo = __main__.data[9527, ...]', 'import __main__').timeit(number = 1000)
消耗1.4788秒,大概讀取一條數(shù)據(jù)1.5ms。
采用類(lèi)Dict來(lái)存儲(chǔ)數(shù)據(jù)的另一個(gè)好處是你可以隨便用內(nèi)存Dict或者其他任何形式的DBM,甚至傳說(shuō)中的Tokyo Cabinet….
好了,碼完收工。
相關(guān)文章
python并發(fā)編程多進(jìn)程之守護(hù)進(jìn)程原理解析
這篇文章主要介紹了python并發(fā)編程多進(jìn)程之守護(hù)進(jìn)程原理解析,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2019-08-08
用Python編寫(xiě)一個(gè)高效的端口掃描器的方法
這篇文章主要介紹了用Python編寫(xiě)一個(gè)高效的端口掃描器的方法,小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧2018-12-12
python中的flask框架Jinja?模板入門(mén)教程
這篇文章主要介紹了?python中的flask框架Jinja?模板入門(mén),Jinja?模板其實(shí)是?html?文件,一般情況下放在?Flask?工程的?/templates?目錄下,對(duì)python?flask?Jinja?模板相關(guān)知識(shí)感興趣的朋友一起看看吧2022-04-04
教你用python實(shí)現(xiàn)一個(gè)無(wú)界面的小型圖書(shū)管理系統(tǒng)
今天帶大家學(xué)習(xí)怎么用python實(shí)現(xiàn)一個(gè)無(wú)界面的小型圖書(shū)管理系統(tǒng),文中有非常詳細(xì)的圖文解說(shuō)及代碼示例,對(duì)正在學(xué)習(xí)python的小伙伴們有很好地幫助,需要的朋友可以參考下2021-05-05
機(jī)器學(xué)習(xí)經(jīng)典算法-logistic回歸代碼詳解
這篇文章主要介紹了機(jī)器學(xué)習(xí)經(jīng)典算法-logistic回歸代碼詳解,具有一定借鑒價(jià)值,需要的朋友可以參考下。2017-12-12
用python腳本24小時(shí)刷瀏覽器的訪問(wèn)量方法
今天小編就為大家分享一篇用python腳本24小時(shí)刷瀏覽器的訪問(wèn)量方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-12-12
Python優(yōu)雅實(shí)現(xiàn)二分查找的示例詳解
二分查找是一種高效的搜索算法,用于在有序數(shù)組中查找特定元素,本文將介紹二分查找的基本原理,并通過(guò)Python代碼進(jìn)行詳細(xì)講解,需要的可以參考一下2023-07-07

