Python存儲(chǔ)與讀寫二進(jìn)制文件的示例代碼
技術(shù)背景
一般情況下我們會(huì)選擇使用明文形式來存儲(chǔ)數(shù)據(jù),如json、txt、csv等等。如果是需要壓縮率較高的存儲(chǔ)格式,還可以選擇使用hdf5或者npz等格式。還有一種比較緊湊的數(shù)據(jù)存儲(chǔ)格式,就是直接按照二進(jìn)制格式存儲(chǔ)。這種格式下,存儲(chǔ)的數(shù)據(jù)之間沒有間隔符,在沒有壓縮的情況下應(yīng)該是體積最小的存儲(chǔ)類型。
使用方法
在Python中,我們可以使用numpy.tofile()功能,直接將numpy數(shù)組類型存儲(chǔ)到一個(gè)二進(jìn)制文件中。讀取的時(shí)候,雖然可以直接使用open(file_name, 'rb')來進(jìn)行讀取,但是為了適配大量IO的場景,這里我們使用內(nèi)存映射mmap的形式來進(jìn)行數(shù)據(jù)讀取。
完整示例
如下是一個(gè)完整的示例代碼,相關(guān)的功能直接用注釋的形式在代碼中標(biāo)記:
import numpy as np import mmap import resource # 獲取頁數(shù)據(jù)量大?。▎挝唬鹤止?jié)) PAGE_SIZE = resource.getpagesize() # 定義單精度浮點(diǎn)數(shù)數(shù)據(jù)占用字節(jié)(單位:字節(jié)) DATA_SIZE = 4 # 計(jì)算頁存儲(chǔ)數(shù)據(jù)數(shù)量(num_float32) PAGE_FNUM = int(PAGE_SIZE/DATA_SIZE) print ("The PAGE_SIZE is: {}".format(PAGE_SIZE)) print ("Corresponding float32 numbers should be: {}".format(PAGE_FNUM)) # 生成示例數(shù)據(jù),使用PAGE_FNUM+4大小的數(shù)據(jù)量定義兩頁數(shù)據(jù) tmp_arr = np.arange(PAGE_FNUM+4).astype(np.float32) # 數(shù)據(jù)存儲(chǔ)路徑 tmp_file = '/tmp/tmp.dat' # 將數(shù)組存儲(chǔ)到二進(jìn)制文件中 tmp_arr.tofile(tmp_file) # 每次從二進(jìn)制文件中讀取4個(gè)數(shù)據(jù) READ_NUM = 4 with open(tmp_file, 'rb') as file: # 第一頁數(shù)據(jù)的內(nèi)存映射 mm = mmap.mmap(file.fileno(), 0, access=mmap.ACCESS_READ, offset=0) # 第一頁數(shù)據(jù)的1、2、3、4位數(shù)據(jù) print (np.frombuffer(mm.read(DATA_SIZE*READ_NUM), dtype='<f4')) # 第一頁數(shù)據(jù)的5、6、7、8位數(shù)據(jù) print (np.frombuffer(mm.read(DATA_SIZE*READ_NUM), dtype='<f4')) # 第二頁數(shù)據(jù)的內(nèi)存映射 mm = mmap.mmap(file.fileno(), 0, access=mmap.ACCESS_READ, offset=PAGE_SIZE) # 第二頁數(shù)據(jù)的1~4位數(shù)據(jù) print (np.frombuffer(mm.read(DATA_SIZE*READ_NUM), dtype='<f4')) # 第二頁數(shù)據(jù)的5~8位數(shù)據(jù) print (np.frombuffer(mm.read(DATA_SIZE*READ_NUM), dtype='<f4')) # 關(guān)閉內(nèi)存映射 mm.close() # 退出文件IO
該腳本的輸出結(jié)果為:
The PAGE_SIZE is: 4096
Corresponding float32 numbers should be: 1024
[0. 1. 2. 3.]
[4. 5. 6. 7.]
[1024. 1025. 1026. 1027.]
[]
結(jié)果解析
我們打印的第一個(gè)數(shù)據(jù)是頁大小,這里顯示是4096個(gè)字節(jié)。而一個(gè)單精度浮點(diǎn)數(shù)占4個(gè)字節(jié),所以一頁存了1024個(gè)單精度浮點(diǎn)數(shù),也就是第二個(gè)打印輸出的結(jié)果。由于我們定義的numpy數(shù)組是一個(gè)從0開始的遞增數(shù)組,因此第一頁數(shù)據(jù)的前8位數(shù)字就是從0到7。而第二頁的數(shù)據(jù)是1024~1027一共4個(gè)浮點(diǎn)數(shù),占16個(gè)字節(jié)。所以我們在第二頁第二次使用numpy.frombuffer()去讀取數(shù)據(jù)的時(shí)候,得到的是一個(gè)空的數(shù)組。此外我們可以查看一下這個(gè)二進(jìn)制文件的大?。?/p>
In [1]: import os In [2]: os.path.getsize('/tmp/tmp.dat') Out[2]: 4112
一共是4112個(gè)字節(jié),剛好是4096+16個(gè)字節(jié)。
總結(jié)概要
本文介紹了一種在Python中將Numpy數(shù)組轉(zhuǎn)存為一個(gè)緊湊的二進(jìn)制格式的文件,及其使用內(nèi)存映射的形式進(jìn)行讀取的方案。一個(gè)二進(jìn)制的數(shù)據(jù)流,不僅可以更加方便頁形式的內(nèi)存映射,相比于傳統(tǒng)的Numpy單精度浮點(diǎn)數(shù)數(shù)組還有一個(gè)可哈希的特性??傮w來說是一個(gè)對于高性能計(jì)算十分友好的存儲(chǔ)格式,在cudaSPONGE中作為一個(gè)分子動(dòng)力學(xué)模擬軌跡輸出的格式使用。
版權(quán)聲明
本文首發(fā)鏈接為:https://www.cnblogs.com/dechinphy/p/dat.html
作者ID:DechinPhy
更多原著文章:https://www.cnblogs.com/dechinphy/
請博主喝咖啡:https://www.cnblogs.com/dechinphy/gallery/image/379634.html
到此這篇關(guān)于Python存儲(chǔ)與讀寫二進(jìn)制文件的文章就介紹到這了,更多相關(guān)Python讀寫二進(jìn)制文件內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
python 實(shí)現(xiàn)目錄復(fù)制的三種小結(jié)
今天小編就為大家分享一篇python 實(shí)現(xiàn)目錄復(fù)制的三種小結(jié),具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-12-12python mysql斷開重連的實(shí)現(xiàn)方法
這篇文章主要介紹了python mysql斷開重連的實(shí)現(xiàn)方法,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2019-07-07Python 給定的經(jīng)緯度標(biāo)注在地圖上的實(shí)現(xiàn)方法
今天小編就為大家分享一篇Python 給定的經(jīng)緯度標(biāo)注在地圖上的實(shí)現(xiàn)方法,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-07-07Python實(shí)現(xiàn)獲取某天是某個(gè)月中的第幾周
這篇文章主要介紹了Python實(shí)現(xiàn)獲取某天是某個(gè)月中的第幾周,本文代碼實(shí)現(xiàn)獲取指定的某天是某個(gè)月中的第幾周、周一作為一周的開始,需要的朋友可以參考下2015-02-02Python使用Selenium進(jìn)行Web自動(dòng)化測試
Selenium 是一個(gè)用于 Web 應(yīng)用自動(dòng)化測試的強(qiáng)大工具,可以用來模擬用戶操作瀏覽器,從而測試 Web 應(yīng)用的功能,它支持多種瀏覽器和編程語言,包括 Python,下面我們將介紹如何使用 Selenium 進(jìn)行 Web 自動(dòng)化測試,需要的朋友可以參考下2024-08-08