Python的hashlib庫(kù)獲取超大文件的md5值實(shí)例探究
Python hashlib獲取文件md5值
不知道大家在工作中有沒(méi)有涉及到超大文件的讀取,在處理超大文件時(shí),如果直接將整個(gè)文件讀到內(nèi)存,然后再計(jì)算MD5值可能會(huì)占用大量?jī)?nèi)存,嚴(yán)重的情況下可能會(huì)導(dǎo)致系統(tǒng)故障。
為了減輕系統(tǒng)內(nèi)存壓力,我們通常采取分塊讀取文件內(nèi)容的方式來(lái)計(jì)算MD5。
Python的hashlib庫(kù),它支持將大文件分塊讀取并計(jì)算MD5值,從而避免一次性加載整個(gè)文件到內(nèi)存中。
import hashlib
import os
def get_file_md5(file_path, block_size=2 ** 20): # 默認(rèn)塊大小為1MB
md5_hash = hashlib.md5()
with open(file_path, "rb") as f:
while True:
data = f.read(block_size)
if not data:
break
md5_hash.update(data)
return md5_hash.hexdigest()
# 使用方法
file_path_large_file = r"E:\xxxxxxx\Win10_64位專業(yè)版本.ISO"
md5_value = get_file_md5(file_path_large_file)
print(f"大文件的大小是:{os.path.getsize(file_path_large_file)/1024/1024/1024:.2f}GB")
print(f"大文件的MD5值是:{md5_value}") 測(cè)試5.42G操作系統(tǒng)文件
我自己找了一個(gè)5.42G操作系統(tǒng)文件來(lái)測(cè)試了下,運(yùn)行過(guò)程計(jì)算機(jī)內(nèi)存的使用率并沒(méi)有明顯增加,表現(xiàn)很平穩(wěn)。


內(nèi)存利用率變化
可能大家看到這里不能明顯感受到分塊讀取文件和一次性將大文件讀入內(nèi)存的差異,我下面的函數(shù)去掉了分塊讀取的設(shè)置,我們?cè)賮?lái)看下內(nèi)存利用率的變化
def get_file_md52(file_path): # 這里去掉了塊大小的設(shè)置
md5_hash = hashlib.md5()
with open(file_path, "rb") as f:
while True:
data = f.read() # 這里是一次性將文件讀入內(nèi)存
if not data:
break
md5_hash.update(data)
return md5_hash.hexdigest()
# 使用方法
file_path_large_file = r"E:\xxxxxx\Win10_64位專業(yè)版本.ISO"
md5_value = get_file_md52(file_path_large_file)
print(f"大文件的大小是:{os.path.getsize(file_path_large_file)/1024/1024/1024:.2f}GB")
print(f"大文件的MD5值是:{md5_value}")

通過(guò)上面的內(nèi)存利用率截圖,我們可以看到如果不設(shè)置分塊讀取,內(nèi)存利用率會(huì)明顯升高,在工作中這種操作會(huì)存在較大風(fēng)險(xiǎn),所以,各位同學(xué)應(yīng)該盡量避免這種操作方式。
當(dāng)然了,分塊讀取超大文件的操作,不僅適用于計(jì)算md5值,同樣可以用在其他讀取文件內(nèi)容的場(chǎng)景。希望各位同學(xué)可以靈活使用。
以上就是Python的hashlib庫(kù)獲取超大文件的md5值實(shí)例探究的詳細(xì)內(nèi)容,更多關(guān)于Python hashlib獲取文件md5值的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
- Python文本特征抽取與向量化算法學(xué)習(xí)
- python Boltons庫(kù)實(shí)用功能探索(深度復(fù)制類型檢查重試機(jī)制)
- python uvloop事件循環(huán)庫(kù)使用功能示例探究
- python html2text庫(kù)將HTML文檔轉(zhuǎn)換為純文本格式使用示例探索
- python?Prophet時(shí)間序列預(yù)測(cè)工具庫(kù)使用功能探索
- Python flashtext文本搜索和替換操作庫(kù)功能使用探索
- python ftfy庫(kù)處理金融方面文件編碼錯(cuò)誤實(shí)例詳解
- python庫(kù)TextDistance量化文本之間的相似度算法探究
相關(guān)文章
python:接口間數(shù)據(jù)傳遞與調(diào)用方法
今天小編就為大家分享一篇python:接口間數(shù)據(jù)傳遞與調(diào)用方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-12-12
利用Python如何將數(shù)據(jù)寫到CSV文件中
在數(shù)據(jù)分析中經(jīng)常需要從csv格式的文件中存取數(shù)據(jù)以及將數(shù)據(jù)寫書(shū)到csv文件中。下面這篇文章主要給大家介紹了關(guān)于利用Python如何將數(shù)據(jù)寫到CSV文件中的相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),需要的朋友可以參考下2018-06-06
Python有關(guān)Unicode UTF-8 GBK編碼問(wèn)題詳解
本文主要介紹了Python有關(guān)Unicode UTF-8 GBK編碼問(wèn)題詳解,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2022-08-08
python機(jī)器學(xué)習(xí)使數(shù)據(jù)更鮮活的可視化工具Pandas_Alive
今天我分享大家一款非常棒的動(dòng)畫(huà)可視化工具:Pandas_Alive,它以?matplotlib?繪圖為后端,不僅可以創(chuàng)建出令人驚嘆的動(dòng)畫(huà)可視化,而且使用方法非常簡(jiǎn)單。本文詳情如下2021-11-11

