python項目運行導致內(nèi)存越來越大的原因詳析
問題描述:
目前遇到的問題是這樣的,爬蟲程序部署到K8S服務器上運行,但是會過幾個小時之后,程序就會被主動殺掉重啟,原因是因為內(nèi)存過載,超過K8S設置的4G。
程序運行現(xiàn)象分析:
在線下進行程序測試時,未讓程序長時間運行(及4-5個小時),程序無異常則直接上測試環(huán)境測試,然后部署上線了運行了。
通過線下觀察,確實程序使用內(nèi)存會因為時間而不斷增加
增長的速度雖然不是很快,但卻是在穩(wěn)定增加,說明程序中存在內(nèi)存使用未被釋放。
嘗試解決:
根據(jù)上網(wǎng)提供的方案,
import gc
gc.collect()
無效,該增加還是在增加,說明不是全局的內(nèi)存使用未被釋放,內(nèi)存回收正常。
通過斷點調(diào)試,發(fā)現(xiàn),程序在使用代理的時候,內(nèi)存才會增加
程序每次運行時會去獲取一個代理賦值到session的proxies中,程序使用的是多線程,則單位時間內(nèi)會有大量的代理信息會賦值到session中。
通過注釋掉獲取代理的這一步,發(fā)現(xiàn)確實內(nèi)存不在繼續(xù)增加。
原因分析:
Session對象存儲特定用戶會話所需的屬性及配置信息,,存儲在Session對象中的變量將不會丟失,而是在整個用戶會話中一直存在下去。所以隨著時間的推移,session中記錄的proxies信息就會越來越多,最終導致內(nèi)存使用過大,程序被殺。
解決方法:
不使用session進行請求,使用原生requests.get即可。
總結(jié)
到此這篇關于python項目運行導致內(nèi)存越來越大的原因詳析的文章就介紹到這了,更多相關python項目運行內(nèi)存越來越大內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!