利用python實現(xiàn)3種梯度下降算法
全量梯度下降
Batch Gradient Descent
在梯度下降中,對于θ的更新,所有的樣本都有貢獻(xiàn),也就是參與調(diào)整θ。其計算得到 的是一個標(biāo)準(zhǔn)梯度。因而理論上來說一次更新的幅度是比較大的。如果樣本不多的情況下, 當(dāng)然是這樣收斂的速度會更快啦。全量梯度下降每次學(xué)習(xí)都使用整個訓(xùn)練集,因此其優(yōu)點在 于每次更新都會朝著正確的方向進(jìn)行,最后能夠保證收斂于極值點(凸函數(shù)收斂于全局極值 點,非凸函數(shù)可能會收斂于局部極值點),但是其缺點在于每次學(xué)習(xí)時間過長,并且如果訓(xùn) 練集很大以至于需要消耗大量的內(nèi)存,并且全量梯度下降不能進(jìn)行在線模型參數(shù)更新。
代碼實現(xiàn):
import numpy as np # 創(chuàng)建數(shù)據(jù)集X,y np.random.seed(1) X = np.random.rand(100, 1) y = 4 + 3*X + np.random.randn(100, 1) X_b = np.c_[np.ones((100, 1)), X] # 創(chuàng)建超參數(shù) n_iterations = 10000 t0, t1 = 5, 500 # 定義一個函數(shù)來動態(tài)調(diào)整學(xué)習(xí)率 def learning_rate_schedule(t): return t0/(t+t1) # 1,初始化θ, W0...Wn,標(biāo)準(zhǔn)正太分布創(chuàng)建W theta = np.random.randn(2, 1) # 4,判斷是否收斂,一般不會去設(shè)定閾值,而是直接采用設(shè)置相對大的迭代次數(shù)保證可以收斂 for i in range(n_iterations): # 2,求梯度,計算gradient gradients = X_b.T.dot(X_b.dot(theta)-y) # 3,應(yīng)用梯度下降法的公式去調(diào)整θ值 θt+1=θt-η*gradient learning_rate = learning_rate_schedule(i) theta = theta - learning_rate * gradients print(theta)
[[4.23695725] [2.68492509]]
隨機(jī)梯度下降
Stochastic Gradient Descent
梯度下降算法每次從訓(xùn)練集中隨機(jī)選擇一個樣本來進(jìn)行學(xué)習(xí)。批量梯度下降算法每次都 會使用全部訓(xùn)練樣本,因此這些計算是冗余的,因為每次都使用完全相同的樣本集。而隨機(jī) 梯度下降算法每次只隨機(jī)選擇一個樣本來更新模型參數(shù),因此每次的學(xué)習(xí)是非??焖俚?,并 且可以進(jìn)行在線更新。隨機(jī)梯度下降最大的缺點在于每次更新可能并不會按照正確的方向進(jìn) 行,因此可以帶來優(yōu)化波動(擾動)。
不過從另一個方面來看,隨機(jī)梯度下降所帶來的波動有個好處就是,對于類似盆地區(qū)域 (即很多局部極小值點)那么這個波動的特點可能會使得優(yōu)化的方向從當(dāng)前的局部極小值點 跳到另一個更好的局部極小值點,這樣便可能對于非凸函數(shù),最終收斂于一個較好的局部極 值點,甚至全局極值點。由于波動,因此會使得迭代次數(shù)(學(xué)習(xí)次數(shù))增多,即收斂速度變 慢。不過最終其會和全量梯度下降算法一樣,具有相同的收斂性,即凸函數(shù)收斂于全局極值 點,非凸損失函數(shù)收斂于局部極值點。
代碼實現(xiàn):
import numpy as np # 創(chuàng)建數(shù)據(jù)集 X = 2*np.random.rand(100, 1) y = 4 + 3*X + np.random.randn(100, 1) X_b = np.c_[np.ones((100, 1)), X] # 創(chuàng)建超參數(shù) n_epochs = 10000 m = 100 t0, t1 = 5, 500 # 定義一個函數(shù)來調(diào)整學(xué)習(xí)率 def learning_rate_schedule(t): return t0/(t+t1) theta = np.random.randn(2, 1) for epoch in range(n_epochs): # 在雙層for循環(huán)之間,每個輪次開始分批次迭代之前打亂數(shù)據(jù)索引順序 arr = np.arange(len(X_b)) np.random.shuffle(arr) X_b = X_b[arr] y = y[arr] for i in range(m): xi = X_b[i:i+1] yi = y[i:i+1] gradients = xi.T.dot(xi.dot(theta)-yi) learning_rate = learning_rate_schedule(epoch*m + i) theta = theta - learning_rate * gradients print(theta)
[[3.91306085] [3.16087742]]
小批量梯度下降
Mini-Batch Gradient Descent
Mini-batch 梯度下降綜合了 batch 梯度下降與 stochastic 梯度下降,在每次更新速 度與更新次數(shù)中間取得一個平衡,其每次更新從訓(xùn)練集中隨機(jī)選擇 batch_size,batch_size < m 個樣本進(jìn)行學(xué)習(xí)。相對于隨機(jī)梯度下降算法,小批量梯度下降算法降低了收斂波動性, 即降低了參數(shù)更新的方差,使得更新更加穩(wěn)定。相對于全量梯度下降,其提高了每次學(xué)習(xí)的速度。并且其不用擔(dān)心內(nèi)存瓶頸從而可以利用矩陣運算進(jìn)行高效計算。一般而言每次更新隨 機(jī)選擇[50,256]個樣本進(jìn)行學(xué)習(xí),但是也要根據(jù)具體問題而選擇,實踐中可以進(jìn)行多次試驗, 選擇一個更新速度與更次次數(shù)都較適合的樣本數(shù)。
代碼實現(xiàn):
import numpy as np # 創(chuàng)建數(shù)據(jù)集X,y X = 2*np.random.rand(100, 1) y = 4 + 3*X + np.random.randn(100, 1) X_b = np.c_[np.ones((100, 1)), X] # 創(chuàng)建超參數(shù) t0, t1 = 5, 500 # 定義一個函數(shù)來動態(tài)調(diào)整學(xué)習(xí)率 def learning_rate_schedule(t): return t0/(t+t1) n_epochs = 100000 m = 100 batch_size = 10 num_batches = int(m / batch_size) theta = np.random.randn(2, 1) for epoch in range(n_epochs): arr = np.arange(len(X_b)) np.random.shuffle(arr) X_b = X_b[arr] y = y[arr] for i in range(num_batches): x_batch = X_b[i*batch_size: i*batch_size + batch_size] y_batch = y[i*batch_size: i*batch_size + batch_size] gradients = x_batch.T.dot(x_batch.dot(theta)-y_batch) learning_rate = learning_rate_schedule(epoch * m + i) theta = theta - learning_rate*gradients print(theta)
[[3.91630905] [2.95252566]]
三種梯度下降區(qū)別和優(yōu)缺點
在講三種梯度下降區(qū)別之前,我們先來總結(jié)一下梯度下降法的步驟:
1. 瞎蒙,Random 隨機(jī)θ,隨機(jī)一組數(shù)值 W0…Wn
2. 求梯度,為什么是梯度?因為梯度代表曲線某點上的切線的斜率,沿著切線往下下降就 相當(dāng)于沿著坡度最陡峭的方向下降
3. if g0, theta 往小調(diào)
4. 判斷是否收斂 convergence,如果收斂跳出迭代,如果沒有達(dá)到收斂,回第 2 步繼續(xù) 四步驟對應(yīng)計算方式:
a. np.random.rand()或者 np.random.randn()
b. i w j gradient = (h (x) - y)× x
c. Wi t+1 =Wi t -h ×gradient i
d. 判斷收斂這里使用 g=0 其實并不合理,因為當(dāng)損失函數(shù)是非凸函數(shù)的話 g=0 有可能是 極大值對嗎!所以其實我們判斷 loss 的下降收益更合理,當(dāng)隨著迭代 loss 減小的幅度 即收益不再變化就可以認(rèn)為停止在最低點,收斂!
區(qū)別:其實三種梯度下降的區(qū)別僅在于第 2 步求梯度所用到的 X 數(shù)據(jù)集的樣本數(shù)量不同! 它們每次學(xué)習(xí)(更新模型參數(shù))使用的樣本個數(shù),每次更新使用不同的樣本會導(dǎo)致每次學(xué)習(xí)的 準(zhǔn)確性和學(xué)習(xí)時間不同
以上就是利用python實現(xiàn)3種梯度下降算法的詳細(xì)內(nèi)容,更多關(guān)于python梯度下降算法的資料請關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
python判斷列表字典字符串元組是否存在某個值或者空值(多種方法)
這篇文章主要介紹了python判斷列表字典字符串元組是否存在某個值或者空值,本文通過實例代碼給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友參考下吧2024-02-02python從sqlite讀取并顯示數(shù)據(jù)的方法
這篇文章主要介紹了python從sqlite讀取并顯示數(shù)據(jù)的方法,涉及Python操作SQLite數(shù)據(jù)庫的讀取及顯示相關(guān)技巧,需要的朋友可以參考下2015-05-05python3 selenium 切換窗口的幾種方法小結(jié)
今天小編就為大家分享一篇python3 selenium 切換窗口的幾種方法小結(jié),具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-05-05關(guān)于Python調(diào)用百度語音合成SDK實現(xiàn)文字轉(zhuǎn)音頻的方法
這篇文章主要介紹了關(guān)于Python調(diào)用百度語音合成SDK實現(xiàn)文字轉(zhuǎn)音頻的方法,AipSpeech是語音合成的Python?SDK客戶端,為使用語音合成的開發(fā)人員提供了一系列的交互方法,需要的朋友可以參考下2023-07-07