快捷導(dǎo)航

Python機(jī)器學(xué)習(xí)之隨機(jī)梯度下降法的實(shí)現(xiàn)

更新時(shí)間：2023年02月27日 09:25:59 作者：街三仔

如果當(dāng)我們數(shù)據(jù)量和樣本量非常大時(shí)，每一項(xiàng)都要參與到梯度下降，那么它的計(jì)算量時(shí)非常大的，所以我們需要采用隨機(jī)梯度下降法。本文介紹了Python實(shí)現(xiàn)隨機(jī)梯度下降法的方法，希望對(duì)大家有所幫助

隨機(jī)梯度下降法

為什么使用隨機(jī)梯度下降法？

如果當(dāng)我們數(shù)據(jù)量和樣本量非常大時(shí)，每一項(xiàng)都要參與到梯度下降，那么它的計(jì)算量時(shí)非常大的，所以我們可以采用隨機(jī)梯度下降法。

隨機(jī)梯度下降法中的學(xué)習(xí)率必須是隨著循環(huán)的次數(shù)增加而遞減的。如果eta取一樣的話有可能在非常接近我們的最優(yōu)值時(shí)會(huì)跳過(guò)，所以隨著迭代次數(shù)的增加，學(xué)習(xí)率eta要隨之減小，我們可以用模擬退火的思想實(shí)現(xiàn)（如下圖所示），t0和t1是一個(gè)常數(shù)，定值，其通常是根據(jù)經(jīng)驗(yàn)取得一些值。

隨機(jī)梯度下降法的實(shí)現(xiàn)

隨機(jī)梯度下降法的公式如下圖所示，其中挑出一個(gè)樣本出來(lái)計(jì)算。

先創(chuàng)建x，y，以下取10000個(gè)樣本

import numpy as np

m = 10000

x = np.random.random(size=m)
y = x*3 + 4 + np.random.normal(size=m)

寫(xiě)入函數(shù)

def dj_sgd(theta, x_i, y_i): # 傳入一個(gè)樣本，獲取對(duì)應(yīng)的梯度
    return x_i.T.dot(x_i.dot(theta)-y_i)*2 # MSE

def sgd(X_b, y, initial_theta, n_iters): # 求出整個(gè)theta的函數(shù)
    def learning_rate(i_iter):
        t0 = 5
        t1 = 50
        return t0/(i_iter+t1)
    theta = initial_theta
    i_iter = 1
    
    while i_iter <= n_iters:
        index = np.random.randint(0, len(X_b))
        x_i = X_b[index]
        y_i = y[index]
        gradient = dj_sgd(theta, x_i, y_i) # 求導(dǎo)數(shù)
        theta = theta - gradient*learning_rate(i_iter) # 求步長(zhǎng)
        i_iter += 1
    return theta

調(diào)用函數(shù)，求出截距和系數(shù)

以上隨機(jī)梯度的缺點(diǎn)是不能照顧到每一點(diǎn)，因此需要進(jìn)行改進(jìn)。

以下對(duì)其中的函數(shù)進(jìn)行修改。

def dj_sgd(theta, x_i, y_i): # 傳入一個(gè)樣本，獲取對(duì)應(yīng)的梯度
    return x_i.T.dot(x_i.dot(theta)-y_i)*2 # MSE

def sgd(X_b, y, initial_theta, n_iters): # 求出整個(gè)theta的函數(shù)
    def learning_rate(i_iter):
        t0 = 5
        t1 = 50
        return t0/(i_iter+t1)
    theta = initial_theta
    m = len(X_b)
    
    for cur_iter in range(n_iters): # 每一次循環(huán)都把樣本打亂，n_iters的代表整個(gè)樣本看幾輪
        random_indexs = np.random.permutation(m)
        X_random = X_b[random_indexs]
        y_random = y[random_indexs]
        for i in range(m):
            theta = theta - learning_rate(cur_iter*m+i) * (dj_sgd(theta, X_random[i], y_random[i]))
        return theta

與前邊運(yùn)算結(jié)果進(jìn)行對(duì)比，其耗時(shí)更長(zhǎng)。

到此這篇關(guān)于Python機(jī)器學(xué)習(xí)之隨機(jī)梯度下降法的實(shí)現(xiàn)的文章就介紹到這了,更多相關(guān)Python隨機(jī)梯度下降法內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: