隨機(jī)梯度下降法就在隨機(jī)梯度上。意思就是說當(dāng)我們?cè)诔跏键c(diǎn)時(shí)想找到下一點(diǎn)的梯度，這個(gè)點(diǎn)是隨機(jī)的。全批量梯度下降是從一個(gè)點(diǎn)接著一點(diǎn)是有順序的，全部數(shù)據(jù)點(diǎn)都要求梯度且有順序。

全批量梯度下降雖然穩(wěn)定，但速度較慢；

SGD雖然快，但是不夠穩(wěn)定

隨機(jī)梯度下降法

隨機(jī)梯度下降法（Stochastic Gradient Decent,
SGD）是對(duì)全批量梯度下降法計(jì)算效率的改進(jìn)算法。本質(zhì)上來說，我們預(yù)期隨機(jī)梯度下降法得到的結(jié)果和全批量梯度下降法相接近；SGD的優(yōu)勢(shì)是更快地計(jì)算梯度。

代碼

'''
隨機(jī)梯度下降法（Stochastic Gradient Decent, SGD）
是對(duì)全批量梯度下降法計(jì)算效率的改進(jìn)算法。本
質(zhì)上來說，我們預(yù)期隨機(jī)梯度下降法得到的結(jié)果和全批量梯度下降法相接近；
SGD的優(yōu)勢(shì)是更快地計(jì)算梯度。
'''
import pandas as pd
import numpy as np
import os
os.getcwd()
# F:\\pythonProject3\\data\\data\\train.csv
# dataset_path = '..'
# 這是一個(gè)全批量梯度下降（full-batch gradient descent）的應(yīng)用。
# 這個(gè)問題是一個(gè)回歸問題
# 我們給出美國某大型問答社區(qū)從2010年10月1日到2016年11月30日，
# 每天新增的問題的個(gè)數(shù)和回答的個(gè)數(shù)。
# 任務(wù)是預(yù)測(cè)2016年12月1日到2017年5月1日，該問答網(wǎng)站每天新增的問題數(shù)和回答數(shù)。
train = pd.read_csv('..\\train.csv')
# 導(dǎo)入數(shù)據(jù)
# train = pd.read_csv('train.csv')
test = pd.read_csv('..\\test.csv')
submit = pd.read_csv('..\\sample_submit.csv')
path1=os.path.abspath('.')
print("path1@@@@@",path1)
path2=os.path.abspath('..')
print("path2@@@@@",path2)
print(train)
# 初始設(shè)置
beta = [1,1] #初始點(diǎn)
alpha = 0.2 #學(xué)習(xí)率，也就是步長
tol_L = 0.1 #閾值，也就是精度
# 對(duì)x進(jìn)行歸一化,train 是訓(xùn)練數(shù)據(jù)的二維表格
max_x = max(train['id']) #max_x是總共的id數(shù)
x = train['id'] / max_x #所有的id都除于max_x
y = train['questions'] # train二維表格中的questions列賦給y
type(train['id'])
print("train['id']#######\n",train['id'])
print("type(train['id'])###\n\n",x)
print("max_x#######",max_x)
#為了計(jì)算方向
def compute_grad_SGD(beta, x, y):
    '''
    :param beta: 是初始點(diǎn)
    :param x: 是自變量
    :param y: 是真是值
    :return: 梯度數(shù)組
    '''
    grad = [0, 0]
    r = np.random.randint(0, len(x)) #在0-len(x)之間隨機(jī)生成一個(gè)數(shù)
    grad[0] = 2. * np.mean(beta[0] + beta[1] * x[r] - y[r]) #求beta[1,1]，中第1個(gè)數(shù)的梯度
    grad[1] = 2. * np.mean(x * (beta[0] + beta[1] * x - y))#求beta[1,1]，中第2個(gè)數(shù)的梯度
    return np.array(grad)
#為了計(jì)算下一個(gè)點(diǎn)在哪，
def update_beta(beta, alpha, grad):
    '''
    :param beta: 第一點(diǎn)，初始點(diǎn)
    :param alpha: 學(xué)習(xí)率，也就時(shí)步長
    :param grad: 梯度
    :return:
    '''
    new_beta = np.array(beta) - alpha * grad
    return new_beta
# 定義計(jì)算RMSE的函數(shù)
# 均方根誤差（RMSE）
def rmse(beta, x, y):
    squared_err = (beta[0] + beta[1] * x - y) ** 2 # beta[0] + beta[1] * x是預(yù)測(cè)值，y是真實(shí)值，
    res = np.sqrt(np.mean(squared_err))
    return res
# 進(jìn)行第一次計(jì)算
grad = compute_grad_SGD(beta, x, y) #調(diào)用計(jì)算梯度函數(shù)，計(jì)算梯度
loss = rmse(beta, x, y) #調(diào)用損失函數(shù)，計(jì)算損失
beta = update_beta(beta, alpha, grad) #更新下一點(diǎn)
loss_new = rmse(beta, x, y) #調(diào)用損失函數(shù)，計(jì)算下一個(gè)損失
# 開始迭代
i = 1
while np.abs(loss_new - loss) > tol_L:
    beta = update_beta(beta, alpha, grad)
    grad = compute_grad_SGD(beta, x, y)
    if i % 100 == 0:
        loss = loss_new
        loss_new = rmse(beta, x, y)
        print('Round %s Diff RMSE %s'%(i, abs(loss_new - loss)))
    i += 1
print('Coef: %s \nIntercept %s'%(beta[1], beta[0]))
res = rmse(beta, x, y)
print('Our RMSE: %s'%res)
from sklearn.linear_model import LinearRegression
lr = LinearRegression()
lr.fit(train[['id']], train[['questions']])
print('Sklearn Coef: %s'%lr.coef_[0][0])
print('Sklearn Coef: %s'%lr.intercept_[0])
res = rmse([936.051219649, 2.19487084], train['id'], y)
print('Sklearn RMSE: %s'%res)