最小二乘法及其python實現(xiàn)詳解
最小二乘法Least Square Method,做為分類回歸算法的基礎(chǔ),有著悠久的歷史(由馬里·勒讓德于1806年提出)。它通過最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配。利用最小二乘法可以簡便地求得未知的數(shù)據(jù),并使得這些求得的數(shù)據(jù)與實際數(shù)據(jù)之間誤差的平方和為最小。最小二乘法還可用于曲線擬合。其他一些優(yōu)化問題也可通過最小化能量或最大化熵用最小二乘法來表達(dá)。
那什么是最小二乘法呢?別著急,我們先從幾個簡單的概念說起。
假設(shè)我們現(xiàn)在有一系列的數(shù)據(jù)點 ,那么由我們給出的擬合函數(shù)h(x)得到的估計量就是
,那么怎么評估我們給出的擬合函數(shù)與實際待求解的函數(shù)的擬合程度比較高呢?這里我們先定義一個概念:殘差
, 我們估計擬合程度都是在殘差的基礎(chǔ)上進行的。下面再介紹三種范數(shù):
• ∞-范數(shù):殘差絕對值的最大值 ,即所有數(shù)據(jù)點中殘差距離的最大值
• 1-范數(shù):絕對殘差和 ,即所有數(shù)據(jù)點殘差距離之和
• 2-范數(shù):殘差平方和
前兩種范數(shù)是最容易想到,最自然的,但是不利于進行微分運算,在數(shù)據(jù)量很大的情況下計算量太大,不具有可操作性。因此一般使用的是2-范數(shù)。
說了這么多,那范數(shù)和擬合有什么關(guān)系呢?擬合程度,用通俗的話來講,就是我們的擬合函數(shù)h(x)與待求解的函數(shù)y之間的相似性。那么2-范數(shù)越小,自然相似性就比較高了。
由此,我們可以寫出最小二乘法的定義了:
對于給定的數(shù)據(jù) ,在取定的假設(shè)空間H中,求解h(x)∈H,使得殘差
的2-范數(shù)最小,即
從幾何上講,就是尋找與給定點 距離平方和最小的曲線y=h(x)。h(x)稱為擬合函數(shù)或者最小二乘解,求解擬合函數(shù)h(x)的方法稱為曲線擬合的最小二乘法。
那么這里的h(x)到底應(yīng)該長什么樣呢?一般情況下,這是一條多項式曲線:
這里h(x,w)是一個n次多項式,w是其參數(shù)。
也就是說,最小二乘法就是要找到這樣一組 ,使得
最小。
那么如何找到這樣的w,使得其擬合函數(shù)h(x)與目標(biāo)函數(shù)y具有最高擬合程度呢?即最小二乘法如何求解呢,這才是關(guān)鍵啊。
假設(shè)我們的擬合函數(shù)是一個線性函數(shù),即:
(當(dāng)然,也可以是二次函數(shù),或者更高維的函數(shù),這里僅僅是作為求解范例,所以采用了最簡單的線性函數(shù))那么我們的目標(biāo)就是找到這樣的w,
這里令 為樣本
的平方損失函數(shù)
這里的Q(w)即為我們要進行最優(yōu)化的風(fēng)險函數(shù)。
學(xué)過微積分的同學(xué)應(yīng)該比較清楚,這是一個典型的求解極值的問題,只需要分別對 18 求偏導(dǎo)數(shù),然后令偏導(dǎo)數(shù)為0,即可求解出極值點,即:
接下來只需要求解這個方程組即可解出w_i 的值
============ 分割分割 =============
上面我們講解了什么是最小二乘法,以及如何求解最小二乘解,下面我們將通過Python來實現(xiàn)最小二乘法。
這里我們把目標(biāo)函數(shù)選為y=sin(2πx),疊加上一個正態(tài)分布作為噪音干擾,然后使用多項式分布去擬合它。
代碼:
# _*_ coding: utf-8 _*_ # 作者: yhao # 博客: http://blog.csdn.net/yhao2014 # 郵箱: yanhao07@sina.com import numpy as np # 引入numpy import scipy as sp import pylab as pl from scipy.optimize import leastsq # 引入最小二乘函數(shù) n = 9 # 多項式次數(shù) # 目標(biāo)函數(shù) def real_func(x): return np.sin(2 * np.pi * x) # 多項式函數(shù) def fit_func(p, x): f = np.poly1d(p) return f(x) # 殘差函數(shù) def residuals_func(p, y, x): ret = fit_func(p, x) - y return ret x = np.linspace(0, 1, 9) # 隨機選擇9個點作為x x_points = np.linspace(0, 1, 1000) # 畫圖時需要的連續(xù)點 y0 = real_func(x) # 目標(biāo)函數(shù) y1 = [np.random.normal(0, 0.1) + y for y in y0] # 添加正太分布噪聲后的函數(shù) p_init = np.random.randn(n) # 隨機初始化多項式參數(shù) plsq = leastsq(residuals_func, p_init, args=(y1, x)) print 'Fitting Parameters: ', plsq[0] # 輸出擬合參數(shù) pl.plot(x_points, real_func(x_points), label='real') pl.plot(x_points, fit_func(plsq[0], x_points), label='fitted curve') pl.plot(x, y1, 'bo', label='with noise') pl.legend() pl.show()
輸出擬合參數(shù):
圖像如下:
從圖像上看,很明顯我們的擬合函數(shù)過擬合了,下面我們嘗試在風(fēng)險函數(shù)的基礎(chǔ)上加上正則化項,來降低過擬合的現(xiàn)象:
為此,我們只需要在殘差函數(shù)中將lambda^(1/2)p加在了返回的array的后面
regularization = 0.1 # 正則化系數(shù)lambda # 殘差函數(shù) def residuals_func(p, y, x): ret = fit_func(p, x) - y ret = np.append(ret, np.sqrt(regularization) * p) # 將lambda^(1/2)p加在了返回的array的后面 return ret
輸出擬合參數(shù):
圖像如下:
很明顯,在適當(dāng)?shù)恼齽t化約束下,可以比較好的擬合目標(biāo)函數(shù)。
注意,如果正則化項的系數(shù)太大,會導(dǎo)致欠擬合現(xiàn)象(此時的懲罰項權(quán)重特別高)
如,設(shè)置regularization=0.1時,圖像如下:
此時明顯欠擬合。所以要慎重進行正則化參數(shù)的選擇。
以上這篇最小二乘法及其python實現(xiàn)詳解就是小編分享給大家的全部內(nèi)容了,希望能給大家一個參考,也希望大家多多支持腳本之家。
相關(guān)文章
使用Python爬蟲庫requests發(fā)送表單數(shù)據(jù)和JSON數(shù)據(jù)
今天再為大家介紹下使用Python爬蟲庫requests發(fā)送表單數(shù)據(jù)和JSON數(shù)據(jù)的方法,這是最基本的使用方法,大家可以參考測試下2020-01-01python獲取當(dāng)前git的repo地址的示例代碼
大家好,當(dāng)談及版本控制系統(tǒng)時,Git是最為廣泛使用的一種,而Python作為一門多用途的編程語言,在處理Git倉庫時也展現(xiàn)了其強大的能力,本文給大家介紹了python獲取當(dāng)前git的repo地址的方法,需要的朋友可以參考下2024-09-09python實現(xiàn)輸入數(shù)字的連續(xù)加減方法
今天小編就為大家分享一篇python實現(xiàn)輸入數(shù)字的連續(xù)加減方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-06-06關(guān)于Django Models CharField 參數(shù)說明
這篇文章主要介紹了關(guān)于Django Models CharField 參數(shù)說明,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-03-03Python操作Sql Server 2008數(shù)據(jù)庫的方法詳解
這篇文章主要介紹了Python操作Sql Server 2008數(shù)據(jù)庫的方法,結(jié)合實例形式分析了Python使用pyodbc庫操作Sql Server 2008數(shù)據(jù)庫的連接、執(zhí)行sql語句、關(guān)閉連接等相關(guān)操作技巧與注意事項,需要的朋友可以參考下2018-05-05基于CentOS搭建Python Django環(huán)境過程解析
這篇文章主要介紹了基于CentOS搭建Python Django環(huán)境過程解析,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下2020-08-08