數(shù)據(jù)挖掘常見面試題與參考答案簡析

機(jī)器學(xué)習(xí)方面:
SVM
1、支撐平面-和支持向量交互的平面,分割平面---支持平面中間面也就是最優(yōu)分類平面
2、SVM不是定義損失,而是定義支持向量之間的距離目標(biāo)函數(shù)
3、正則化參數(shù)對(duì)支持向量數(shù)的影響
LR
1、LR的形式:h(x)=g(f(x)) 其中x為原數(shù)據(jù),f(x)為線性/非線性回歸得到的值,也叫判定邊界 g()為Sigmod函數(shù),最終h(x)輸出的范圍為(0,1)
LR對(duì)樣本分布敏感
LR和樸素貝葉斯(NB)之間的區(qū)別
LR是loss最優(yōu)化求出的 NB是跳過統(tǒng)計(jì)Loss最優(yōu),直接得出權(quán)重的 NB比LR多了一個(gè)條件獨(dú)立假設(shè) LR屬于判別模型 NB是生成模型
在機(jī)器學(xué)習(xí)中,LR和SVM有什么區(qū)別?
兩者都可以處理非線性的問題;LR和SVM最初都是針對(duì)二分類問題的,SVM最大化間隔平面,LR極大似然估計(jì),SVM只能輸出類別,不能輸出概率,兩者LOSS function 不同,LR的可解釋性更強(qiáng),SVM自帶有約束的正則化
LR為什么用sigmod函數(shù),這個(gè)函數(shù)有什么優(yōu)點(diǎn)和缺點(diǎn)?為什么不用其他函數(shù)?
LR只能用于處理二分類,而Sigmod對(duì)于所有的輸入,得到的輸出接近0或者 1
Sigmod存在的問題,梯度消失、他的輸出不是關(guān)于原點(diǎn)對(duì)稱的導(dǎo)致收斂速度非常慢,計(jì)算非常耗時(shí)間
Tanh激活桉樹存在的問題:梯度消失,計(jì)算耗時(shí),但是其輸出的是中心對(duì)稱的
Relu:其輸出不關(guān)于原點(diǎn)對(duì)稱:反向傳播時(shí),輸入的神經(jīng)元小于0時(shí),會(huì)有梯度消失問題,當(dāng)x=0是,該點(diǎn)的梯度不存在(沒有定義)
Relu問題:權(quán)重初始化不當(dāng),出事學(xué)習(xí)率設(shè)置的非常大
SVM原問題和對(duì)偶問題關(guān)系?
SVM對(duì)偶問題的獲得方法:將原問題的目標(biāo)函數(shù)L和約束條件構(gòu)造拉格朗日函數(shù),再對(duì)L中原參數(shù)和lambda、miu分別求導(dǎo),并且三種導(dǎo)數(shù)都等于0;再將等于0的三個(gè)導(dǎo)數(shù)帶入原目標(biāo)函數(shù)中,即可獲得對(duì)偶問題的目標(biāo)函數(shù)
關(guān)系:原問題的最大值相對(duì)于對(duì)偶問題的最小值
KKT(Karysh-Kuhn-Tucker)條件有哪些,完整描述?
KKT條件是思考如何把約束優(yōu)化轉(zhuǎn)化為無約束優(yōu)化à進(jìn)而求約束條件的極值點(diǎn)
決策樹過擬合哪些方法,前后剪枝
決策樹對(duì)訓(xùn)練屬性有很好的分類能力;但對(duì)位置的測(cè)試數(shù)據(jù)未必有好的分類能力,泛化能力弱,即發(fā)生過擬合
防止過擬合的方法:剪枝(把一些相關(guān)的屬性歸為一個(gè)大類,減少?zèng)Q策樹的分叉);隨機(jī)森林
L1正則為什么可以把系數(shù)壓縮成0,坐標(biāo)回歸的具體實(shí)現(xiàn)細(xì)節(jié)?
L1正則化可以實(shí)現(xiàn)稀疏(即截?cái)啵?,使?xùn)練得到的權(quán)重為0;
l1正則會(huì)產(chǎn)生稀疏解,即不相關(guān)的的特征對(duì)應(yīng)的權(quán)重為0,就相當(dāng)于降低了維度。但是l1的求解復(fù)雜度要高于l2,并且l1更為流行
正則化就是對(duì)loss進(jìn)行懲罰(加了正則化項(xiàng)之后,使loss不可能為0,lambda越大懲罰越大-->lambda較小時(shí),約束小,可能仍存在過擬合;太大時(shí),使loss值集中于正則化的值上)
正則化使用方法:L1/L2/L1+L2
LR在特征較多時(shí)可以進(jìn)行怎樣的優(yōu)化?-->L1正則有特征選擇的作用
如果是離線的話,L1正則可以有稀疏解,batch大點(diǎn)應(yīng)該也有幫助,在線的解決思路有ftrl,rds,robots,還有阿里的mlr。當(dāng)然還可以用gbdt,fm,ffm做一些特性選擇和組合應(yīng)該也有效果。
機(jī)器學(xué)習(xí)里面的聚類和分類模型有哪些?
分類:LR、SVM、KNN、決策樹、RandomForest、GBDT
回歸:non-Linear regression、SVR(支持向量回歸-->可用線性或高斯核(RBF))、隨機(jī)森林
聚類:Kmeans、層次聚類、GMM(高斯混合模型)、譜聚類
聚類算法(可以作為監(jiān)督學(xué)習(xí)中稀疏特征的處理):Kmeans、層次聚類、GMM(高斯混合模型)
聚類算法唯一用到的信息是樣本和樣本之間的相似度。
評(píng)判聚類效果準(zhǔn)則:高類間距,低類內(nèi)距;高類內(nèi)相似度,低類間相似度。
相似度與距離負(fù)相關(guān)。
圖像之間的距離的度量是對(duì)每個(gè)像素操作,最后獲得距離
正則化為什么能防止過擬合?
過擬合表現(xiàn)在訓(xùn)練數(shù)據(jù)上的誤差非常小,而在測(cè)試數(shù)據(jù)上誤差反而增大。其原因一般是模型過于復(fù)雜,過分得去擬合數(shù)據(jù)的噪聲. 正則化則是對(duì)模型參數(shù)添加先驗(yàn),使得模型復(fù)雜度較小,對(duì)于噪聲的輸入擾動(dòng)相對(duì)較小。
正則化時(shí),相當(dāng)于是給模型參數(shù)w 添加了一個(gè)協(xié)方差為1/lambda 的零均值高斯分布先驗(yàn)。對(duì)于lambda =0,也就是不添加正則化約束,則相當(dāng)于參數(shù)的高斯先驗(yàn)分布有著無窮大的協(xié)方差,那么這個(gè)先驗(yàn)約束則會(huì)非常弱,模型為了擬合所有的訓(xùn)練數(shù)據(jù),w可以變得任意大不穩(wěn)定。lambda越大,表明先驗(yàn)的高斯協(xié)方差越小,模型越穩(wěn)定,相對(duì)的variance(方差)也越小。
相關(guān)文章
2019年測(cè)試工程師常見面試題與參考答案小結(jié)
這篇文章主要介紹了2019年測(cè)試工程師常見面試題與參考答案,總結(jié)分析了測(cè)試工程師面試過程中比較常見的各類問題、知識(shí)點(diǎn)與相關(guān)注意事項(xiàng),需要的朋友可以參考下2019-10-14- 這篇文章主要介紹了華為云計(jì)算電話面試與參考答案,總結(jié)分析了華為云計(jì)算電話面試中所遇到的各種問題與相應(yīng)的參考答案,包括云計(jì)算相關(guān)的常見概念、原理與考察知識(shí)點(diǎn),需要的2019-10-12
- 這篇文章主要介紹了云計(jì)算常見面試題及參考答案,涉及云計(jì)算常見的概念、原理、知識(shí)點(diǎn)與相關(guān)注意事項(xiàng),需要的朋友可以參考下2019-10-11
- 這篇文章主要介紹了騰訊面試算法題之編碼問題,結(jié)合具體案例形式分析了基于java的編碼轉(zhuǎn)換相關(guān)算法原理與操作技巧,需要的朋友可以參考下2019-10-08
- 這篇文章主要介紹了網(wǎng)易游戲面試經(jīng)歷,總結(jié)記錄了網(wǎng)易游戲招聘面試所經(jīng)歷的流程及各個(gè)面試環(huán)節(jié)所遇到的問題,需要的朋友可以參考下2019-09-30
- 這篇文章主要介紹了Java多線程與并發(fā)面試題(小結(jié)),小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧2019-09-26
- 這篇文章主要介紹了騰訊游戲客戶端開發(fā)面試經(jīng)歷,總結(jié)分享了騰訊游戲客戶端開發(fā)面試所涉及到的考點(diǎn)與注意事項(xiàng),需要的朋友可以參考下2019-09-20
華為Java社招面試經(jīng)歷詳解【已拿到offer】
這篇文章主要介紹了華為Java社招面試經(jīng)歷,詳細(xì)記錄了華為java面試的流程、相關(guān)面試題與參考答案,需要的朋友可以參考下2019-09-17- 這篇文章主要介紹了大數(shù)據(jù)工程師面試題與參考答案,總結(jié)整理了大數(shù)據(jù)相關(guān)的基本概念、原理、知識(shí)點(diǎn)與注意事項(xiàng),需要的朋友可以參考下2019-09-16
大數(shù)據(jù)基礎(chǔ)面試題考點(diǎn)與知識(shí)點(diǎn)整理
這篇文章主要介紹了大數(shù)據(jù)基礎(chǔ)面試題考點(diǎn)與知識(shí)點(diǎn),總結(jié)整理了大數(shù)據(jù)常見的各種知識(shí)點(diǎn)、難點(diǎn)、考點(diǎn)以及相關(guān)注意事項(xiàng),需要的朋友可以參考下2019-09-09