數(shù)據(jù)分析崗面試題與參考答案解析

發(fā)布時間：2019-12-13 14:08:19 作者：小力子～

這篇文章主要介紹了數(shù)據(jù)分析崗面試題與參考答案,總結(jié)分析了數(shù)據(jù)分析崗位招聘的常見面試題所涉及的知識點與參考答案,需要的朋友可以參考下

1.怎么做惡意刷單檢測？

a. 選取特征利用機(jī)器學(xué)習(xí)方法做分類。
特征： 結(jié)合商家特征和環(huán)境特征做商家惡意刷單分類預(yù)測，結(jié)合用戶行為特征和環(huán)境特征做用戶惡意刷單分類預(yù)測。
1）商家特征：商家歷史銷量、信用、產(chǎn)品類別、發(fā)貨快遞公司等。
2）用戶行為特征：用戶信用、下單量、下單路徑、瀏覽店鋪行為、支付賬號。
3）環(huán)境特征（主要是避免機(jī)器刷單）：地區(qū)、ip、手機(jī)型號等。
注：構(gòu)造特征。刷單的評論文本可能套路較為一致，計算與已標(biāo)注評論文本的相似度作為特征。
機(jī)器學(xué)習(xí)方法： 決策樹，感知機(jī)，邏輯回歸，支持向量機(jī)，隨機(jī)森林
b. 異常檢測：ip地址經(jīng)常變動（固定時間內(nèi)變動次數(shù)）、賬號近期交易成功率上升（固定時間內(nèi)交易成功率）------利用箱型圖進(jìn)行結(jié)構(gòu)化檢測。
機(jī)器學(xué)習(xí)中的異常檢測手段：
1）總體來講，異常檢測問題可以概括為兩類：一是對結(jié)構(gòu)化數(shù)據(jù)的異常檢測，二是對非結(jié)構(gòu)化數(shù)據(jù)（通過對圖像目標(biāo)檢測，識別出異常點）的異常檢測。
2）對結(jié)構(gòu)化數(shù)據(jù)的異常檢測的解決思想主要是通過找出與正常數(shù)據(jù)集差異較大的離群點，把離群點作為異常點。常常面臨的問題有二：一是需要定義一個清晰的決策邊界，從而界定正常點與異常點；二是維數(shù)災(zāi)難及交叉指標(biāo)計算之間的高頻計算性能瓶頸。
3）結(jié)構(gòu)化的數(shù)據(jù)的異常檢測手段：圖形位置分布（箱型圖），統(tǒng)計方法檢測（切比雪夫不等式的方法能夠有效地劃分出三個類別，包括正常數(shù)據(jù)、異常數(shù)據(jù)、未知數(shù)據(jù)）+距離檢測（距離位置檢測有一個非常強(qiáng)的假設(shè)：正常的數(shù)據(jù)都比較集中，有較多的鄰居，而異常數(shù)據(jù)都特立獨(dú)行。未知數(shù)據(jù)的簇里面尋找出與正常數(shù)據(jù)更不相似的，或者和異常數(shù)據(jù)更相似的數(shù)據(jù)就可以了。）

2.K-means算法

a. k-means原理: 隨機(jī)選擇k個中心點，把每個數(shù)據(jù)點分配到離它最近的中心點，重新計算每個簇的質(zhì)心，直到質(zhì)心不發(fā)生變化。
b. 改進(jìn)：
1） kmeans++：初始隨機(jī)點選擇盡可能遠(yuǎn)，避免陷入局部解。
2 ) ISODATA：對于難以確定k的時候，使用該方法。思路是當(dāng)類下的樣本小時，剔除；類下樣本數(shù)量多時，拆分。
3 )kernel kmeans：kmeans用歐氏距離計算相似度，也可以使用kernel映射到高維空間再聚類。
c. 遇到異常值:
1 )局部異常因子LOF：如果點p的密度明顯小于其鄰域點的密度，那么點p可能是異常值.。
2 ) 使用PCA或自動編碼機(jī)進(jìn)行異常點檢測：使用降維后的維度作為新的特征空間，其降維結(jié)果可以認(rèn)為剔除了異常值的影響（因為過程是保留使投影后方差最大的投影方向）。
3 ) winsorize：對于簡單的，可以對單一維度做上下截取。
d. 評估聚類算法的指標(biāo)：

1 ) 外部法（基于有標(biāo)注）：Jaccard系數(shù)、純度

2 ) 內(nèi)部法（無標(biāo)注）：內(nèi)平方和WSS和外平方和BSS

3 ) 此外還要考慮到算法的時間空間復(fù)雜度、聚類穩(wěn)定性等
e. k-means算法的問題: 對異常值和初值敏感。當(dāng)有異常值是，質(zhì)心可能就會離大多數(shù)點比較遠(yuǎn)。比如1,2,3,4,100五個樣本，均值是22，這樣類別中心就離樣本較遠(yuǎn)，這時選取中位數(shù)做為質(zhì)心是更好的選擇，這就是k-Mediods（k-中值）聚類算法。同時k-means是初值敏感的，即當(dāng)選取不同的初始值時分類結(jié)果可能不同。
f. K值的選擇
1）這個真的沒有確定的做法，分幾類主要取決于個人的經(jīng)驗與感覺，通常的做法是多嘗試幾個K值，看分成幾類的結(jié)果更好解釋，更符合分析目的等。
2）對于難以確定k的時候，使用ISODATA，思路是當(dāng)類下的樣本小時，剔除；類下樣本數(shù)量多時，拆分。
3）手肘法，當(dāng)k小于真實聚類數(shù)時，由于k的增大會大幅增加每個簇的聚合程度，故SSE的下降幅度會很大，而當(dāng)k到達(dá)真實聚類數(shù)時，再增加k所得到的聚合程度回報會迅速變小，所以SSE的下降幅度會驟減，然后隨著k值的繼續(xù)增大而趨于平緩，也就是說SSE和k的關(guān)系圖是一個手肘的形狀，而這個肘部對應(yīng)的k值就是數(shù)據(jù)的真實聚類數(shù)。
4）使用輪廓系數(shù)(silhouette coefficient)來確定，選擇使系數(shù)較大所對應(yīng)的k值
kmeans最優(yōu)k值的確定方法-手肘法和輪廓系數(shù)法：https://www.jianshu.com/p/335b376174d4
g.初始的K個質(zhì)心怎么選？
最常用的方法是隨機(jī)選，初始質(zhì)心的選取對最終聚類結(jié)果有影響，因此算法一定要多執(zhí)行幾次，哪個結(jié)果更reasonable，就用哪個結(jié)果。當(dāng)然也有一些優(yōu)化的方法，第一種是選擇彼此距離最遠(yuǎn)的點，具體來說就是先選第一個點，然后選離第一個點最遠(yuǎn)的當(dāng)?shù)诙€點，然后選第三個點，第三個點到第一、第二兩點的距離之和最小，以此類推。第二種是先根據(jù)其他聚類算法（如層次聚類）得到聚類結(jié)果，從結(jié)果中每個分類選一個點。
h. 層次聚類算法思想：
1 )將每個對象歸為一類，共得到N類，每類僅包含一個對象。類與類之間的距離就是它們包含的對象之間的距離。
2）找到最接近的兩個類并合并成一類，于是總的類數(shù)少了一個。
3）重新計算新的類與所有舊類之間的距離。
4）重復(fù)第2步和第3步，直到最后合并一個類為止。
根據(jù)步驟3的不同，可將層次聚類方法分為幾類：single-linkage，complete-linkage，average-linkage等。
i .K-means算法為什么在每次迭代更新時使用各簇中樣本點的平均值為聚類中心
要想使損失函數(shù)（平方誤差）最小，聚類中心要為各簇中樣本點的平均值。
https://blog.csdn.net/weiyongle1996/article/details/77925325
j. K-Means會不會陷入一直選質(zhì)心的過程，永遠(yuǎn)停不下來？
不會，有數(shù)學(xué)證明K-Means一定會收斂，大致思路是利用SSE的概念（也就是誤差平方和），即每個點到自身所歸屬質(zhì)心的距離的平方和，這個平方和是一個函數(shù)，然后能夠證明這個函數(shù)是可以最終收斂的函數(shù)。
k. 判斷每個點歸屬哪個質(zhì)心的距離怎么算？
歐幾里得聚類，余弦相似度
歌手大賽，三個評委給三個歌手打分，第一個評委的打分（10，8，9）第二個評委的打分（4，3，2），第三個評委的打分（8，9，10）
如果采用余弦相似度來看每個評委的差異，雖然每個評委對同一個選手的評分不一樣，但第一、第二兩個評委對這四位歌手實力的排序是一樣的，只是第二個評委對滿分有更高的評判標(biāo)準(zhǔn)，說明第一、第二個評委對音樂的品味上是一致的。因此，用余弦相似度來看，第一、第二個評委為一類人，第三個評委為另外一類。如果采用歐氏距離，第一和第三個評委的歐氏距離更近，就分成一類人了，但其實不太合理，因為他們對于四位選手的排名都是完全顛倒的。
l. k-means聚類需要考慮單位一致
1）min-max標(biāo)準(zhǔn)化（離差標(biāo)準(zhǔn)化）：對原始數(shù)據(jù)進(jìn)行線性變換，是結(jié)果落到【0，1】區(qū)間，轉(zhuǎn)換方法為 X’=（X-min）/（max-min），其中max為樣本數(shù)據(jù)最大值，min為樣本數(shù)據(jù)最小值。
2）z-score標(biāo)準(zhǔn)化（標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化）：處理后的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布（均值為0，方差為1），轉(zhuǎn)換公式：X減去均值，再除以標(biāo)準(zhǔn)差
m. 關(guān)于離群值？
答：離群值就是遠(yuǎn)離整體的，非常異常、非常特殊的數(shù)據(jù)點，在聚類之前應(yīng)該將這些“極大”“極小”之類的離群數(shù)據(jù)都去掉，否則會對于聚類的結(jié)果有影響。但是，離群值往往自身就很有分析的價值，可以把離群值單獨(dú)作為一類來分析。
o. 用SPSS作出的K-Means聚類結(jié)果，包含ANOVA（單因素方差分析)，是什么意思？
簡單說就是判斷用于聚類的變量是否對于聚類結(jié)果有貢獻(xiàn)，方差分析檢驗結(jié)果越顯著的變量，說明對聚類結(jié)果越有影響。對于不顯著的變量，可以考慮從模型中剔除。
p. 業(yè)務(wù)專家的作用非常大，主要體現(xiàn)在聚類變量的選擇和對于聚類結(jié)果的解讀。

Tag：數(shù)據(jù)分析面試題

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

數(shù)據(jù)分析崗面試題與參考答案解析

1.怎么做惡意刷單檢測？

2.K-means算法

相關(guān)文章

最新評論

文章分類

大家感興趣的內(nèi)容

最近更新的內(nèi)容