數(shù)據(jù)分析崗面試題與參考答案解析

1.怎么做惡意刷單檢測?
a. 選取特征利用機器學(xué)習(xí)方法做分類。
特征: 結(jié)合商家特征和環(huán)境特征做商家惡意刷單分類預(yù)測,結(jié)合用戶行為特征和環(huán)境特征做用戶惡意刷單分類預(yù)測。
1)商家特征:商家歷史銷量、信用、產(chǎn)品類別、發(fā)貨快遞公司等。
2)用戶行為特征:用戶信用、下單量、下單路徑、瀏覽店鋪行為、支付賬號。
3)環(huán)境特征(主要是避免機器刷單):地區(qū)、ip、手機型號等。
注:構(gòu)造特征。刷單的評論文本可能套路較為一致,計算與已標注評論文本的相似度作為特征。
機器學(xué)習(xí)方法: 決策樹, 感知機, 邏輯回歸, 支持向量機, 隨機森林
b. 異常檢測:ip地址經(jīng)常變動(固定時間內(nèi)變動次數(shù))、賬號近期交易成功率上升(固定時間內(nèi)交易成功率)------利用箱型圖進行結(jié)構(gòu)化檢測。
機器學(xué)習(xí)中的異常檢測手段:
1)總體來講,異常檢測問題可以概括為兩類:一是對結(jié)構(gòu)化數(shù)據(jù)的異常檢測,二是對非結(jié)構(gòu)化數(shù)據(jù)(通過對圖像目標檢測,識別出異常點)的異常檢測。
2)對結(jié)構(gòu)化數(shù)據(jù)的異常檢測的解決思想主要是通過找出與正常數(shù)據(jù)集差異較大的離群點,把離群點作為異常點。常常面臨的問題有二:一是需要定義一個清晰的決策邊界,從而界定正常點與異常點;二是維數(shù)災(zāi)難及交叉指標計算之間的高頻計算性能瓶頸。
3)結(jié)構(gòu)化的數(shù)據(jù)的異常檢測手段:圖形位置分布(箱型圖), 統(tǒng)計方法檢測(切比雪夫不等式的方法能夠有效地劃分出三個類別,包括正常數(shù)據(jù)、異常數(shù)據(jù)、未知數(shù)據(jù))+距離檢測(距離位置檢測有一個非常強的假設(shè):正常的數(shù)據(jù)都比較集中,有較多的鄰居,而異常數(shù)據(jù)都特立獨行。未知數(shù)據(jù)的簇里面尋找出與正常數(shù)據(jù)更不相似的,或者和異常數(shù)據(jù)更相似的數(shù)據(jù)就可以了。)
2.K-means算法
a. k-means原理: 隨機選擇k個中心點,把每個數(shù)據(jù)點分配到離它最近的中心點,重新計算每個簇的質(zhì)心,直到質(zhì)心不發(fā)生變化。
b. 改進:
1) kmeans++:初始隨機點選擇盡可能遠,避免陷入局部解。
2 ) ISODATA:對于難以確定k的時候,使用該方法。思路是當(dāng)類下的樣本小時,剔除;類下樣本數(shù)量多時,拆分。
3 )kernel kmeans:kmeans用歐氏距離計算相似度,也可以使用kernel映射到高維空間再聚類。
c. 遇到異常值:
1 )局部異常因子LOF:如果點p的密度明顯小于其鄰域點的密度,那么點p可能是異常值.。
2 ) 使用PCA或自動編碼機進行異常點檢測:使用降維后的維度作為新的特征空間,其降維結(jié)果可以認為剔除了異常值的影響(因為過程是保留使投影后方差最大的投影方向)。
3 ) winsorize:對于簡單的,可以對單一維度做上下截取。
d. 評估聚類算法的指標:
-
1 ) 外部法(基于有標注):Jaccard系數(shù)、純度
2 ) 內(nèi)部法(無標注):內(nèi)平方和WSS和外平方和BSS
3 ) 此外還要考慮到算法的時間空間復(fù)雜度、聚類穩(wěn)定性等
e. k-means算法的問題: 對異常值和初值敏感。當(dāng)有異常值是,質(zhì)心可能就會離大多數(shù)點比較遠。比如1,2,3,4,100五個樣本,均值是22,這樣類別中心就離樣本較遠,這時選取中位數(shù)做為質(zhì)心是更好的選擇,這就是k-Mediods(k-中值)聚類算法。同時k-means是初值敏感的,即當(dāng)選取不同的初始值時分類結(jié)果可能不同。
f. K值的選擇
1)這個真的沒有確定的做法,分幾類主要取決于個人的經(jīng)驗與感覺,通常的做法是多嘗試幾個K值,看分成幾類的結(jié)果更好解釋,更符合分析目的等。
2)對于難以確定k的時候,使用ISODATA,思路是當(dāng)類下的樣本小時,剔除;類下樣本數(shù)量多時,拆分。
3)手肘法,當(dāng)k小于真實聚類數(shù)時,由于k的增大會大幅增加每個簇的聚合程度,故SSE的下降幅度會很大,而當(dāng)k到達真實聚類數(shù)時,再增加k所得到的聚合程度回報會迅速變小,所以SSE的下降幅度會驟減,然后隨著k值的繼續(xù)增大而趨于平緩,也就是說SSE和k的關(guān)系圖是一個手肘的形狀,而這個肘部對應(yīng)的k值就是數(shù)據(jù)的真實聚類數(shù)。
4)使用輪廓系數(shù)(silhouette coefficient)來確定,選擇使系數(shù)較大所對應(yīng)的k值
kmeans最優(yōu)k值的確定方法-手肘法和輪廓系數(shù)法:https://www.jianshu.com/p/335b376174d4
g.初始的K個質(zhì)心怎么選?
最常用的方法是隨機選,初始質(zhì)心的選取對最終聚類結(jié)果有影響,因此算法一定要多執(zhí)行幾次,哪個結(jié)果更reasonable,就用哪個結(jié)果。 當(dāng)然也有一些優(yōu)化的方法,第一種是選擇彼此距離最遠的點,具體來說就是先選第一個點,然后選離第一個點最遠的當(dāng)?shù)诙€點,然后選第三個點,第三個點到第一、第二兩點的距離之和最小,以此類推。第二種是先根據(jù)其他聚類算法(如層次聚類)得到聚類結(jié)果,從結(jié)果中每個分類選一個點。
h. 層次聚類算法思想:
1 )將每個對象歸為一類,共得到N類,每類僅包含一個對象。類與類之間的距離就是它們包含的對象之間的距離。
2)找到最接近的兩個類并合并成一類,于是總的類數(shù)少了一個。
3)重新計算新的類與所有舊類之間的距離。
4)重復(fù)第2步和第3步,直到最后合并一個類為止。
根據(jù)步驟3的不同,可將層次聚類方法分為幾類:single-linkage,complete-linkage,average-linkage等。
i .K-means算法為什么在每次迭代更新時使用各簇中樣本點的平均值為聚類中心
要想使損失函數(shù)(平方誤差)最小,聚類中心要為各簇中樣本點的平均值。
https://blog.csdn.net/weiyongle1996/article/details/77925325
j. K-Means會不會陷入一直選質(zhì)心的過程,永遠停不下來?
不會,有數(shù)學(xué)證明K-Means一定會收斂,大致思路是利用SSE的概念(也就是誤差平方和),即每個點到自身所歸屬質(zhì)心的距離的平方和,這個平方和是一個函數(shù),然后能夠證明這個函數(shù)是可以最終收斂的函數(shù)。
k. 判斷每個點歸屬哪個質(zhì)心的距離怎么算?
歐幾里得聚類,余弦相似度
歌手大賽,三個評委給三個歌手打分,第一個評委的打分(10,8,9) 第二個評委的打分(4,3,2),第三個評委的打分(8,9,10)
如果采用余弦相似度來看每個評委的差異,雖然每個評委對同一個選手的評分不一樣,但第一、第二兩個評委對這四位歌手實力的排序是一樣的,只是第二個評委對滿分有更高的評判標準,說明第一、第二個評委對音樂的品味上是一致的。 因此,用余弦相似度來看,第一、第二個評委為一類人,第三個評委為另外一類。 如果采用歐氏距離, 第一和第三個評委的歐氏距離更近,就分成一類人了,但其實不太合理,因為他們對于四位選手的排名都是完全顛倒的。
l. k-means聚類需要考慮單位一致
1)min-max標準化(離差標準化):對原始數(shù)據(jù)進行線性變換,是結(jié)果落到【0,1】區(qū)間,轉(zhuǎn)換方法為 X’=(X-min)/(max-min),其中max為樣本數(shù)據(jù)最大值,min為樣本數(shù)據(jù)最小值。
2)z-score標準化(標準差標準化):處理后的數(shù)據(jù)符合標準正態(tài)分布(均值為0,方差為1),轉(zhuǎn)換公式:X減去均值,再除以標準差
m. 關(guān)于離群值?
答:離群值就是遠離整體的,非常異常、非常特殊的數(shù)據(jù)點,在聚類之前應(yīng)該將這些“極大”“極小”之類的離群數(shù)據(jù)都去掉,否則會對于聚類的結(jié)果有影響。但是,離群值往往自身就很有分析的價值,可以把離群值單獨作為一類來分析。
o. 用SPSS作出的K-Means聚類結(jié)果,包含ANOVA(單因素方差分析),是什么意思?
簡單說就是判斷用于聚類的變量是否對于聚類結(jié)果有貢獻,方差分析檢驗結(jié)果越顯著的變量,說明對聚類結(jié)果越有影響。對于不顯著的變量,可以考慮從模型中剔除。
p. 業(yè)務(wù)專家的作用非常大,主要體現(xiàn)在聚類變量的選擇和對于聚類結(jié)果的解讀。
相關(guān)文章
今日頭條秋招數(shù)據(jù)分析崗面試題與參考答案整理
這篇文章主要介紹了今日頭條秋招數(shù)據(jù)分析崗面試題與參考答案,整理總結(jié)了今日頭條數(shù)據(jù)分析崗面試中的各種問題、參考答案與個人心得體會,需要的朋友可以參考下2019-12-11京東大數(shù)據(jù)方向Java實習(xí)面試經(jīng)歷簡述【一面、二面】
這篇文章主要介紹了京東大數(shù)據(jù)方向Java實習(xí)面試經(jīng)歷,簡單描述了京東大數(shù)據(jù)方向java面試一面與二面過程中所遇到的各種問題,需要的朋友可以參考下2019-12-10- 這篇文章主要介紹了大數(shù)據(jù)爬蟲實習(xí)招聘面試題,總結(jié)分析了大數(shù)據(jù)爬蟲崗位招聘中的面試題及參考答案,需要的朋友可以參考下2019-11-29
阿里大數(shù)據(jù)工程師面試流程與經(jīng)驗總結(jié)
這篇文章主要介紹了阿里大數(shù)據(jù)工程師面試流程與經(jīng)驗,總結(jié)分析了阿里大數(shù)據(jù)工程師三輪面試的經(jīng)歷與相關(guān)問題注意事項,需要的朋友可以參考下2019-11-15大數(shù)據(jù)spark經(jīng)典面試題目與參考答案總結(jié)
這篇文章主要介紹了大數(shù)據(jù)spark經(jīng)典面試題目,整理總結(jié)了大數(shù)據(jù)spark面試中遇到的比較經(jīng)典的簡答題與選擇題,涉及spark概念、原理、配置、使用等相關(guān)知識點,需要的朋友可以參2019-10-24大數(shù)據(jù)相關(guān)常見面試題與答案整理
這篇文章主要介紹了大數(shù)據(jù)相關(guān)常見面試題與答案,總結(jié)分析了大數(shù)據(jù)相關(guān)的概念、技術(shù)、原理,需要的朋友可以參考下2019-10-21- 這篇文章主要介紹了數(shù)據(jù)挖掘常見面試題與參考答案,簡單分析了數(shù)據(jù)挖掘面試中比較常見的概念、知識點與解答技巧,需要的朋友可以參考下2019-10-17
大數(shù)據(jù)基礎(chǔ)面試題考點與知識點整理
這篇文章主要介紹了大數(shù)據(jù)基礎(chǔ)面試題考點與知識點,總結(jié)整理了大數(shù)據(jù)常見的各種知識點、難點、考點以及相關(guān)注意事項,需要的朋友可以參考下2019-09-09BAT面試中的大數(shù)據(jù)相關(guān)問題筆記
這篇文章主要介紹了BAT面試中的大數(shù)據(jù)相關(guān)問題,涉及大數(shù)據(jù)相關(guān)的概念、原理、知識點與算法等問題,需要的朋友可以參考下2019-08-30BAT大數(shù)據(jù)面試題與參考答案小結(jié)
這篇文章主要介紹了BAT大數(shù)據(jù)面試題與參考答案,總結(jié)分析了大數(shù)據(jù)常見的各種知識點、疑難問題與參考答案,需要的朋友可以參考下2019-08-16