欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

【經(jīng)典】一位數(shù)據(jù)挖掘成功人士給數(shù)據(jù)挖掘在讀研究生的建議

  發(fā)布時(shí)間:2019-07-23 14:17:51   作者:轉(zhuǎn)角_遇到你   我要評(píng)論
這篇文章主要介紹了一位數(shù)據(jù)挖掘成功人士給數(shù)據(jù)挖掘在讀研究生的建議,總結(jié)分析了針對(duì)數(shù)據(jù)挖掘方向研究生的學(xué)習(xí)方法、論文選題、寫(xiě)作、發(fā)展方向以及學(xué)科應(yīng)用技巧等,需要的朋友可以參考下

關(guān)于數(shù)據(jù)挖掘方面的研究,我原來(lái)也走過(guò)一些彎路。其實(shí)從數(shù)據(jù)挖掘的起源可以發(fā)現(xiàn),它并不是一門(mén)嶄新的科學(xué),而是綜合了統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)、人工智能、數(shù)據(jù)庫(kù)等諸多方面的研究成果而成,同時(shí)與專家系統(tǒng)、知識(shí)管理等研究方向不同的是,數(shù)據(jù)挖掘更側(cè)重于應(yīng)用的層面。

因此來(lái)說(shuō),數(shù)據(jù)挖掘融合了相當(dāng)多的內(nèi)容,試圖全面了解所有的細(xì)節(jié)會(huì)花費(fèi)很長(zhǎng)的時(shí)間。因此我建議你的第一步是用大概三個(gè)月的時(shí)間了解數(shù)據(jù)挖掘的幾個(gè)常用技術(shù):分類(lèi)、聚類(lèi)、預(yù)測(cè)、關(guān)聯(lián)分析、孤立點(diǎn)分析等等。這種了解是比較粗的,目標(biāo)是明白這些技術(shù)是用來(lái)干什么的,典型的算法大致是怎樣的,以及在什么情況下應(yīng)該選用什么樣的技術(shù)和算法。

經(jīng)過(guò)初步了解之后,就要進(jìn)入選題的階段,選擇自己感興趣的某個(gè)具體方向,然后通讀該方向的經(jīng)典論文(綜述、主要發(fā)展方向、應(yīng)用成果)。選題階段可能會(huì)花費(fèi) 較長(zhǎng)的時(shí)間,比如一年。此時(shí),要逐漸明確突破點(diǎn),也就是將來(lái)你論文的創(chuàng)新點(diǎn)。創(chuàng)新對(duì)于研究來(lái)說(shuō)非常重要,一方面該創(chuàng)新的確比原來(lái)的方法要好,另一方面該創(chuàng) 新的確具有實(shí)用的價(jià)值。

隨后,就要來(lái)實(shí)現(xiàn)自己的想法。通常對(duì)于碩士論文來(lái)說(shuō),需要建立原型系統(tǒng),進(jìn)行試驗(yàn),并用試驗(yàn)結(jié)果來(lái)支持自己的論文主題。原型系統(tǒng)就是對(duì)自己創(chuàng)新點(diǎn)的實(shí)現(xiàn),需要很好地設(shè)計(jì)和開(kāi)發(fā)。需要注意的是,原型系統(tǒng)的建立和開(kāi)發(fā)商用系統(tǒng)不同,需要體現(xiàn)比較好的理論基礎(chǔ)。也就是說(shuō),原型系統(tǒng)并不是簡(jiǎn)單地用于實(shí)現(xiàn)功能,而是將你的一整套理論付諸實(shí)現(xiàn)。這種理論基礎(chǔ)也將會(huì)包含在你的論文中,以體現(xiàn)論文的理論高度。

原型系統(tǒng)的搭建以及產(chǎn)生令人信服試驗(yàn)結(jié)果,這個(gè)過(guò)程一般需要至少一年的時(shí)間。所以要集中精力于核心部分(體現(xiàn)論文創(chuàng)新點(diǎn)的部分),外圍的界面等等不應(yīng)投入太多的精力,以免進(jìn)度失控。

最后是論文的整理和寫(xiě)作了。建議你在之前的階段中逐步先寫(xiě)出一些篇幅較短的論文(用于發(fā)在期刊、會(huì)議上),比如綜述、體系框架、算法內(nèi)核、應(yīng)用等等。這樣在最后寫(xiě)畢業(yè)論文時(shí)就有了足夠多的內(nèi)容,會(huì)寫(xiě)得更好更快一些。

以上只是泛泛而談。其實(shí)我覺(jué)得其中的關(guān)鍵點(diǎn)在于選題,而選題的好壞取決于你對(duì)數(shù)據(jù)挖掘研究現(xiàn)狀的了解、你的興趣和專長(zhǎng)、以及該方向在應(yīng)用上的意義。建議你和導(dǎo)師、同行多交流,能夠讓自己的方向更清晰。

至于數(shù)據(jù)挖掘領(lǐng)域的就業(yè),應(yīng)該來(lái)說(shuō)還是前景不錯(cuò)的。如果你對(duì)研究有興趣,象微軟研究院、Google、高校研究所都是不錯(cuò)的地方;如果你對(duì)實(shí)際應(yīng)用有興趣,很多大的公司包括IBM、Accenture、亞信等等都有相應(yīng)的人力需求,當(dāng)然一些甲方的單位比如證券、保險(xiǎn)、金融等等單位也都需要分析人才。

關(guān)于論文如何創(chuàng)新

“創(chuàng)新”是個(gè)很尖銳的問(wèn)題。以前我?guī)蛯?dǎo)師審論文時(shí),給論文評(píng)分包括幾個(gè)要素,分別是理論基礎(chǔ)是否堅(jiān)實(shí)、研究問(wèn)題的重要性、研究成果的創(chuàng)新性等。

所謂創(chuàng)新,就是你解決問(wèn)題的方法是否和其他人的解決方法有所不同,而這種不同又是否更有利于解決問(wèn)題。因此,要發(fā)現(xiàn)創(chuàng)新點(diǎn),實(shí)際上需要充分的準(zhǔn)備和深入的研究。

①充分的準(zhǔn)備:既然創(chuàng)新是找出解決問(wèn)題的更好方法,那么首先你就要發(fā)現(xiàn)問(wèn)題,而且要發(fā)現(xiàn)有價(jià)值的問(wèn)題。當(dāng)找到這種問(wèn)題時(shí),再去查找有沒(méi)有人提出了解決這個(gè)問(wèn)題的方法,他們的方法是怎樣的,還存在什么不足之處。

這個(gè)階段需要做大量的調(diào)查搜集的工作,也是做研究的準(zhǔn)備階段,常常需要通讀相關(guān)研究領(lǐng)域的經(jīng)典文獻(xiàn)以及最新進(jìn)展,寫(xiě)讀書(shū)筆記予以總結(jié)。

②深入的研究:當(dāng)你發(fā)現(xiàn)了值得研究的問(wèn)題,并且知道在這個(gè)問(wèn)題上還沒(méi)有很好的解決方法時(shí),你就有了創(chuàng)新的機(jī)會(huì)。找出現(xiàn)有解決方法的不足之處,提出自己的解 決思路,并予以驗(yàn)證,通過(guò)試驗(yàn)或者推理證明你的方法是有效的,創(chuàng)新點(diǎn)也就產(chǎn)生了。說(shuō)起來(lái)容易做起來(lái)難,就象醞釀一個(gè)新發(fā)明一樣,常常會(huì)需要大量的試驗(yàn)和周 密的思考,而且也有可能忙了很久而一無(wú)所獲。

希望說(shuō)到這里沒(méi)有讓你心生懼怕,但我見(jiàn)過(guò)的一些認(rèn)真做研究的人的確投入了很多的時(shí)間和精力才有所成就。當(dāng)然對(duì)于國(guó)內(nèi)的研究生來(lái)說(shuō),我倒是覺(jué)得在碩士階段去 追求顯著的創(chuàng)新是不切實(shí)際的(個(gè)人的一管之見(jiàn)),其實(shí)把第一步做好已經(jīng)不錯(cuò)了。如果沒(méi)有做好第一步,打好基礎(chǔ),就急于找些創(chuàng)新點(diǎn),那么這些所謂的創(chuàng)新點(diǎn)常 常是毫無(wú)意義的,寫(xiě)出來(lái)的論文最終避免不了被扔到垃圾桶的命運(yùn)(我以前寫(xiě)的一些論文也是如此)。大家常常說(shuō)國(guó)內(nèi)的研究論文質(zhì)量很差,很大程度上也是源于我 們現(xiàn)在的教育制度,要求研究生畢業(yè)前必須在SCI、EI或核心期刊上發(fā)表若干篇論文,重量而不重質(zhì),造就了現(xiàn)在的核心期刊完全變成了完成畢業(yè)任務(wù)的自留地。

話題扯遠(yuǎn)了,回到你關(guān)心的問(wèn)題-如何找創(chuàng)新點(diǎn)。必要的文獻(xiàn)閱讀是不可缺的,了解研究現(xiàn)狀和背景,才可能發(fā)現(xiàn)創(chuàng)新點(diǎn)。如果你想這個(gè)階段快一些的話,也有些捷徑,比如你可以到一些研究單位或?qū)W者的站點(diǎn)上,察看他們目前的研究動(dòng)態(tài),一般來(lái)說(shuō)他們正在研究的內(nèi)容常常是目前還未解決的,這樣你可以盡快找到創(chuàng)新點(diǎn)的主攻方向。

1數(shù)據(jù)挖掘人員從事的工作內(nèi)容

是不是開(kāi)發(fā)數(shù)據(jù)挖掘平臺(tái)、為別的企業(yè)單位量身制作DM、DW系統(tǒng)?除了這些還能有些什么?

2讀博深造的必要性

現(xiàn)在只是無(wú)指導(dǎo)的自學(xué)狀態(tài),能否在碩士畢業(yè)后勝任數(shù)據(jù)挖掘方面的工作呢?考取名校的博士進(jìn)一步深入學(xué)習(xí)的必要性大不大?

3自學(xué)時(shí)的大方向

文本、Web等,讀博時(shí)肯定就某種具體方向深入研究,現(xiàn)在是否應(yīng)該也自己重點(diǎn)專注于一種方向,而不是僅泛泛的熟悉各個(gè)方面?

以下為blog主人的回復(fù):

1.數(shù)據(jù)挖掘人員從事的工作和你所說(shuō)的差不多,我認(rèn)識(shí)的一些朋友大多在IT公司,為甲方實(shí)施DM、DW和BI等項(xiàng)目;還有一些是在甲方做分析人員,利用所掌握的數(shù)據(jù)挖掘知識(shí)來(lái)解決一些業(yè)務(wù)問(wèn)題。

2.就以上的工作內(nèi)容來(lái)說(shuō),我覺(jué)得碩士已經(jīng)足以勝任,當(dāng)然最重要的不是學(xué)位,而是運(yùn)用你學(xué)到的知識(shí)來(lái)解決問(wèn)題的能力。如果希望在理論研究上進(jìn)一步發(fā)展,讀博也不錯(cuò),但發(fā)展方向會(huì)有所不同。

3.在碩士階段,我覺(jué)得還是全面了解會(huì)更好一些。當(dāng)然,因?yàn)閿?shù)據(jù)挖掘涉及的內(nèi)容較多,還是應(yīng)該在一些方面有所側(cè)重,比如那些得到廣泛應(yīng)用的算法及其應(yīng)用上,包括決策樹(shù)、聚類(lèi)、回歸、神經(jīng)網(wǎng)絡(luò)等等。這樣即便你以后不去讀博,對(duì)找工作也會(huì)有所幫助。

請(qǐng)問(wèn):現(xiàn)在數(shù)據(jù)挖掘開(kāi)發(fā)主流平臺(tái)和編程語(yǔ)言。那些更有優(yōu)勢(shì)呢?現(xiàn)在大都用什么呢 謝謝

以下為blog主人的回復(fù):

現(xiàn)在一般應(yīng)該是用Java開(kāi)發(fā)的比較多,據(jù)我所知的,SAS Enterprise Miner客戶端是用Java開(kāi)發(fā),開(kāi)源的數(shù)據(jù)挖掘工具Weka也是用Java開(kāi)發(fā)的。當(dāng)然其后臺(tái)服務(wù)器端的軟件有部分可能會(huì)是C開(kāi)發(fā)的,主要是出于性能的考慮。

如果你對(duì)數(shù)據(jù)挖掘平臺(tái)開(kāi)發(fā)有興趣的話,建議你去開(kāi)源代碼網(wǎng)站SourceForge(http://sourceforge.net/)看看,可以找到相應(yīng)的源代碼,也可以參加到他們的開(kāi)發(fā)團(tuán)隊(duì)中,共同開(kāi)發(fā)。

請(qǐng)教: 1 為甲方做的針對(duì)行業(yè)的數(shù)據(jù)挖掘中,如果通過(guò)SAS等通用的軟件,如何體現(xiàn)行業(yè)不同、部門(mén)不同的特色要求?為他建立預(yù)測(cè)模型的過(guò)程中會(huì)對(duì)SAS的功能進(jìn)行插件式的擴(kuò)展嗎,還是SAS本身已經(jīng)足夠建立特定的模型?

也就是說(shuō)所謂的量身定制,也就是使用同一個(gè)軟件建立不同的模型,開(kāi)發(fā)過(guò)程中不涉及軟件的改造?

2 是否數(shù)據(jù)挖掘人員不必是一個(gè)程序員?日常的工作已經(jīng)很少涉及編程?

以下為blog主人的回復(fù):

1.SAS的Enterprise Miner是通用型的數(shù)據(jù)挖掘軟件,所以要滿足客戶的特定分析需求,常常會(huì)采取兩種方法實(shí)現(xiàn):一是做項(xiàng)目,通過(guò)項(xiàng)目團(tuán)隊(duì)的開(kāi)發(fā)和實(shí)施,來(lái)建立客戶所需的應(yīng)用;另一種是采用SAS的行業(yè)解決方案(是SAS通過(guò)多年來(lái)對(duì)行業(yè)需求及解決方案的總結(jié),形成的完整的solution),然后進(jìn)行客戶化定制。

大多數(shù)情況下,不需要對(duì)SAS的功能進(jìn)行擴(kuò)展,而是用SAS的軟件就可以解決業(yè)務(wù)問(wèn)題。所以我們通常做的項(xiàng)目不是軟件開(kāi)發(fā),而是項(xiàng)目實(shí)施。

2.如果單純從建立挖掘模型的角度來(lái)說(shuō),挖掘人員的確不必是程序員,只要應(yīng)用合適的挖掘算法,基于分析數(shù)據(jù)進(jìn)行建模,并對(duì)模型進(jìn)行調(diào)優(yōu)就可以了。但實(shí)際上,挖掘人員并不只做這些,更多的時(shí)候是做數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)探索,其中就可能需要進(jìn)行編程,當(dāng)然這些程序通常用于數(shù)據(jù)處理、模型結(jié)果的發(fā)布等等。

就我個(gè)人的經(jīng)驗(yàn)和了解,數(shù)據(jù)準(zhǔn)備常常占一個(gè)數(shù)據(jù)挖掘項(xiàng)目工作量的60%~70%左右。

以下來(lái)自:http://blogger.org.cn/blog/more.asp?name=idmer&id=24891

張前輩:您好!

我是中國(guó)海洋大學(xué)一名研一生,專業(yè)是數(shù)據(jù)庫(kù)。我想自己選擇一門(mén)方向,認(rèn)真的學(xué)習(xí),作為終身職業(yè)。譬如 java程序員、數(shù)據(jù)挖掘人員、數(shù)據(jù)庫(kù)管理人員等等。我比較喜歡數(shù)據(jù)挖掘,但是若干問(wèn)題難以釋惑。

問(wèn)題1:現(xiàn)在選擇數(shù)據(jù)挖掘作為終身職業(yè)是明智之舉嗎?

現(xiàn)在網(wǎng)上對(duì)數(shù)據(jù)挖掘的前景討論的很厲害,褒貶不一。但是至少可以確定的是數(shù)據(jù)挖掘已經(jīng)越來(lái)越被重視了。如你所言,大家看到的只是表面,許多成功的案例企業(yè)沒(méi)有對(duì)外公開(kāi)。但不可否認(rèn)的是,數(shù)據(jù)挖掘在中國(guó)的應(yīng)用有屠龍之技的嫌疑,廣大的企業(yè)還沒(méi)有重視起來(lái)。

總之,男怕投錯(cuò)行,這個(gè)問(wèn)題總是敲擊著我。如果我是您的弟弟,您會(huì)鼓勵(lì)我走數(shù)據(jù)挖掘之路嗎?還是推薦其他的IT職業(yè)?

IDMer:

就我個(gè)人的觀點(diǎn),數(shù)據(jù)挖掘的發(fā)展還是前途很廣闊的。說(shuō)白了,數(shù)據(jù)挖掘就是一種分析問(wèn)題的手段,問(wèn)題一直會(huì)有,解決問(wèn)題的手段也就一直有存在的必要。也許你 聽(tīng)說(shuō)過(guò)美國(guó)早期西部淘金熱的時(shí)候,富起來(lái)的不是淘金者,而是為淘金者提供工具、水的人,甚至因?yàn)榈V工需要結(jié)實(shí)耐磨的衣服,以致于牛仔褲風(fēng)行起來(lái)并經(jīng)久不 衰。

至于你提到“屠龍之技”之說(shuō),只是很多人因?yàn)椴皇煜?shù)據(jù)挖掘的內(nèi)部技術(shù)而產(chǎn)生的莫測(cè)高深的感覺(jué)。其實(shí),數(shù)據(jù)挖掘本身并不是新技術(shù),它融合了來(lái)自于統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)和機(jī)器學(xué)習(xí)等多學(xué)科已經(jīng)成熟的內(nèi)容,冠上了一個(gè)看起來(lái)比較時(shí)髦的名字而已。

組成數(shù)據(jù)挖掘的這三門(mén)支柱學(xué)科都已經(jīng)發(fā)展了多年,也已得到了廣泛的應(yīng)用。那么我們也有理由相信它們的融合,能幫助我們解決更多的分析方面的問(wèn)題。何況,業(yè)界還是有很多的成功案例,體現(xiàn)出數(shù)據(jù)挖掘所帶了獨(dú)特優(yōu)勢(shì),而這些,是傳統(tǒng)的BI(報(bào)表、OLAP等)無(wú)法支持的。

以上說(shuō)了不少數(shù)據(jù)挖掘的好話,下面再看看硬幣的另一面。如果你是我的弟弟(呵呵,雖然我沒(méi)有,但也和很多年輕的師弟師妹聊過(guò)擇業(yè)的話題),我會(huì)建議你不做 IT業(yè),哈哈,一句半真半假的玩笑。因?yàn)樵贗T這個(gè)行業(yè)看起來(lái)還是滿辛苦的,而且在很多項(xiàng)目中,常常需要重復(fù)一些沒(méi)什么技術(shù)含量的任務(wù),消耗的精力不少, 獲得的成就感卻不多。

Anyway,我的建議,其實(shí)也是我原來(lái)給自己的一句座右銘:認(rèn)為對(duì)的就去做。找到自己的興趣所在,并且感覺(jué)也有發(fā)展,那就盡力去做好了。

問(wèn)題2:如果我現(xiàn)在選擇了數(shù)據(jù)挖掘,應(yīng)該怎么做?

您曾經(jīng)在博客上回復(fù)一位北郵同學(xué),建議熟悉學(xué)習(xí)各種算法;建立模型,創(chuàng)新思路改進(jìn)算法撰寫(xiě)論文。

我當(dāng)前的計(jì)劃是 學(xué)習(xí)各種算法的原理;學(xué)習(xí)java語(yǔ)言;研究weka源碼,深入了解幾種經(jīng)典算法的步驟;學(xué)習(xí)了解ETL,數(shù)據(jù)倉(cāng)庫(kù)、OLAP等;通過(guò)使用的數(shù)據(jù)集建立挖掘模型;思考論文;有空的話 還得SPSS或其他一個(gè)流行軟件的使用方法。其中,我覺(jué)得難點(diǎn)是對(duì)數(shù)據(jù)集的整理形成挖掘流程的輸入。

其中,我也有若干疑惑:掌握一門(mén)數(shù)據(jù)庫(kù)是很重要的,但是沒(méi)有時(shí)間一一了解SQLServer、Oracle、DB2等,但是在求職時(shí),又說(shuō)不定單位要求會(huì)哪門(mén)數(shù)據(jù)庫(kù)?。课蚁刖蚐QL Server單獨(dú)進(jìn)行深入的學(xué)習(xí),包括學(xué)習(xí)在SQL Server中數(shù)據(jù)倉(cāng)庫(kù)的建立和數(shù)據(jù)挖掘的應(yīng)用,其他的也就不管了。不知我這個(gè)選一而棄其他的打算可取不可???

IDMer:

從你的計(jì)劃來(lái)看,還是對(duì)自己要掌握的知識(shí)和技能,劃出了一個(gè)范圍??瓷先ミ€不錯(cuò),我只是從個(gè)人的經(jīng)驗(yàn)出發(fā),建議你不必苛求自己十八般武藝樣樣精通,很多方面只需基本了解,選擇幾個(gè)重點(diǎn)來(lái)練成自己的絕活。人的精力畢竟有限,目標(biāo)越大就越難實(shí)現(xiàn)。

至于選擇那些作為重點(diǎn),就需要在廣泛了解的基礎(chǔ)上,結(jié)合自己的興趣進(jìn)行篩選了。

關(guān)于數(shù)據(jù)庫(kù)的掌握,我覺(jué)得熟悉一種產(chǎn)品已經(jīng)足夠。SQL Server、Oracle、DB2都是關(guān)系數(shù)據(jù)庫(kù),在學(xué)生階段把關(guān)系數(shù)據(jù)庫(kù)的基礎(chǔ)理論打牢,熟練運(yùn)用SQL語(yǔ)句就可以了。這些主流數(shù)據(jù)庫(kù)之間的差異,不 是遵循的標(biāo)準(zhǔn)不同,而是產(chǎn)品的特性有別,以及在性能調(diào)優(yōu)時(shí)的技巧。

問(wèn)題3:如何使學(xué)習(xí)階段與行業(yè)應(yīng)用靠攏?

有一位學(xué)長(zhǎng),建議我學(xué)技術(shù)的時(shí)候要和行業(yè)靠攏,否則,“沒(méi)有行業(yè)背景的技術(shù)會(huì)很飄”。我覺(jué)得他說(shuō)的有道理,技術(shù)是相當(dāng)寬泛的,你不可能面面俱到;而且,當(dāng) 你實(shí)際工作后,也就專于一個(gè)行業(yè),技術(shù)的需要面也就變窄了。這樣,有利于學(xué)習(xí)重點(diǎn),不至于在學(xué)習(xí)時(shí),面面俱到,沒(méi)有突出。

但是,在數(shù)據(jù)挖掘方面,曾經(jīng)請(qǐng)教過(guò)你,數(shù)據(jù)挖掘人員的工作性質(zhì)。一種是在甲方做分析人員,利用所掌握的數(shù)據(jù)挖掘知識(shí)來(lái)解決一些業(yè)務(wù)問(wèn)題。一種是在IT公司,為甲方實(shí)施DM、DW和BI等項(xiàng)目(前輩自己便屬于此類(lèi)?)。

在這里,我不太明白作為甲方,日常具體做些什么?難道是類(lèi)似于網(wǎng)管性質(zhì)的?那樣不更傾向于數(shù)據(jù)庫(kù)管理人員?他們還算是專業(yè)的數(shù)據(jù)挖掘人員嗎,怎么覺(jué)得公司不大會(huì)安排這樣的職位呢?

我比較傾向于做乙方,那樣好像更專業(yè)似的。但是,乙方的話,都說(shuō)數(shù)據(jù)挖掘在金融、電信、銀行還是銷(xiāo)售等方面主要應(yīng)用。難道這意味著要學(xué)習(xí)或了解金融電信的背景、CRM、經(jīng)濟(jì)學(xué)、Excel……?

還有,您曾提到,畢業(yè)后也可以做研究工作,我覺(jué)得提供研究工作的崗位畢竟是少的。而且,那樣掙錢(qián)多嗎(流汗中)?

是否現(xiàn)在應(yīng)該考慮以后進(jìn)哪個(gè)(哪類(lèi))公司,現(xiàn)在根據(jù)它的要求來(lái)強(qiáng)化自己呢?

數(shù)據(jù)挖掘交流討論(3,答Freshm 2008-12-9的留言)
博士你好: 從事數(shù)據(jù)挖掘應(yīng)用,要打好那些基礎(chǔ),望結(jié)合您的經(jīng)驗(yàn)給予詳細(xì)指導(dǎo),以及給一點(diǎn)應(yīng)用于移動(dòng)方面的實(shí)踐案例。
我的回復(fù):不好意思,我不是博士,請(qǐng)別叫我博士。非常高興跟你交流數(shù)據(jù)挖掘的應(yīng)用。數(shù)據(jù)挖掘因?yàn)槭莻€(gè)綜合性應(yīng)用,涉及的專業(yè)知識(shí)很多(有數(shù)據(jù)倉(cāng)庫(kù)、統(tǒng)計(jì)專 業(yè)、編程能力、展示展現(xiàn)技術(shù)、挖掘技能、所具體應(yīng)用的相關(guān)業(yè)務(wù)能力),但是真正從數(shù)據(jù)挖掘項(xiàng)目實(shí)踐的角度講,溝通能力和對(duì)挖掘的興趣愛(ài)好是最重要的,有了 愛(ài)好才可以愿意鉆研,有了不錯(cuò)的溝通能力,才可以正確理解業(yè)務(wù)問(wèn)題,才能正確把業(yè)務(wù)問(wèn)題轉(zhuǎn)化成挖掘問(wèn)題,才可以在相關(guān)不同專業(yè)人才之間清楚表達(dá)你的意圖和 想法,取得他們的理解和支持。所以我認(rèn)為溝通能力和興趣愛(ài)好是個(gè)人的數(shù)據(jù)挖掘的核心競(jìng)爭(zhēng)力,是很難學(xué)到的;而其他的相關(guān)專業(yè)知識(shí)誰(shuí)都可以學(xué),算不上個(gè)人發(fā) 展的核心競(jìng)爭(zhēng)力。
除了最重要的溝通能力和興趣愛(ài)好外,在專業(yè)能力培養(yǎng)中,如果你一定要排個(gè)先后次序的話, 一方面看你職業(yè)興趣的側(cè)重點(diǎn),另一方面對(duì)于數(shù)據(jù)挖掘的應(yīng)用來(lái)說(shuō),我覺(jué)得數(shù)據(jù)挖掘技能可能是相對(duì)而言最重要的, 因?yàn)閿?shù)據(jù)挖掘作為一個(gè)典型的團(tuán)隊(duì)作業(yè),一個(gè)人不可能完成所有相關(guān)專業(yè)的工作,而其中數(shù)據(jù)挖掘能力可能是挖掘?qū)嵺`中專業(yè)能力的核心,當(dāng)然相關(guān)業(yè)務(wù)的能力同樣 (甚至更)重要,比如做數(shù)據(jù)庫(kù)營(yíng)銷(xiāo)時(shí),你不但應(yīng)該有好的挖掘技能,你更應(yīng)該是個(gè)市場(chǎng)營(yíng)銷(xiāo)專家。所以國(guó)內(nèi)外面臨數(shù)據(jù)挖掘復(fù)合型人才缺乏時(shí),一致公認(rèn)的好的解 決辦法是讓業(yè)務(wù)人員學(xué)習(xí)挖掘技能(這比讓挖掘技術(shù)人員學(xué)習(xí)業(yè)務(wù)技能更有效、更合理)。
說(shuō)到這里可能很多數(shù)據(jù)倉(cāng)庫(kù)專家、程序員、統(tǒng)計(jì)師等等都要扔磚頭了,對(duì)不起,我沒(méi)有別的意思,你們的專業(yè)對(duì)于數(shù)據(jù)挖掘都很重要,大家本來(lái)就是一個(gè)整體的,但 是作為單獨(dú)一個(gè)個(gè)體的人來(lái)說(shuō),精力有限,時(shí)間有限,不可能這些領(lǐng)域都能掌握,在這種情況下,選擇最重要的核心,我想應(yīng)該是數(shù)據(jù)挖掘技能和相關(guān)業(yè)務(wù)能力吧 (從另外的一個(gè)極端的例子,我們可以看, 比如一個(gè)迷你型的挖掘項(xiàng)目,一個(gè)懂得市場(chǎng)營(yíng)銷(xiāo)和數(shù)據(jù)挖掘技能的人應(yīng)該可以勝任。這其中他雖然不懂?dāng)?shù)據(jù)倉(cāng)庫(kù),但是簡(jiǎn)單的Excel就足以勝任高打6萬(wàn)個(gè)樣本 的數(shù)據(jù)處理;他雖然不懂專業(yè)的展示展現(xiàn)技能,但是只要他自己看的懂就行了,這就無(wú)需什么展示展現(xiàn);前面說(shuō)過(guò),統(tǒng)計(jì)技能是應(yīng)該掌握的,這對(duì)一個(gè)人的迷你項(xiàng)目 很重要;他雖然不懂編程,但是專業(yè)挖掘工具和挖掘技能足夠讓他操練的;這樣在迷你項(xiàng)目中,一個(gè)懂得挖掘技能和市場(chǎng)營(yíng)銷(xiāo)業(yè)務(wù)能力的人就可以圓滿完成了,甚至 在一個(gè)數(shù)據(jù)源中根據(jù)業(yè)務(wù)需求可以無(wú)窮無(wú)盡的挖掘不同的項(xiàng)目思路,試問(wèn)就是這個(gè)迷你項(xiàng)目,單純的一 個(gè)數(shù)據(jù)倉(cāng)庫(kù)專家、單純的一個(gè)程序員、單純的一個(gè)展示展現(xiàn)技師、甚至單純的一個(gè)挖掘技術(shù)專家,都是無(wú)法勝任的)。這從另一個(gè)方面也說(shuō)明了為什么溝通能力的重 要,這些個(gè)完全不同的專業(yè)領(lǐng)域,想要有效有機(jī)地整合在一起進(jìn)行數(shù)據(jù)挖掘項(xiàng)目實(shí)踐,你說(shuō)沒(méi)有好的溝通能力行嗎?
數(shù)據(jù)挖掘能力只能在項(xiàng)目實(shí)踐的熔爐中提升、升華,所以跟著項(xiàng)目學(xué)挖掘是最有效的捷徑。國(guó)外學(xué)習(xí)挖掘的人都是一開(kāi)始跟著老板做項(xiàng)目,剛開(kāi)始不懂不要緊,越不懂越知道應(yīng)該學(xué)什么,才能學(xué)得越快越有效果。我不知道國(guó)內(nèi)的數(shù)據(jù)挖掘?qū)W生是怎樣學(xué)的,但是從網(wǎng)上的一些論壇看,很多都是紙上談兵,這樣很浪費(fèi)時(shí)間,很沒(méi)有效率。
另外現(xiàn)在國(guó)內(nèi)關(guān)于數(shù)據(jù)挖掘的概念都很混亂,很多BI只是局限在報(bào)表的展示和簡(jiǎn)單的統(tǒng)計(jì)分析,卻也號(hào)稱是數(shù)據(jù)挖掘;另一方面,國(guó)內(nèi)真正規(guī)?;瘜?shí)施數(shù)據(jù)挖掘的 行業(yè)是屈指可數(shù)(銀行、保險(xiǎn)公司、移動(dòng)通訊),其他行業(yè)的應(yīng)用就只能算是小規(guī)模的,比如很多大學(xué)都有些相關(guān)的挖掘課題、挖掘項(xiàng)目,但都比較分散,而且都是 處于摸索階段,但是我相信數(shù)據(jù)挖掘在中國(guó)一定是好的前景,因?yàn)檫@是歷史發(fā)展的必然,呵呵。
講到移動(dòng)方面的實(shí)踐案例,如果你是來(lái)自移動(dòng)的話,你一定知道國(guó)內(nèi)有家叫華院分析的公司(申明,我跟這家公司沒(méi)有任何關(guān)系,我只是站在數(shù)據(jù)挖掘者的角度分析 過(guò)中國(guó)大多數(shù)的號(hào)稱數(shù)據(jù)挖掘服務(wù)公司,覺(jué)得華院還不錯(cuò),比很多徒有虛名的大公司來(lái)得更實(shí)際),他們的業(yè)務(wù)現(xiàn)在已經(jīng)覆蓋了絕大多數(shù)中國(guó)省級(jí)移動(dòng)公司的分析挖 掘項(xiàng)目,你上網(wǎng)搜索一下應(yīng)該可以找到一些詳細(xì)的資料吧。我對(duì)華院分析印象最深的一點(diǎn)就是2002 年這個(gè)公司白手起家,自己不懂不要緊,一邊自學(xué)一邊開(kāi)始拓展客戶,到現(xiàn)在在中國(guó)的移動(dòng)通訊市場(chǎng)全面開(kāi)花,的確佩服佩服呀。他們最開(kāi)始都是用EXCEL處理 數(shù)據(jù),用肉眼比較選擇比較不同的模型,你可以想象這其中的艱難吧。這個(gè)故事其實(shí)也告訴我們,數(shù)據(jù)挖掘也是可以創(chuàng)造一些神奇的故事的,你說(shuō)呢?
至于移動(dòng)通訊的具體的數(shù)據(jù)挖掘的應(yīng)用,那太多了,比如不同話費(fèi)套餐的制訂、客戶流失模型、不同服務(wù)交叉銷(xiāo) 售模型、不同客戶對(duì)優(yōu)惠的彈性分析、客戶群體細(xì)分模型、不同客戶生命周期模型、渠道選擇模型、惡意欺詐預(yù)警模型,太多了,記住,從客戶的需求出發(fā),從實(shí)踐 中的問(wèn)題出發(fā),移動(dòng)中可以發(fā)現(xiàn)太多的挖掘項(xiàng)目。最后告訴你一個(gè)秘密,當(dāng)你數(shù)據(jù)挖掘能力提升到一定程度時(shí),你會(huì)發(fā)現(xiàn)無(wú)論什么行業(yè),其實(shí)數(shù)據(jù)挖掘的應(yīng)用有大部 分是重合的相似的,這樣你會(huì)覺(jué)得更輕松。
以上是個(gè)人的淺見(jiàn),僅供參考,祝挖掘快樂(lè)!
 

數(shù)據(jù)挖掘從業(yè)人員工作分析

1.數(shù)據(jù)挖掘從業(yè)人員的愿景:
 

數(shù)據(jù)挖掘就業(yè)的途徑從我看來(lái)有以下幾種,(注意:本文所說(shuō)的數(shù)據(jù)挖掘不包括數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)庫(kù)管理員的角色)。
 

A:做科研(在高校、科研單位以及大型企業(yè),主要研究算法、應(yīng)用等)
B:做程序開(kāi)發(fā)設(shè)計(jì)(在企業(yè)做數(shù)據(jù)挖掘及其相關(guān)程序算法的實(shí)現(xiàn)等)
C:數(shù)據(jù)分析師(在存在海量數(shù)據(jù)的企事業(yè)單位做咨詢、分析等)
 

2.數(shù)據(jù)挖掘從業(yè)人員切入點(diǎn):
 

根據(jù)上面的從業(yè)方向倒序并延伸來(lái)說(shuō)說(shuō)需要掌握的技能。
 

C,數(shù)據(jù)分析師:需要有深厚的數(shù)理統(tǒng)計(jì)基礎(chǔ),可以不知道人工智能和計(jì)算機(jī)編程等相關(guān)技術(shù),但是需要熟練使用主流的數(shù)據(jù)挖掘(或統(tǒng)計(jì)分析)工具 。從這個(gè)方面切入數(shù)據(jù)挖掘領(lǐng)域的話你需要學(xué)習(xí)《數(shù)理統(tǒng)計(jì)》、《概率論》、《統(tǒng)計(jì)學(xué)習(xí)基礎(chǔ):數(shù)據(jù)挖掘、推理與預(yù)測(cè) 》、《金融數(shù)據(jù)挖掘》,《業(yè)務(wù)建模與數(shù)據(jù)挖掘》、《數(shù)據(jù)挖掘?qū)嵺` 》等,當(dāng)然也少不了你使用的工具的對(duì)應(yīng)說(shuō)明書(shū)了,如SPSS、SAS等廠商的《SAS數(shù)據(jù)挖掘與分析》、《數(shù)據(jù)挖掘Clementine應(yīng)用實(shí)務(wù) 》、《EXCEL 2007數(shù)據(jù)挖掘完全手冊(cè)》等,如果多看一些如《中文版 數(shù)據(jù)挖掘原理》 等書(shū)籍那就更好了。
B,程序設(shè)計(jì)開(kāi)發(fā):主要是實(shí)現(xiàn)數(shù)據(jù)挖掘現(xiàn)有的算法和研發(fā)新的算法以及根據(jù)實(shí)際需要結(jié)合核心算法做一些程序開(kāi)發(fā)實(shí)現(xiàn)工作。要想扮演好這個(gè)角色,你不但需要熟 悉至少一門(mén)編程語(yǔ)言如(C,C++,Java,Delphi等)和數(shù)據(jù)庫(kù)原理和操作,對(duì)數(shù)據(jù)挖掘基礎(chǔ)課程有所了解,讀過(guò)《數(shù)據(jù)挖掘概念與技術(shù)》(韓家煒 著)、《人工智能及其應(yīng)用》。有一點(diǎn)了解以后,如果對(duì)程序比較熟悉的話并且時(shí)間允許,可以尋找一些開(kāi)源的數(shù)據(jù)挖掘軟件研究分析,也可以參考如《數(shù)據(jù)挖掘: 實(shí)用機(jī)器學(xué)習(xí)技術(shù)及Java實(shí)現(xiàn)》等一些教程。
A.做科研:這里的科研相對(duì)來(lái)說(shuō)比較概括,屬于技術(shù)型的相對(duì)高級(jí)級(jí)別,也是B,C的歸宿,那么相應(yīng)的也就需要對(duì)B、C的必備基礎(chǔ)知識(shí)了。
可能之后不會(huì)續(xù)寫(xiě)一篇《數(shù)據(jù)挖掘進(jìn)階》了,這邊大概說(shuō)一下B和C的進(jìn)一步要求:
B當(dāng)前主要包括如下方向:企業(yè)數(shù)據(jù)挖掘、Web數(shù)據(jù)挖掘、空間數(shù)據(jù)挖掘、多媒體數(shù)據(jù)挖掘等等;
C當(dāng)前主要應(yīng)用于:電信CRM、金融、咨詢業(yè)等等;
 

最后說(shuō)一下大家有必要熟悉數(shù)據(jù)挖掘工具:Google ,或許你也可以搜索到這篇文章,當(dāng)然也可以搜索到人才招聘的相關(guān)職位需求以及其他資料,一如你當(dāng)初搜索到 DMResearch 一樣。

相關(guān)文章

最新評(píng)論