一篇文章看懂大數(shù)據(jù)分析就業(yè)前景及職能定位、職能要求

Overview:
- 序
- 基本概念
- DS的職能要求
- DE的職能要求
- 總結(jié)
一、序
今天主要給大家好好說(shuō)說(shuō)python的發(fā)展方向,這篇文章也是藏了好久了,群里各種問(wèn)怎么學(xué),大數(shù)據(jù)分析怎么學(xué),爬蟲(chóng)怎么入門,說(shuō)實(shí)在的,你關(guān)注我號(hào)久一點(diǎn),都知道有那么幾篇文章是專門給入門看的,還有幾篇是資料總結(jié)的。會(huì)找的都能找到。
但是一篇可能不夠,因?yàn)槲蚁氡M可能的給大家剖析行業(yè)情況,讓大家在做選擇的時(shí)候不至于還不知道這是干啥的,只知道這個(gè)很火。
今天就先給大家講大數(shù)據(jù)分析工程師。
二、基本概念
對(duì)于一大部分想轉(zhuǎn)行做IT,做python的,都是沖著大數(shù)據(jù)分析來(lái)的,那你知道大數(shù)據(jù)分析的是啥嗎?你知道大數(shù)據(jù)分析的崗位職能分配情況嗎?
如果這些都答不上來(lái)的話,那就別追風(fēng)口,如果盲目的跟風(fēng),只會(huì)讓你進(jìn)來(lái)找不著北,到頭來(lái),浪費(fèi)1年時(shí)間,還的回去干老本行。
首先,我們經(jīng)常叫的大數(shù)據(jù)分析師有兩種崗位定位:
大數(shù)據(jù)科學(xué)家,Data Scientist,DS
大數(shù)據(jù)工程師,Data Engineer,DE
從這兩個(gè)單詞里,你就能看出端倪了,那接下來(lái)就以我在普華永道的工作經(jīng)歷告訴你,這兩者的區(qū)別,以及工作內(nèi)容劃分。
三、DS職能要求
1. 專業(yè)知識(shí)
DS的職能是算法分析,是基于對(duì)行業(yè)背景的了解幫助客戶作出預(yù)期計(jì)算。而這里面就會(huì)涉及到很多專業(yè)知識(shí),俗稱統(tǒng)計(jì)分析。
和pwc同事共事的時(shí)候,我經(jīng)常向他們討教關(guān)于DS的一些事情,再加上一起做項(xiàng)目,分工明確,也自然對(duì)DS更了解一些。我見(jiàn)過(guò)的DS都是碩士畢業(yè),還都是全美TOP10的學(xué)校,要么博士。
不是學(xué)歷歧視,是你要做這事情,就得要這點(diǎn)本事,你沒(méi)有7年,你的專業(yè)知識(shí)支撐不了你做DS。如果你不理解這句話,我給大家舉個(gè)例子:
大家都讀過(guò)小學(xué)(就怕我說(shuō)都讀過(guò)高中,你說(shuō)你初中畢業(yè)為了生存,就出來(lái)打拼了)不考慮天才好么,我們都是小老百姓。然后解題思路就是按照老師教的,而思路只局限在一元二次方程組,二元一次方程組,而讀過(guò)大學(xué)的,他可能直接用積分就給你解出來(lái)了;幾何題都做過(guò)對(duì)么,幾何題難的是什么?做輔助線啊!輔助線出來(lái),人人都是華羅庚,還喜歡后面跟一句,我要是畫出來(lái)了,我也會(huì)做。
這是什么?就是知識(shí)邊界啊。你所知道的星辰大海,只是別人的滄海一粟。所以專業(yè)知識(shí)必不可少。
2. 行業(yè)背景
接下來(lái)DS還需要有某個(gè)領(lǐng)域的行業(yè)背景,俗稱BK,background knowledge。你可能會(huì)奇怪為什么還要這。
因?yàn)榇髷?shù)據(jù)分析都是針對(duì)行業(yè)來(lái)做的,那么行業(yè)內(nèi)的行話,套路,潛規(guī)則,生存法則都是不一樣的,你要對(duì)公司做預(yù)期分析,你就得對(duì)行業(yè)有一個(gè)基本認(rèn)識(shí),甚至深入了解。
我們以前的DS,貫穿各大實(shí)體行業(yè),有保險(xiǎn)的,醫(yī)療的,建筑的,心理的,法律的等等。為什么要招那么多DS,就是因?yàn)槊總€(gè)DS都有自己擅長(zhǎng)的幾個(gè)領(lǐng)域。一定的BK能夠幫助DS在面對(duì)數(shù)據(jù)的時(shí)候快速的作出信息過(guò)濾,能夠在聊需求的時(shí)候,快速給出反饋。這才是價(jià)值。
3. 工具
到了第三塊,才是你們關(guān)心的python,為什么把python放最后?因?yàn)閜ython只是一個(gè)工具。對(duì)于開(kāi)發(fā)者來(lái)說(shuō),python可能是你們的底,但對(duì)于DS來(lái)說(shuō),python只是一個(gè)交通工具。
以前用excel VB,后來(lái)用java,現(xiàn)在還有人在用R,不過(guò)更多的還是python。這就好比說(shuō),現(xiàn)在如果你想去某個(gè)地方,坐地鐵能到的,基本都坐地鐵,因?yàn)橛挚煊址奖?。那沒(méi)有地鐵的時(shí)候呢?只能做公交。沒(méi)有公交的時(shí)候呢?就得騎自行車,或者走路。
所以DS從來(lái)不會(huì)關(guān)心代碼運(yùn)行效率,他們關(guān)心的是編碼效率。而python正好又是編碼效率極高的。
所以你要和我說(shuō)你在外面培訓(xùn)了4個(gè)月的大數(shù)據(jù)分析后,就想做DS了,那請(qǐng)你再考慮考慮。
四、DE職能要求
相對(duì)DS,DE就比較雜了,做的事情也多。就拿我來(lái)說(shuō),當(dāng)時(shí)中國(guó)data team 就3個(gè),2個(gè)DS,你說(shuō)我是DE也可以,說(shuō)我是打雜的也可以。因?yàn)镈S只負(fù)責(zé)算法輸出,而其余的都是我來(lái)做。
你們想想,一個(gè)項(xiàng)目光有算法能行嗎?誰(shuí)去執(zhí)行它,它要如何被外部調(diào)用?臟數(shù)據(jù)的清洗工作誰(shuí)來(lái)做?還有很多很多的事情需要你考慮。
那我一個(gè)個(gè)來(lái)說(shuō),首先DE最重要的事情就是輔助DS清洗數(shù)據(jù),我們叫data cleaning。因?yàn)楹芏鄷r(shí)候從外部拿到的數(shù)據(jù),無(wú)論是買來(lái)的,爬來(lái)的,還是已有的,都是原始數(shù)據(jù),DS需要對(duì)這部分?jǐn)?shù)據(jù)做一個(gè)預(yù)處理,否則很容易污染樣本數(shù)據(jù)。那DE的工作,很重要的一部分就是去清洗數(shù)據(jù)。至于規(guī)則是你和DS討論的,沒(méi)有一個(gè)固定的模版。
其次,剛剛說(shuō)到的數(shù)據(jù)來(lái)源,有一個(gè)是爬來(lái)的,所以你還得會(huì)爬蟲(chóng)。關(guān)于爬蟲(chóng)部分的內(nèi)容我會(huì)另起一篇,給大家好好講講。當(dāng)時(shí)我想做,但沒(méi)有做的一部分就是爬蟲(chóng),因?yàn)槿烙泻芏喙_(kāi)數(shù)據(jù)是可以去獲取的,當(dāng)時(shí)我想做的是分類,包括清洗、過(guò)濾、入庫(kù)、展示。沒(méi)來(lái)得及做。
如果你會(huì)爬蟲(chóng),DS就會(huì)很高興了,因?yàn)樗麄儾挥脼闆](méi)有數(shù)據(jù)犯愁了,你要知道,對(duì)于DS來(lái)說(shuō),數(shù)據(jù)的數(shù)量和質(zhì)量都是他們關(guān)心的東西。而老板更是了,因?yàn)镈S要數(shù)據(jù),他就要花錢去買,如果你是DE你說(shuō)你可以嘗試爬爬看,那老板對(duì)你什么看法?
那你如果還會(huì)做后端開(kāi)發(fā)就更好了,我當(dāng)然的主要經(jīng)歷就放在了自動(dòng)化建設(shè)上面。US那邊的老板是沒(méi)有要求做,那我是本著提升生產(chǎn)效率去的,所以是自己給自己加戲了。最后的效果還不錯(cuò),讓我一個(gè)任務(wù)從一周到1-2分鐘,只需要改配置就可以了,當(dāng)然這個(gè)過(guò)程是非常痛苦的,我們前前后后一起對(duì)需求,review代碼。
然后服務(wù)端寫好了,我們還可以做前端展示,對(duì)于vendor來(lái)說(shuō),他們不關(guān)心數(shù)據(jù)怎么來(lái)的,他們想看直接的東西,那不就是dashboard嗎?這塊我也沒(méi)做,只是開(kāi)了個(gè)頭。
后來(lái)發(fā)現(xiàn)我們有一個(gè)20人的app團(tuán)隊(duì)在做這個(gè)事情,我肯定沒(méi)有人家20個(gè)人做得好,但是起碼在他們交付前,我們data team也可以體現(xiàn)出價(jià)值來(lái)不是?否則只有等app team做完了,把我們的數(shù)據(jù)接入了,老板在看的到。
所以我一直強(qiáng)調(diào),價(jià)值是自我實(shí)現(xiàn)的,平臺(tái)給你的是機(jī)會(huì),能做多大,都看你自己。前幾天還和一個(gè)讀者說(shuō)這個(gè)事情,我說(shuō)別和我扯公司規(guī)范,流程,在我看來(lái)都是借口。
你做運(yùn)維,一定要等測(cè)試代碼過(guò)了給到你,才能發(fā)布,那你為什么不能把測(cè)試之后的步驟自動(dòng)化?讓測(cè)試自己提交jira,然后打鉤子,做CI/CD?部署服務(wù)器,和我說(shuō)測(cè)試服務(wù)器就要手搭,搭好了之后有一套腳本會(huì)自動(dòng)化部署其他服務(wù),那為什么不把創(chuàng)建服務(wù)器也自動(dòng)化?你又不是物理機(jī),你是云服務(wù)器啊。
題外話了,我們收回來(lái),所以對(duì)于DE來(lái)說(shuō),做的事情可以很多。那python就是我們的武器庫(kù)了,武器是爬蟲(chóng)、數(shù)據(jù)清洗、后端、前端等等,要什么拿什么,就看你有多少了。而武器庫(kù)里還可以加上kettle、tableau、informatica等等,這些只是附加項(xiàng)了。
這個(gè),培訓(xùn)機(jī)構(gòu)4個(gè)月培訓(xùn)一個(gè)武器,我是相信的。而他們鼓吹的大數(shù)據(jù)分析師,其實(shí)就是DE。不能說(shuō)絕對(duì),只能說(shuō)大部分把,給自己留條路……
五、總結(jié)
好了,今天說(shuō)了那么多,希望能給正在大數(shù)據(jù)分析路上的你,吃一顆定心丸,該走的路一步不能少。
相關(guān)文章
- 這篇文章主要介紹了大數(shù)據(jù)就業(yè)方向,簡(jiǎn)單總結(jié)分析了大數(shù)據(jù)所能從事的數(shù)據(jù)存儲(chǔ)和管理、數(shù)據(jù)挖掘、數(shù)據(jù)可視化等就業(yè)崗位及相關(guān)就業(yè)前景,需要的朋友可以參考下2019-07-08
2019年Java,php,運(yùn)維工程師轉(zhuǎn)型大數(shù)據(jù)前景展望,看看你屬于哪一類
這篇文章主要介紹了2019年Java,php,運(yùn)維工程師轉(zhuǎn)型大數(shù)據(jù)前景展望,總結(jié)分析了Java,php,運(yùn)維工程師等行業(yè)轉(zhuǎn)型大數(shù)據(jù)的發(fā)展前景與職業(yè)方向,需要的朋友可以參考下2019-07-052019年 Python就業(yè)市場(chǎng)行情好不好, 薪資多少?
這篇文章主要介紹了2019年 Python就業(yè)市場(chǎng)行情與薪資多少?結(jié)合大量數(shù)據(jù)總結(jié)分析了2019年P(guān)ython的市場(chǎng)需求、薪資待遇與就業(yè)行情,需要的朋友可以參考下2019-07-242019年高級(jí)Java開(kāi)發(fā)人員可以追求的五大就業(yè)機(jī)會(huì)解析
這篇文章主要介紹了2019年高級(jí)Java開(kāi)發(fā)人員可以追求的五大就業(yè)機(jī)會(huì),分析總結(jié)了高級(jí)java開(kāi)發(fā)人員就業(yè)所從事的DevOps工程師、項(xiàng)目經(jīng)理、業(yè)務(wù)分析師等職業(yè)所需要具備的技能與2019-07-032019年web前端開(kāi)發(fā)就業(yè)前景以及薪資待遇
這篇文章主要介紹了2019年web前端開(kāi)發(fā)就業(yè)前景以及薪資待遇,小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧2019-07-02- 這篇文章主要介紹了Python可以從事的工作/就業(yè)崗位,結(jié)合目前市場(chǎng)行情總結(jié)分析了學(xué)習(xí)Python可以從事的各種常見(jiàn)工作與相應(yīng)的薪資待遇,需要的朋友可以參考下2019-07-01
2019年IT行業(yè)就業(yè)形勢(shì)報(bào)告
這篇文章主要介紹了2019年IT行業(yè)就業(yè)形勢(shì)報(bào)告,通過(guò)大量數(shù)據(jù)形式分析了2019年IT熱門職位的相關(guān)技能需求與就業(yè)前景,需要的朋友可以參考下2019-06-28- Python作為人工智能和數(shù)據(jù)分析第一語(yǔ)言,使得Python程序員成了當(dāng)前人才市場(chǎng)的“搶手貨”,工資待遇也水漲船高。下面就來(lái)為大家介紹一下Python的前景怎么樣?就業(yè)薪資高嗎2019-06-26
Python的就業(yè)薪資具體多少?發(fā)展前景到底如何?
Python是一門面向?qū)ο蟮木幊陶Z(yǔ)言,編譯速度超快,從誕生到現(xiàn)在已經(jīng)20來(lái)個(gè)年頭了。Python的排名從去年開(kāi)始就借助人工智能持續(xù)上升,那么Python的就業(yè)薪資具體多少?發(fā)展前景2019-04-10- 在本篇文章中我們給大家整理了關(guān)于Python程序員就業(yè)行情以及前景分析的相關(guān)內(nèi)容,如果你是一個(gè)python程序員可以看一下,對(duì)你的就業(yè)有好處。2019-04-09