文章解釋了轉(zhuǎn)型為數(shù)據(jù)科學(xué)家的原因,整理了數(shù)據(jù)科學(xué)家應(yīng)該掌握的技能,著重介紹了從數(shù)據(jù)分析師轉(zhuǎn)型為數(shù)據(jù)科學(xué)家的具體方法。
如何從數(shù)據(jù)分析師華麗轉(zhuǎn)型,成為一名數(shù)據(jù)科學(xué)家?好比“把大象裝進(jìn)冰箱”,成為“數(shù)據(jù)科學(xué)家”僅需簡(jiǎn)單三步:
1. 進(jìn)入LinkedIn登錄你的賬號(hào)。
2. 點(diǎn)擊“編輯個(gè)人資料”。
3. 將 “數(shù)據(jù)分析師”這個(gè)詞替換為“數(shù)據(jù)科學(xué)家”。
搞定,就是這么簡(jiǎn)單!
理想很豐滿,現(xiàn)實(shí)很骨感。在現(xiàn)實(shí)生活中,我們必須承認(rèn):培養(yǎng)數(shù)據(jù)洞察能力絕非易事。
入門(mén)數(shù)據(jù)科學(xué)早已有許多優(yōu)秀的博文可供參考,比如以下兩篇:《成為Jet.com數(shù)據(jù)分析師的自學(xué)之路》和《入門(mén)數(shù)據(jù)科學(xué)需掌握的基礎(chǔ)知識(shí)》,但是為數(shù)據(jù)分析師提供轉(zhuǎn)型為數(shù)據(jù)科學(xué)家的方法的文章卻少之又少。
《成為Jet.com數(shù)據(jù)分析師的自學(xué)之路》:
https://medium.freecodecamp.org/a-path-for-you-to-learn-analytics-and-data-skills-bd48ccde7325
《入門(mén)數(shù)據(jù)科學(xué)需掌握的基礎(chǔ)知識(shí)》:
https://medium.freecodecamp.org/aspiring-data-scientist-master-these-fundamentals-be7c54350868
在我開(kāi)始介紹這條轉(zhuǎn)型之路前,我還是想先花些功夫詳細(xì)描述一下這兩種職業(yè)身份的具體職責(zé)。
數(shù)據(jù)分析師的主要工作是對(duì)數(shù)據(jù)進(jìn)行收集和處理,并通過(guò)統(tǒng)計(jì)算法分析已處理的結(jié)構(gòu)化數(shù)據(jù),從而為數(shù)據(jù)賦能,改良決策。
數(shù)據(jù)科學(xué)家也會(huì)進(jìn)行類(lèi)似的工作,但對(duì)其提出了更高的要求。除上述職責(zé)外,一個(gè)優(yōu)秀的數(shù)據(jù)科學(xué)家需要同時(shí)具備處理大量非結(jié)構(gòu)化數(shù)據(jù)的能力,甚至擁有對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)處理的能力。
他們不僅可以洞悉數(shù)據(jù)背后的價(jià)值,還會(huì)對(duì)數(shù)據(jù)進(jìn)行更深度的清洗和處理,并且用各種各樣的高級(jí)算法對(duì)數(shù)據(jù)進(jìn)行更深層的分析。除此之外,他們還具有很強(qiáng)的敘事能力和數(shù)據(jù)可視化能力。
我經(jīng)常會(huì)接觸到許多才華橫溢的分析師,他們急切地想要在數(shù)據(jù)科學(xué)界大展拳腳,卻總是找不合適的機(jī)會(huì),甚至不知從何入手——而這正是我寫(xiě)下這篇文章的主要原因。
為什么要成為數(shù)據(jù)科學(xué)家?
影響力:成為一名數(shù)據(jù)科學(xué)家意味著你將有機(jī)會(huì)發(fā)現(xiàn)和創(chuàng)造巨大的商業(yè)價(jià)值,發(fā)表更高層的決策意見(jiàn),甚至幫助企業(yè)尋找未來(lái)的發(fā)展方向。
成就感:數(shù)據(jù)科學(xué)是一個(gè)飛速發(fā)展的領(lǐng)域,其中有許多有趣的問(wèn)題亟待解決。作為一名數(shù)據(jù)科學(xué)家,你可以建立圖像識(shí)別系統(tǒng),開(kāi)發(fā)文本分類(lèi)器,識(shí)別社交媒體上的惡意評(píng)價(jià),投身解決一系列尚未攻克的難題。
前沿性:曾有人預(yù)言,人工智能將最終取代人類(lèi)工作。與其等著自己的工作被人工智能取代,不如主動(dòng)出擊,追上這一時(shí)代的浪潮。
薪酬待遇:也許數(shù)據(jù)科學(xué)家的薪酬還不足以讓你享受開(kāi)游艇喝香檳的奢靡生活,但相較于其他工作已經(jīng)相當(dāng)可觀。業(yè)界對(duì)數(shù)據(jù)科學(xué)家的需求量依舊較大,優(yōu)秀的數(shù)據(jù)科學(xué)家仍屬高薪稀缺人才。直白來(lái)講,為了更好的明天,努力成為一名優(yōu)秀的數(shù)據(jù)科學(xué)家吧!
數(shù)據(jù)科學(xué)——學(xué)得多,做得多,但賺得也多!
友情提示:量力而行,切忌盲從,不要被金錢(qián)和誘惑蒙蔽了雙眼,畢竟貪得無(wú)厭沒(méi)有好結(jié)果(“華爾街之狼”的下場(chǎng)很慘)。
我是否擁有成為數(shù)據(jù)科學(xué)家的資質(zhì)?
盡管培養(yǎng)處理棘手的數(shù)據(jù)結(jié)構(gòu)和(或)大型數(shù)據(jù)的能力需要數(shù)年的經(jīng)驗(yàn)積累,但別灰心,實(shí)際上大多數(shù)分析師在一定程度上已經(jīng)打下了成為數(shù)據(jù)科學(xué)家的基礎(chǔ)。換句話說(shuō),只要肯下功夫,轉(zhuǎn)型為數(shù)據(jù)科學(xué)家沒(méi)有想象中那么困難。
那么,成為一名合格的數(shù)據(jù)科學(xué)家到底需要掌握哪些技能?
一個(gè)復(fù)雜的數(shù)據(jù)科學(xué)項(xiàng)目可能由眾多子項(xiàng)目構(gòu)成,且項(xiàng)目流程又復(fù)雜多變,所以我們恐怕沒(méi)有辦法找到這個(gè)問(wèn)題的標(biāo)準(zhǔn)答案。單就近幾年數(shù)據(jù)科學(xué)的發(fā)展來(lái)看,成為一名數(shù)據(jù)科學(xué)家至少需要了解以下幾個(gè)方面的技能分支:
數(shù)據(jù)科學(xué)語(yǔ)言:Python / R。
關(guān)系型數(shù)據(jù)庫(kù)?:MySQL,Postgress。
非關(guān)系型數(shù)據(jù)庫(kù):MongoDB。
機(jī)器學(xué)習(xí)模型:回歸算法(Regression)、提升決策樹(shù)(Boosted Trees)、支持向量機(jī)(SVM)、神經(jīng)網(wǎng)絡(luò)(NNs)等。
圖像處理:Neo4J,GraphX
分布式計(jì)算:Hadoop,Spark
云計(jì)算?:GCP / AWS / Azure
API 交互:OAuth,Rest
數(shù)據(jù)可視化和Web應(yīng)用:D3,RShiny
專(zhuān)業(yè)領(lǐng)域:自然語(yǔ)言處理(NLP),光學(xué)字符識(shí)別(OCR)和計(jì)算機(jī)視覺(jué)(CV)
Boosted Trees模型在近幾年的數(shù)據(jù)科學(xué)競(jìng)賽中大放異彩。
RShiny數(shù)據(jù)儀表盤(pán)是一個(gè)優(yōu)秀的交互工具,可供用戶更加直觀地對(duì)數(shù)據(jù)進(jìn)行探索。
掌握這些技能需要很長(zhǎng)時(shí)間(可能比完成學(xué)位課程的時(shí)間還要長(zhǎng)),即使是為我們熟知的“牛人”們?nèi)栽诓粩嗟貙W(xué)習(xí)。但是,我們大可不必?fù)?dān)心自己能力有限,學(xué)習(xí)知識(shí)需要一步步的積累,掌握技能需要一步步的打磨。每天進(jìn)步一點(diǎn),總有一天我們將擁有足夠豐富的知識(shí)儲(chǔ)備和高水平的技能迎接未來(lái)的挑戰(zhàn)。
智力水平的高低無(wú)法決定我們是否可以獲得成功,堅(jiān)定的決心和頑強(qiáng)的意志才是通往成功的關(guān)鍵所在。
我具體應(yīng)該怎么做?
在開(kāi)始行動(dòng)前,我們需要掌握一些基本的技能:
樹(shù)立正確的信念?;蛟S在十年前,找到一門(mén)合適的數(shù)據(jù)軟件課程可能需要花費(fèi)數(shù)周之久,但時(shí)代已變,線上學(xué)習(xí)材料觸手可及,資源匱乏再也不是逃避學(xué)習(xí)的借口。我們必須保持持續(xù)學(xué)習(xí)的能力,不斷為自己充電,磨練自己的技術(shù)。
學(xué)習(xí)一門(mén)編程語(yǔ)言并提升你的數(shù)學(xué)能力。大多數(shù)人都是從學(xué)習(xí)Python和(或)R開(kāi)始數(shù)據(jù)科學(xué)之路的,而且Coursera和Udemy等網(wǎng)站上提供了大量相關(guān)的免費(fèi)課程資源。Python用戶喜歡通過(guò)Anaconda和Jupyter編程,而R用戶則較多地使用R Studio。就數(shù)學(xué)計(jì)算能力而言,吳恩達(dá)(Andrew Ng)的機(jī)器學(xué)習(xí)課程和斯坦福大學(xué)的神經(jīng)網(wǎng)絡(luò)課都很適合于轉(zhuǎn)型人士學(xué)習(xí)。
動(dòng)手解決問(wèn)題。你可以嘗試在工作中找到所遇到的實(shí)際問(wèn)題,與業(yè)務(wù)專(zhuān)家和數(shù)據(jù)工程師展開(kāi)合作,親自動(dòng)手解決這些問(wèn)題——這是最好的端到端開(kāi)發(fā)模式。
參加Kaggle比賽。還有什么比與數(shù)千人同臺(tái)競(jìng)賽更能提升建模技巧呢?Kaggle上的比賽要求十分清晰,提供的數(shù)據(jù)都已經(jīng)過(guò)清洗,非常值得一試。剛開(kāi)始不要太在意比賽的排名,以嘗試的心態(tài)開(kāi)始你的第一場(chǎng)比賽——每一次嘗試都是新的開(kāi)始。
緊隨領(lǐng)軍人物的動(dòng)態(tài)。有些人喜歡把為這一領(lǐng)域做出杰出貢獻(xiàn)的人比作“數(shù)據(jù)科學(xué)界的搖滾巨星”,他們的言行和工作非常值得你花時(shí)間去了解和學(xué)習(xí)——時(shí)常刷新Geoffrey Hinton,Andrew Ng,Yann LeCun,Rachel Thomas和Jeremy Howard等人的動(dòng)態(tài),你肯定會(huì)有所收獲。
高效地工作。在一定工作積累后,嘗試借助工具提升你的工作效率——使用GitHub等版本控制工具維護(hù)和儲(chǔ)存你的代碼,用Docker對(duì)你的代碼進(jìn)行封裝與發(fā)布。
有效地溝通。學(xué)會(huì)“推銷(xiāo)”自己的工作。高管們總是喜歡“華麗”的項(xiàng)目展示,所以當(dāng)你在做重要的工作報(bào)告時(shí)要努力“博眼球”,突出工作的亮點(diǎn)。
Twitter也是另一種獲取信息的媒介,Rachel Thomas等人的動(dòng)態(tài)十分值得關(guān)注。
為自己鋪路
即使你掌握了世界上所有的技能,如果你的公司無(wú)法提供合適的開(kāi)發(fā)工具,配置相應(yīng)的開(kāi)發(fā)環(huán)境,你也很難施展拳腳。
現(xiàn)實(shí)生活中總會(huì)有一些不可控的因素阻礙我們前進(jìn)的腳步,與其浪費(fèi)時(shí)間糾結(jié)于此,我們更加應(yīng)該關(guān)注那些我們可以改變的因素并積極做出行動(dòng)。
加入新的團(tuán)隊(duì),這是最簡(jiǎn)單可行的轉(zhuǎn)型方法。大多數(shù)中到大型的公司都至少會(huì)有一個(gè)小型數(shù)據(jù)科學(xué)團(tuán)隊(duì)——?jiǎng)e猶豫,加入他們!
與專(zhuān)業(yè)人士合作,如果你無(wú)法“跳槽”,那么就請(qǐng)想方設(shè)法找到在你認(rèn)識(shí)范圍內(nèi)知識(shí)最淵博的數(shù)據(jù)科學(xué)家并與之合作。
舉例來(lái)說(shuō),你可以在現(xiàn)有的工作中找到可自動(dòng)化完成的業(yè)務(wù)流程,然后帶著這一問(wèn)題找到這方面的專(zhuān)家。但這時(shí)千萬(wàn)不要直接把任務(wù)“甩”給這些專(zhuān)家,嘗試與他們合作,加入到問(wèn)題的解決過(guò)程中來(lái)。
搭建數(shù)據(jù)科學(xué)的內(nèi)部環(huán)境,并不是所有的公司都確定它們是否需要數(shù)據(jù)科學(xué)的幫助,或者他們并不知道如何引入數(shù)據(jù)科學(xué)作為分析工具。
傳統(tǒng)的分析系統(tǒng)已經(jīng)讓他們忙得不可開(kāi)交,且開(kāi)發(fā)新數(shù)據(jù)分析系統(tǒng)所帶來(lái)的安全和審計(jì)任務(wù)都相當(dāng)耗時(shí),因此他們只接受效益明顯的商業(yè)應(yīng)用方案——這就是你大顯身手的機(jī)會(huì),用你的知識(shí)儲(chǔ)備為公司搭建數(shù)據(jù)科學(xué)發(fā)展環(huán)境,引入合適的數(shù)據(jù)科學(xué)工具,培養(yǎng)內(nèi)部人員的數(shù)據(jù)思維,為數(shù)據(jù)科學(xué)團(tuán)隊(duì)儲(chǔ)備力量。
開(kāi)發(fā)一個(gè)明確的業(yè)務(wù)用例,你可以重新審視業(yè)務(wù)流程,思考如何將數(shù)據(jù)科學(xué)應(yīng)用到這些業(yè)務(wù)中,想辦法將數(shù)據(jù)科學(xué)與業(yè)務(wù)完美融合,借助業(yè)務(wù)應(yīng)用的成功案例為數(shù)據(jù)科學(xué)的后續(xù)發(fā)展鋪路。
與有更多技能的人合作,加入多元化的團(tuán)隊(duì)不僅可以幫助你更容易獲得更大的成就,你還可以在合作過(guò)程中學(xué)習(xí)到其他成員掌握的知識(shí)和擁有的技能。
尾記
種一棵樹(shù)最好的時(shí)間是十年前,其次是現(xiàn)在。珍惜這次機(jī)會(huì),馬上開(kāi)始你的學(xué)習(xí)之路,從實(shí)際問(wèn)題入手,步步攻克一系列難關(guān)。開(kāi)弓沒(méi)有回頭箭,你必須不斷努力,將全部的信心和熱情投入到工作中,你會(huì)驚訝地發(fā)現(xiàn)原來(lái)自己也可以獲得如此高的成就!
-
人工智能
+關(guān)注
關(guān)注
1791文章
47183瀏覽量
238209 -
數(shù)據(jù)分析
+關(guān)注
關(guān)注
2文章
1445瀏覽量
34048 -
數(shù)據(jù)科學(xué)
+關(guān)注
關(guān)注
0文章
165瀏覽量
10053
原文標(biāo)題:進(jìn)階指南:如何從數(shù)據(jù)分析師轉(zhuǎn)型為數(shù)據(jù)科學(xué)家?
文章出處:【微信號(hào):BigDataDigest,微信公眾號(hào):大數(shù)據(jù)文摘】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論