RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

分享進(jìn)行真實(shí)世界數(shù)據(jù)科學(xué)項(xiàng)目的經(jīng)驗(yàn)教訓(xùn)

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-10-08 09:05 ? 次閱讀

編者按:Deliveroo數(shù)據(jù)科學(xué)家Jonny Brooks-Bartlett分享了進(jìn)行真實(shí)世界數(shù)據(jù)科學(xué)項(xiàng)目的經(jīng)驗(yàn)教訓(xùn)。

引言

大多數(shù)關(guān)于如何“完成”數(shù)據(jù)科學(xué)任務(wù)的文章通常討論的是如何編寫解決問題的算法。例如,如何分類文本文檔或預(yù)測(cè)財(cái)經(jīng)數(shù)據(jù)。然而,這樣的任務(wù)僅僅是完成一個(gè)數(shù)據(jù)科學(xué)項(xiàng)目這一過程中的一小部分。即使你能完美寫出求解多類文本分類問題的算法,你仍將面臨很多問題:它在商業(yè)上有實(shí)際價(jià)值嗎?這一問題當(dāng)前有什么解決方案,你做了什么樣的評(píng)測(cè)能說服用戶信任你編寫的算法的輸出?算法部署到生產(chǎn)環(huán)境后,你能持續(xù)獲取反饋以了解算法輸出是否仍然有用嗎?

我將在這篇文章中討論一些開發(fā)維護(hù)高效、可持續(xù)的數(shù)據(jù)科學(xué)項(xiàng)目的指導(dǎo)意見。這篇指南基于我在自己的數(shù)據(jù)科學(xué)項(xiàng)目中得到的教訓(xùn),還結(jié)合了我看到的其他人進(jìn)行數(shù)據(jù)科學(xué)項(xiàng)目所犯的錯(cuò)誤。其中一些經(jīng)驗(yàn)未必適用于所有數(shù)據(jù)科學(xué)家,因?yàn)椴煌臄?shù)據(jù)科學(xué)家工作范圍不同。我所處的團(tuán)隊(duì)沒有專門的商業(yè)分析師、產(chǎn)品經(jīng)理、數(shù)據(jù)科學(xué)經(jīng)理。這意味著我本人需要承擔(dān)這些角色的部分職責(zé),我經(jīng)常在這方面做得不好。不過,對(duì)我而言,這是很有價(jià)值的學(xué)習(xí)體驗(yàn),我將在后文介紹我學(xué)到的一些東西。

特別提示:不管你是否同意我的胡扯,你應(yīng)該看下Warby Parker數(shù)據(jù)科學(xué)主管Max Shron的視頻Stakeholder-Driven Data Science at Warby Parker(利益相關(guān)者驅(qū)動(dòng)的數(shù)據(jù)科學(xué))。這是一個(gè)很棒的視頻,介紹了很多真實(shí)世界數(shù)據(jù)科學(xué)項(xiàng)目的情況。

成功項(xiàng)目應(yīng)該滿足哪些條件?

我發(fā)現(xiàn),在解決一個(gè)問題前,首先厘清怎樣才算成功是很有用的。(這里我們假定已經(jīng)清楚問題是什么,但請(qǐng)不要低估辨識(shí)出需要解決的問題的難度。)這有助于我制定達(dá)到最終目標(biāo)的策略。

你為何進(jìn)行這個(gè)項(xiàng)目?例如,這個(gè)項(xiàng)目帶來了什么價(jià)值,它為數(shù)據(jù)團(tuán)隊(duì)更大的目標(biāo)做了什么貢獻(xiàn)?

誰(shuí)是這個(gè)項(xiàng)目的主要利益相關(guān)者?

這一問題的當(dāng)前解決方案是什么?

是否存在可以快速實(shí)施的簡(jiǎn)單高效的解決方案?

你是否努力獲取相關(guān)人員的注意和信息

你是否找人評(píng)估過你的方案的合理性?

你是否努力確保代碼的魯棒性?

你是否努力確保項(xiàng)目容易理解,方便移交給別人維護(hù)?

如何在生產(chǎn)環(huán)境中驗(yàn)證你的模型?

如何收集解決方案的反饋?

就我的經(jīng)驗(yàn)而言,如果這些問題都能找到合適的答案,那么這個(gè)項(xiàng)目基本上就成了。當(dāng)然,取決于項(xiàng)目的具體情況,這并不是確鑿無疑的,上面的列表也遠(yuǎn)遠(yuǎn)沒有窮盡成功的條件。但不管怎么說,上面的列表是一個(gè)良好的開始。

如果你瞧不上我列出的問題,可以參考Kate Strachnyi的20個(gè)問題:https://towardsdatascience.com/20-questions-to-ask-prior-to-starting-data-analysis-6ec11d6a504b

下面介紹的步驟有助于應(yīng)對(duì)這些問題。

數(shù)據(jù)科學(xué)項(xiàng)目的五步方針

第一步:初步評(píng)估項(xiàng)目的潛在價(jià)值

為什么進(jìn)行這一步?這個(gè)問題有助于你設(shè)定項(xiàng)目的優(yōu)先級(jí)。你應(yīng)該能夠恰當(dāng)?shù)鼗卮馂槭裁匆粋€(gè)項(xiàng)目應(yīng)該在另一個(gè)項(xiàng)目之前完成。這個(gè)問題也讓我們更好地理解項(xiàng)目和團(tuán)隊(duì)、公司的目標(biāo)的一致性。此外,也為我們應(yīng)該優(yōu)化模型的哪些測(cè)度提供了指引。

這一步涉及什么?大致評(píng)估下收益,例如,節(jié)省的資金,增加的收益,節(jié)省的人力。有人不主張進(jìn)行這項(xiàng)評(píng)估,因?yàn)樽鲞@個(gè)評(píng)估很難,而且收益并不總是能夠量化。對(duì)此,我的回應(yīng)是:如果你或者利益相關(guān)者弄不清楚項(xiàng)目的價(jià)值,那么為什么要浪費(fèi)你或者利益相關(guān)者的時(shí)間呢?評(píng)估的數(shù)值不必完美,大概估計(jì)下就行。這一步也包括判定誰(shuí)是主要的利益相關(guān)者。

如果不做這一步會(huì)怎么樣?我們可能花費(fèi)大量時(shí)間進(jìn)行一個(gè)無人獲益的項(xiàng)目。我曾經(jīng)見過一個(gè)項(xiàng)目,需要數(shù)據(jù)科學(xué)團(tuán)隊(duì)識(shí)別值得營(yíng)銷團(tuán)隊(duì)聯(lián)系的最能帶來收益的客戶列表。創(chuàng)建模型之后,我們決定花幾個(gè)月的時(shí)間改進(jìn)這一模型。盡管新模型給出了更好的結(jié)果,但營(yíng)銷團(tuán)隊(duì)調(diào)整了閾值,因?yàn)樗麄儾辉诤鯙槊總€(gè)客戶生成的評(píng)分,只打算聯(lián)系固定數(shù)目的客戶。所以,花在改進(jìn)模型上的時(shí)間很可能毫無意義。(當(dāng)然,可能聯(lián)系的固定數(shù)目的客戶實(shí)際上能帶來更多收益,因?yàn)槟P透昧?,但因?yàn)闆]有測(cè)量這方面的數(shù)據(jù),所以我們并不知道這點(diǎn)是否成立。)

這一步的輸出是什么?項(xiàng)目?jī)r(jià)值的大概估計(jì)和簡(jiǎn)短的項(xiàng)目總結(jié)。注意,取決于公司和項(xiàng)目的情況,可能只需說明數(shù)據(jù)模型能夠帶來可以觀測(cè)到的收益,而無需估計(jì)具體數(shù)值。不過這很大程度上取決于公司政治。

有用資源:A Simple way to Model ROI of any new Feature(建模新特性ROI的簡(jiǎn)單方法)給出了一個(gè)簡(jiǎn)單的公式:期望ROI = (惠及用戶 × 新使用量/增加的使用量 × 商業(yè)價(jià)值) - 開發(fā)成本。Prioritizing data science work(為數(shù)據(jù)科學(xué)工作設(shè)定優(yōu)先級(jí))和Product and Prioritisation(產(chǎn)品和優(yōu)先級(jí)指定)這兩篇文章也值得一讀。

第二步:判定現(xiàn)有方法/創(chuàng)建基線模型

圖片來源:Rama Ramakrishnan

為什么進(jìn)行這一步?當(dāng)前的解決方法提供了一個(gè)評(píng)測(cè)的目標(biāo)。如果當(dāng)前存在解決方法,所有有用的模型都應(yīng)該勝過當(dāng)前方法。如果面臨的問題當(dāng)前尚無解決方案,那么你應(yīng)該開發(fā)一個(gè)基線模型?;旧希€模型就是不用機(jī)器學(xué)習(xí)的方案。復(fù)雜方案很可能只能提供一點(diǎn)增值,所以你需要評(píng)估下創(chuàng)建更復(fù)雜的模型是否值得。

這一步涉及什么?找利益相關(guān)者談下,他們當(dāng)前是怎么做的,取得了哪些成功。很可能他們并未測(cè)量成功程度,所以有時(shí)你需要自行估計(jì)/計(jì)算。創(chuàng)建基線模型不應(yīng)該設(shè)計(jì)任何復(fù)雜、需要大費(fèi)周折的方法。基線模型應(yīng)該是相當(dāng)迅速、原始的,甚至可能直接使用計(jì)數(shù)這樣簡(jiǎn)單的方法。

這一步的輸出是什么?基于基線量化評(píng)估成功模型(對(duì)利益相關(guān)者有用)需要達(dá)到什么樣的表現(xiàn)。評(píng)估是否值得創(chuàng)建復(fù)雜模型。

如果不做這一步會(huì)怎么樣?你可能浪費(fèi)時(shí)間創(chuàng)建了一個(gè)復(fù)雜的模型,結(jié)果發(fā)現(xiàn)不值得投入這些時(shí)間提高這點(diǎn)精確度,甚至不能戰(zhàn)勝當(dāng)前方法。我們創(chuàng)建自己的推薦引擎的時(shí)候就忽略了這一點(diǎn)。我們沒有檢查算法是否優(yōu)于實(shí)用的基線(推薦最流行的內(nèi)容)。很可能推薦算法沒有提供對(duì)得起投入的開發(fā)成本的價(jià)值。

有用資源Create a Common-Sense Baseline First(首先創(chuàng)建常識(shí)基線模型)和總是從蠢模型開始,強(qiáng)調(diào)了這一點(diǎn)。

第三步:“團(tuán)隊(duì)”討論

為什么進(jìn)行這一步?目前為止,我們已經(jīng)得出結(jié)論,項(xiàng)目值得進(jìn)行(第一步),有可行性(第二步),所以,是時(shí)候和相關(guān)人員談?wù)劻?,比?a target="_blank">工程師和其他數(shù)據(jù)科學(xué)家。應(yīng)該編寫什么代碼,需要什么數(shù)據(jù),應(yīng)該做哪些測(cè)試,使用哪些測(cè)度評(píng)估表現(xiàn),嘗試哪些模型方法,這些你現(xiàn)在應(yīng)該比較清楚了。你自己可能覺得需要做什么一清二楚,但是和別人討論一下常常有助于找到你遺漏的東西或者可以改進(jìn)的地方。不要低估讓不同視角的人參與討論的重要性。

這一步涉及什么?至少和另一個(gè)數(shù)據(jù)科學(xué)家聊一下,展示你已經(jīng)取得的結(jié)果。也許他們能告訴你如何改進(jìn)你的想法。開始開發(fā)模型前的討論必不可少,因?yàn)閷懞媚P秃笸ǔ>筒辉趺捶奖愦蟾牧?。同時(shí),和你討論的數(shù)據(jù)科學(xué)家也許會(huì)評(píng)審你的代碼,事先討論一下有助于他們了解上下文。和項(xiàng)目工程師聊下,他們負(fù)責(zé)產(chǎn)品化你的工作。他們可能需要知道可以期待什么,也可能提一些有助于產(chǎn)品化代碼的建議。

這一步的輸出是什么?沒有什么具體的輸出。這一步不過是在第一時(shí)間保證項(xiàng)目質(zhì)量。確保相關(guān)人員了解項(xiàng)目。

如果不做這一步會(huì)怎么樣?最好的情況,你獨(dú)自想出了怎么做這個(gè)項(xiàng)目,并避開了所有的坑。然而,更可能的情況是你沒有考慮到所有事情,漏掉了一些重要的事情。會(huì)碰到的典型問題包括將模型轉(zhuǎn)移到生產(chǎn)環(huán)境時(shí),難以遷移、處理存儲(chǔ)文件。模型輸出缺乏標(biāo)記,沒有給出最有用的格式。這是我開發(fā)一個(gè)模型時(shí)碰到的情況。我編寫的代碼中,有很多API調(diào)用是不必要。在本地的小數(shù)據(jù)集上,模型運(yùn)行得很好,但在生產(chǎn)環(huán)境中,加載數(shù)據(jù)很吃力。直到我求助一個(gè)工程師后才解決了問題(這個(gè)工程師幫助我查明了問題)。

第四步:模型研發(fā)

為什么進(jìn)行這一步?不用多說,最終解決問題靠的是模型。

這一步涉及什么?這取決于具體的項(xiàng)目。需要注意的是,模型研發(fā)并不等于創(chuàng)建模型。有太多關(guān)于如何編寫機(jī)器學(xué)習(xí)算法解決特定問題的文章了,所以我這里就不多說了。我想強(qiáng)調(diào)一些有助于產(chǎn)生高質(zhì)量產(chǎn)品代碼的步驟。通常情況下你不是唯一一個(gè)看代碼的人,所以代碼審閱和文檔對(duì)項(xiàng)目的壽命而言至關(guān)重要。在生產(chǎn)環(huán)境幾乎一定會(huì)碰到bug和意料之外的輸入,所以你可以通過代碼測(cè)試來緩解這些問題,增強(qiáng)代碼的魯棒性。這包括單元測(cè)試,集成測(cè)試,系統(tǒng)測(cè)試,用戶接受測(cè)試(UAT)。關(guān)于如何使代碼便于產(chǎn)品化的規(guī)范,不同團(tuán)隊(duì)可能有所不同,不過有一些東西是相通的:在隔離環(huán)境下工作(虛擬環(huán)境或Docker容器),記錄日志,使用配置文件。

這一步的輸出是什么?一個(gè)共享的代碼倉(cāng)庫(kù),其中包含解決項(xiàng)目所定義的問題所需的文件和可以工作的模型。

如果不做這一步會(huì)怎么樣?如果代碼未經(jīng)測(cè)試,邏輯上的錯(cuò)誤可能直到部署到生產(chǎn)環(huán)境后才暴露出來。如果代碼沒有經(jīng)過他人評(píng)審或者沒有文檔,你離職或者休年假的時(shí)候其他人很難接手。我之前做過的一些項(xiàng)目就不斷出問題。我現(xiàn)在還需要給9個(gè)月前“完工”的一個(gè)項(xiàng)目修bug. 這占用了我做其他有價(jià)值的事情的時(shí)間,令所有項(xiàng)目相關(guān)人員沮喪。在開發(fā)階段額外花一點(diǎn)時(shí)間保證代碼的魯棒性,長(zhǎng)期來看,可以節(jié)省你很多時(shí)間。

資源How to write a production-level code in Data Science?(如何編寫生產(chǎn)環(huán)境級(jí)別的數(shù)據(jù)科學(xué)代碼?)是一篇全面的指南,覆蓋了我能想到的一切東西。如果你是一個(gè)編寫生產(chǎn)環(huán)境級(jí)別的代碼的數(shù)據(jù)科學(xué)家,你應(yīng)該讀一下這篇文章。另外推薦Code Reviewing Data Science Work(數(shù)據(jù)科學(xué)工作的代碼審閱)和Doing Code Review Solo & Writing Good Code(自我審閱代碼 & 寫好代碼)這兩篇關(guān)于代碼審閱的文章。后一篇文章介紹了如何通過自我審閱代碼提高自己編寫的代碼的質(zhì)量,這并不能代替實(shí)際的代碼審閱。Code Documentation Guide(代碼文檔指南)介紹了如何恰當(dāng)?shù)鼐帉懳臋n。我個(gè)人很喜歡numpy風(fēng)格的docstring。關(guān)于代碼測(cè)試,我推薦How to unit test machine learning code(如何單元測(cè)試機(jī)器學(xué)習(xí)代碼)這篇指南,還有semaphore的Testing Python Applications with Pytest(使用Pytest測(cè)試Python應(yīng)用),我自己一個(gè)項(xiàng)目開始編寫測(cè)試的時(shí)候參考了這篇教程。semaphore上還有一篇Getting Started with Mocking in Python(Python偽造數(shù)據(jù)入門),介紹了如何為測(cè)試偽造數(shù)據(jù)。Python unit testing with Pytest and Mock(使用Pytest和Mock進(jìn)行Python單元測(cè)試)則是另一篇值得一讀的指南。

第五步:模型監(jiān)測(cè)和反饋

為什么進(jìn)行這一步?這是為了確保產(chǎn)品在生產(chǎn)環(huán)境中的表現(xiàn)符合期望。解決方案的輸出應(yīng)該是穩(wěn)定可靠的。如果出現(xiàn)了錯(cuò)誤,我們應(yīng)該是第一個(gè)知道的。模型的表現(xiàn)比期望的差嗎?生產(chǎn)環(huán)境的數(shù)據(jù)和訓(xùn)練數(shù)據(jù)的格式不一樣嗎?數(shù)據(jù)不正確嗎?自動(dòng)化檢測(cè)可以節(jié)省大量手工查看輸出、追查代碼以確保一切符合期望的時(shí)間。為公司提供價(jià)值是我們的職責(zé),所以我們應(yīng)該測(cè)量解決方案的影響力。是否良好運(yùn)作?需要調(diào)整嗎?創(chuàng)造了多少利潤(rùn)?使用有多頻繁?我們可以向管理層報(bào)告這些,以顯示數(shù)據(jù)科學(xué)的商業(yè)價(jià)值。

這一步涉及什么?在模型部署到生產(chǎn)環(huán)境后的一段時(shí)間內(nèi)(也許是兩三周),主動(dòng)地手工檢查所有一切運(yùn)作良好。然后自動(dòng)化檢測(cè)過程,也許可以創(chuàng)建一個(gè)控制面板和一套郵件預(yù)警系統(tǒng),和/或一個(gè)異常檢測(cè)系統(tǒng)。也許利益相關(guān)者也需要進(jìn)行監(jiān)測(cè),所以可能需要調(diào)整監(jiān)測(cè)方案,使其對(duì)非技術(shù)同事更友好。至于反饋方面,可能涉及和利益相關(guān)者討論如何接受反饋?定量反饋還是定性反饋?你可以在產(chǎn)品中編寫記錄使用數(shù)據(jù)的代碼,這樣不用明確要求利益相關(guān)者報(bào)告使用習(xí)慣。

這一步的輸出是什么?確保模型恰當(dāng)工作、提供解決方案使用量和價(jià)值的定性或定量反饋的方法和產(chǎn)品??赡芤舶ǔ鲥e(cuò)時(shí)的通知/預(yù)警系統(tǒng)。

如果不做這一步會(huì)怎么樣?如果沒有恰當(dāng)?shù)乇O(jiān)測(cè)我們的產(chǎn)品,我們將承擔(dān)產(chǎn)品出錯(cuò)時(shí)商業(yè)利益相關(guān)者喪失信任的風(fēng)險(xiǎn),同時(shí)也可能導(dǎo)致商業(yè)損失,團(tuán)隊(duì)嘗試修復(fù)問題也可能花掉大量時(shí)間。我曾經(jīng)碰到過的一個(gè)情況是,我們創(chuàng)建的數(shù)據(jù)分析工具給出了離譜的圖表。結(jié)果發(fā)現(xiàn)是原始數(shù)據(jù)提供商搞砸了數(shù)據(jù)。但是,利益相關(guān)者在團(tuán)隊(duì)之前發(fā)現(xiàn)了問題。之前模型研發(fā)階段描述過的魯棒性測(cè)試和自動(dòng)預(yù)警系統(tǒng)本應(yīng)該偵測(cè)到這個(gè)問題,但我們并沒有配備這些。當(dāng)數(shù)據(jù)最終回歸正常之后,利益相關(guān)者以為數(shù)據(jù)還是錯(cuò)的。我們數(shù)據(jù)團(tuán)隊(duì)花了2周時(shí)間檢查數(shù)據(jù),最后得出結(jié)論數(shù)據(jù)沒有出錯(cuò)!我們損失了2周的時(shí)間。自動(dòng)化監(jiān)測(cè)系統(tǒng)本可以將2周降至2分鐘!此外,如果我們不收集反饋,那我們就會(huì)對(duì)項(xiàng)目是否有用,甚至項(xiàng)目是否還在使用一無所知。我們?cè)诤褪袌?chǎng)團(tuán)隊(duì)的一次會(huì)議中詢問“你們?cè)谑褂眠@個(gè)模型嗎?”我們本不應(yīng)該提出這個(gè)問題,因?yàn)?1) 在第一步和第二步,我們應(yīng)該確保模型具有價(jià)值,并且超過了當(dāng)前解決方案/基線模型的表現(xiàn) 2) 我們應(yīng)該將監(jiān)測(cè)系統(tǒng)作為項(xiàng)目的一部分,而不是在一次不相關(guān)的會(huì)議中詢問利益相關(guān)者是否使用我們的項(xiàng)目。這顯示了我們并沒有測(cè)量模型的影響力。

沒提到的步驟

我的好朋友Michael Barber提醒我遺漏了一個(gè)重要步驟:評(píng)估。模型評(píng)估是一個(gè)極為重要的部分,不恰當(dāng)?shù)脑u(píng)估可能導(dǎo)致模型在生產(chǎn)環(huán)境中發(fā)生意料之外的退化。這方面,F(xiàn)ast.ai的Rachel Thomas寫過一篇出色的文章How (and why) to create a good validation set(如何/為何創(chuàng)建良好的驗(yàn)證集)。

此外,我完全忽略了試驗(yàn)。判定你的數(shù)據(jù)科學(xué)方案是否具備預(yù)想的影響力的最好方法之一是進(jìn)行試驗(yàn),A/B測(cè)試。Julia Silge寫過一篇出色的文章From Power Calculations to P-Values: A/B Testing at Stack Overflow(從功效計(jì)算到P值:StackOverflow的A/B測(cè)試)。

這里我不會(huì)深入這兩方面的細(xì)節(jié),因?yàn)檫@篇文章已經(jīng)太長(zhǎng)了。第三步和利益相關(guān)者討論的環(huán)節(jié)應(yīng)當(dāng)討論如何進(jìn)行模型評(píng)估和A/B測(cè)試。

結(jié)語(yǔ)

上面介紹了我覺得進(jìn)行一個(gè)成功的數(shù)據(jù)科學(xué)項(xiàng)目需要遵循的五大步驟。需要注意的是,數(shù)據(jù)科學(xué)家不一定要完全施行這5個(gè)步驟,因?yàn)橛行﹫F(tuán)隊(duì)有專門的成員負(fù)責(zé)其中一些任務(wù)。例如,商業(yè)分析師或產(chǎn)品經(jīng)理可能負(fù)責(zé)和利益相關(guān)者溝通,以決定一個(gè)項(xiàng)目是否有價(jià)值,需求是什么。同時(shí),不是所有的項(xiàng)目都需要這些步驟。如果項(xiàng)目是一次性分析,那么創(chuàng)建持續(xù)檢測(cè)輸出的面板就毫無必要。

現(xiàn)實(shí)一點(diǎn),你不需要遵循所有這些步驟以創(chuàng)建一個(gè)成功的數(shù)據(jù)科學(xué)項(xiàng)目。在大多數(shù)情形下,編寫一整套測(cè)試和文檔,同時(shí)為利益相關(guān)者配置監(jiān)測(cè)面板,一旦出現(xiàn)異常報(bào)警,不太實(shí)際。更可能的情況是,你需要權(quán)衡這些事情中哪些值得做,以便在(可能不合理)的截止日期前完成項(xiàng)目。我承認(rèn),我沒有一個(gè)項(xiàng)目完成了所有這些步驟,不過我當(dāng)時(shí)意識(shí)到了自己在做什么,以及為何在特定時(shí)刻這么做是一個(gè)實(shí)用的決策。

我還想指出的另一件重要的事是這些步驟僅僅是一些有助于項(xiàng)目成功的指導(dǎo)原則。而想要成為一個(gè)成功的數(shù)據(jù)科學(xué)家,還需要具備一些品質(zhì),掌握一些技能。我推薦閱讀My two cents on what makes a good data scientist nowadays?(今時(shí)今日的優(yōu)秀數(shù)據(jù)科學(xué)家需要具備什么條件,我的一點(diǎn)看法)和4 Must Have Skills Every Data Scientist Should Learn(數(shù)據(jù)科學(xué)家必備的4項(xiàng)技能)這兩篇文章。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4607

    瀏覽量

    92828
  • 數(shù)據(jù)科學(xué)

    關(guān)注

    0

    文章

    165

    瀏覽量

    10053

原文標(biāo)題:如何構(gòu)建有價(jià)值的真實(shí)世界數(shù)據(jù)科學(xué)項(xiàng)目

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    名單公布!【書籍評(píng)測(cè)活動(dòng)NO.33】做了50年軟件開發(fā),總結(jié)出60條經(jīng)驗(yàn)教訓(xùn),每一條都太扎心!

    都復(fù)雜至極, 沒人能完全梳理明白。 而且我也沒有過度涉及軟件開發(fā)的其他領(lǐng)域,如編程、測(cè)試及配置管理等。 本書中介紹的經(jīng)驗(yàn)教訓(xùn)的主題大多彼此獨(dú)立,所以你可以按你自己喜歡的節(jié)奏與順序進(jìn)行閱讀。 每一章都以
    發(fā)表于 05-17 14:36

    【《軟件開發(fā)珠璣》閱讀體驗(yàn)】2 經(jīng)驗(yàn)教訓(xùn) 好記性不如爛筆頭

    在第3章 的經(jīng)驗(yàn)教訓(xùn)7中,作者提出了,“好記性不如爛筆頭”。作者在一提出逆向工程的過程中,如果不在工作進(jìn)行記錄,那么最的的收獲是非常少的。同時(shí)還分析了有些人畏懼下筆,有些人不愿意花時(shí)間將需要記錄下來
    發(fā)表于 06-24 14:29

    求大神分享單片機(jī)從業(yè)的經(jīng)驗(yàn)教訓(xùn)和學(xué)習(xí)歷程?

    求大神分享單片機(jī)從業(yè)的經(jīng)驗(yàn)教訓(xùn)和學(xué)習(xí)歷程?
    發(fā)表于 09-18 09:16

    珠海炬力與SigmaTel達(dá)成和解的經(jīng)驗(yàn)教訓(xùn)

    珠海炬力與SigmaTel達(dá)成和解的經(jīng)驗(yàn)教訓(xùn):珠海炬力是我國(guó)一家領(lǐng)先的集成電路設(shè)計(jì)公司,成立以來堅(jiān)持以市場(chǎng)為導(dǎo)向,堅(jiān)持自主創(chuàng)新。因此在公司發(fā)展,市場(chǎng)開拓等等方面成績(jī)斐然,
    發(fā)表于 12-24 10:58 ?4次下載

    摩托羅拉聯(lián)席CEO布朗總結(jié)經(jīng)驗(yàn)教訓(xùn)

    摩托羅拉聯(lián)席CEO布朗總結(jié)經(jīng)驗(yàn)教訓(xùn)     據(jù)《商業(yè)周刊》報(bào)道,摩托羅拉一度是世界上占據(jù)主導(dǎo)地位的手機(jī)制造商,不過在過去幾年,該公司的業(yè)績(jī)急劇下滑。
    發(fā)表于 05-21 00:48 ?522次閱讀

    借鑒嵌入式系統(tǒng)開發(fā)人員經(jīng)驗(yàn)教訓(xùn)確保構(gòu)建的嵌入式系統(tǒng)達(dá)成目標(biāo)

    工程師一刻也沒忘記交付達(dá)到質(zhì)量、時(shí)間安排和預(yù)算目標(biāo)的項(xiàng)目的需求。您可以借鑒嵌入式系統(tǒng)開發(fā)人員社區(qū)多年來累計(jì)的經(jīng)驗(yàn)教訓(xùn),確保您下一個(gè)嵌入式系統(tǒng)項(xiàng)目達(dá)成這些目標(biāo)。下面我們來了解一些為嵌入式開發(fā)帶來了最佳
    發(fā)表于 11-16 19:38 ?1153次閱讀
    借鑒嵌入式系統(tǒng)開發(fā)人員<b class='flag-5'>經(jīng)驗(yàn)教訓(xùn)</b>確保構(gòu)建的嵌入式系統(tǒng)達(dá)成目標(biāo)

    借鑒開發(fā)人員累計(jì)的經(jīng)驗(yàn)教訓(xùn)構(gòu)建更出色的嵌入式系統(tǒng)

    隨著嵌入式系統(tǒng)不斷普及,我們可以從積累的開發(fā)知識(shí)中獲得巨大優(yōu)勢(shì),構(gòu)建更出色的系統(tǒng)。 工程師一刻也沒忘記交付能同時(shí)滿足質(zhì)量、時(shí)間安排和預(yù)算目標(biāo)的項(xiàng)目的需求。一個(gè)事半功倍的方法 就是借鑒嵌入式系統(tǒng)開發(fā)人員社區(qū)多年來累計(jì)的經(jīng)驗(yàn)教訓(xùn)。
    發(fā)表于 11-16 20:44 ?1118次閱讀
    借鑒開發(fā)人員累計(jì)的<b class='flag-5'>經(jīng)驗(yàn)教訓(xùn)</b>構(gòu)建更出色的嵌入式系統(tǒng)

    工程師跨度13年、回顧194個(gè)bug總結(jié)的18條編碼、測(cè)試和調(diào)試經(jīng)驗(yàn)教訓(xùn)

    工程師跨度13年、回顧194個(gè)bug總結(jié)的18條編碼、測(cè)試和調(diào)試經(jīng)驗(yàn)教訓(xùn)
    發(fā)表于 02-27 16:50 ?1074次閱讀

    PCB layout之USB差分走線布線經(jīng)驗(yàn)教訓(xùn)

    PCB layout之USB差分走線布線經(jīng)驗(yàn)教訓(xùn)。USB是一種快速、雙向、同步傳輸、廉價(jià)、方便使用的可熱拔插的串行接口。由于數(shù)據(jù)傳輸快,接口方便,支持熱插拔等優(yōu)點(diǎn)使USB設(shè)備得到廣泛應(yīng)用。目前
    的頭像 發(fā)表于 03-01 08:35 ?7.5w次閱讀

    google機(jī)器學(xué)習(xí)團(tuán)隊(duì)開發(fā)機(jī)器學(xué)習(xí)系統(tǒng)Seti的一些經(jīng)驗(yàn)教訓(xùn)

    system》的博客,作者應(yīng)該是google機(jī)器學(xué)習(xí)團(tuán)隊(duì)的成員,列舉了他們?cè)陂_發(fā)一個(gè)可伸縮的大型機(jī)器學(xué)習(xí)系統(tǒng)Seti時(shí)所積累的一些經(jīng)驗(yàn)教訓(xùn)。雖然所列出的三點(diǎn)教訓(xùn)看起來都很簡(jiǎn)單,似乎顯而易見,但在現(xiàn)實(shí)操作中
    發(fā)表于 06-01 09:25 ?1674次閱讀

    企業(yè)如何從智能家居中吸取經(jīng)驗(yàn)教訓(xùn)

    這是一個(gè)機(jī)會(huì)眾多的領(lǐng)域,越來越多的設(shè)備制造商正在嘗試?yán)眠@一領(lǐng)域,并且具有無限可能性——尤其是那些能夠從智能家居中吸取經(jīng)驗(yàn)教訓(xùn)的企業(yè)。
    的頭像 發(fā)表于 11-19 14:17 ?2831次閱讀

    寫在最前:?jiǎn)纹瑱C(jī)從業(yè)的經(jīng)驗(yàn)教訓(xùn)和歷程。

    單片機(jī)從業(yè)的經(jīng)驗(yàn)教訓(xùn)和歷程寫在開始為什么寫這些怎么學(xué)習(xí)的有什么教訓(xùn)經(jīng)驗(yàn)**1如果你的學(xué)校還在用匯編教學(xué)單片機(jī),那么請(qǐng)放棄教學(xué)課程混個(gè)及格就行,然后開始自學(xué)**。**2光看不練,看也白看。****3
    發(fā)表于 11-15 13:36 ?7次下載
    寫在最前:?jiǎn)纹瑱C(jī)從業(yè)的<b class='flag-5'>經(jīng)驗(yàn)教訓(xùn)</b>和歷程。

    NASA的經(jīng)驗(yàn)教訓(xùn)文件中的一些電氣工程事故

    在航天器完成之前,美國(guó)宇航局的經(jīng)驗(yàn)教訓(xùn)檔案中的一個(gè)條目詳細(xì)介紹了一名工程師在下班后在沒有適當(dāng)測(cè)試協(xié)議的情況下對(duì)麥哲倫動(dòng)力控制單元進(jìn)行測(cè)試。如果沒有質(zhì)量保證概述或測(cè)試程序,就會(huì)出現(xiàn)錯(cuò)誤并在設(shè)備上施加反向電壓。
    的頭像 發(fā)表于 10-20 14:29 ?892次閱讀

    從50多個(gè)生物識(shí)別可穿戴產(chǎn)品開發(fā)周期得到的十大經(jīng)驗(yàn)教訓(xùn)

    從50多個(gè)生物識(shí)別可穿戴產(chǎn)品開發(fā)周期得到的十大經(jīng)驗(yàn)教訓(xùn)
    發(fā)表于 11-01 08:26 ?0次下載
    從50多個(gè)生物識(shí)別可穿戴產(chǎn)品開發(fā)周期得到的十大<b class='flag-5'>經(jīng)驗(yàn)教訓(xùn)</b>

    嵌入式微控制器應(yīng)用中的無線(OTA)更新:設(shè)計(jì)權(quán)衡與經(jīng)驗(yàn)教訓(xùn)

    電子發(fā)燒友網(wǎng)站提供《嵌入式微控制器應(yīng)用中的無線(OTA)更新:設(shè)計(jì)權(quán)衡與經(jīng)驗(yàn)教訓(xùn).pdf》資料免費(fèi)下載
    發(fā)表于 11-23 16:01 ?0次下載
    嵌入式微控制器應(yīng)用中的無線(OTA)更新:設(shè)計(jì)權(quán)衡與<b class='flag-5'>經(jīng)驗(yàn)教訓(xùn)</b>
    RM新时代网站-首页