面試機(jī)器學(xué)習(xí)方面的工作時(shí),在簡歷的個(gè)人項(xiàng)目那塊,你會寫什么?建模?做機(jī)器學(xué)習(xí)項(xiàng)目?項(xiàng)目數(shù)據(jù)從哪兒來?在 SharpestMinds 創(chuàng)始人 Edouard Harris 介紹的兩個(gè)成功例子中,人家是從基礎(chǔ)的收集數(shù)據(jù)開始一步步做項(xiàng)目的:目標(biāo)明確,做到極致。
我是一名物理學(xué)家,在 YC startup 工作。我們的任務(wù)是幫應(yīng)屆生找到自己的第一份機(jī)器學(xué)習(xí)工作。
要找到第一份機(jī)器學(xué)習(xí)工作,你要做的一件事就是建立自己的機(jī)器學(xué)習(xí)項(xiàng)目集(portfolio)?,F(xiàn)在,我來告訴你答案。
你可能會奇怪為什么這很重要,那是因?yàn)?a target="_blank">招聘經(jīng)理通常會通過你的履歷來了解你,如果你沒有履歷,個(gè)人項(xiàng)目就是最接近的替代品。
因?yàn)槁殬I(yè)原因,我見過數(shù)百份個(gè)人項(xiàng)目的案例,有做得極好的,也有做得極差的。我將向你展示兩個(gè)極好的案例。
全力以赴型
接下來要說的是一件真實(shí)的故事,只不過隱私起見我改了主人公的名字。
公司 X 使用 AI 提醒雜貨店何時(shí)該訂購新的庫存。我們這邊有個(gè)學(xué)生——Ron,很想去 X 公司工作,所以他建立了個(gè)人項(xiàng)目,該項(xiàng)目完全是針對去該公司面試用的。
我們通常不建議這樣對著一家公司全力以赴做準(zhǔn)備。這有點(diǎn)冒險(xiǎn)。不過,像 Ron 這樣真的非常想去這家公司就另當(dāng)別論了。
紅色邊框標(biāo)出了缺失項(xiàng)。
Ron 剛開始把手機(jī)貼到購物車上。然后,他推著購物車在過道來回走動,同時(shí)用相機(jī)記錄。他在不同的雜貨店做了 10 到 12 次。
回到家后,Ron 開始建立一個(gè)機(jī)器學(xué)習(xí)模型。他的模型發(fā)現(xiàn)了雜貨店貨架上的空缺點(diǎn):貨架上缺少玉米片(或其他東西)的位置。
Ron 在 GitHub 上實(shí)時(shí)建立了他的模型,完全公開。每天,他都會改進(jìn)他的 repo(提高準(zhǔn)確率,并在他的 repo 的 README 中記錄項(xiàng)目變化。)
當(dāng) X 公司意識到 Ron 正在這樣做時(shí),X 公司很感興趣,而且不止是感興趣,事實(shí)上,X 公司有點(diǎn)緊張。他們?yōu)槭裁磿o張?因?yàn)?Ron 在不知不覺中,在幾天內(nèi)復(fù)制了他們專有技術(shù)堆棧的一部分。
當(dāng)然,Ron 所做的遠(yuǎn)遠(yuǎn)不夠完美:X 公司已經(jīng)投入了比 Ron 多幾個(gè)數(shù)量級的資源來解決這個(gè)問題。但由于太相似,他們很快就叫 Ron 將他的 repo 私有化。
X 公司的技術(shù)在同行業(yè)中名列前茅。盡管如此,在 4 天內(nèi),Ron 的項(xiàng)目得到了 X 公司首席執(zhí)行官的直接個(gè)人關(guān)注。
飛行員項(xiàng)目
以下是另一個(gè)真實(shí)故事:
Alex 是一名歷史專業(yè)大學(xué)生,主修俄語(真的),同時(shí)他對機(jī)器學(xué)習(xí)感興趣。更為不同尋常的是,盡管他從未編寫過 Python 代碼,但他還是決定學(xué)習(xí)它。
Alex 選擇通過構(gòu)建實(shí)用項(xiàng)目來學(xué)習(xí)。他決定建立一個(gè)分類器,以檢測戰(zhàn)斗機(jī)飛行員是否在飛機(jī)上失去意識。Alex 希望通過觀察飛行員的視頻來發(fā)現(xiàn)這一點(diǎn)。他知道一個(gè)人很容易通過觀察,在一名飛行員失去知覺時(shí)告訴他,所以 Alex 認(rèn)為機(jī)器也應(yīng)該可以做到。
這是 Alex 在幾個(gè)月中所做的事情:
Alex 的 G-force 誘導(dǎo)失去意識探測器的演示。
Alex 在 YouTube 上下載了從駕駛艙中拍攝的飛行員駕駛飛機(jī)的所有視頻片段(大約數(shù)十個(gè))。
接下來他開始標(biāo)記數(shù)據(jù)。Alex 構(gòu)建了一個(gè) UI,讓他可以滾動瀏覽數(shù)千個(gè)視頻幀,按一個(gè)按鈕表示「有意識」,另一個(gè)按鈕表示「無意識」,并自動將該幀保存在正確標(biāo)記的文件夾中。這個(gè)標(biāo)記過程非常非常無聊,花了他很多天時(shí)間。
Alex 為圖像構(gòu)建了一個(gè)數(shù)據(jù)管道,可以將飛行員從駕駛艙背景中剪裁出來,使他的分類器更容易專注于飛行員。最后,他建立了他的意識喪失分類器。
在他做所有這些事情的同時(shí),Alex 也在社交活動中向招聘經(jīng)理展示他的項(xiàng)目快照。每當(dāng)他拿出他的項(xiàng)目并在手機(jī)上展示時(shí),他們會問他是如何做到的,他如何建造管道,以及如何收集數(shù)據(jù)。但他們從來沒有詢問他的模型準(zhǔn)確率(低于 50%)。
當(dāng)然,Alex 也計(jì)劃提高其準(zhǔn)確率,但在動手之前就被錄用了。結(jié)果證明,公司更看重他項(xiàng)目的視覺效果以及他在數(shù)據(jù)收集過程中表現(xiàn)出的瘋狂與智慧,而不是他的模型的準(zhǔn)確率。
他們之間的共同點(diǎn)
Ron 和 Alex 為什么如此成功?因?yàn)樗麄冏鰧α艘韵滤募拢?/p>
他們沒有在建模上浪費(fèi)太多精力。我知道這聽起來很奇怪,但對于今天的很多用例來說,建模是一個(gè)已經(jīng)解決的問題。在實(shí)際工作中,除非你做的是最前沿的研究,否則你的時(shí)間 80%~90% 都會花在清洗數(shù)據(jù)上。你的個(gè)人項(xiàng)目又怎能例外?
他們自己收集數(shù)據(jù)。正因?yàn)槿绱?,他們得到的最終數(shù)據(jù)比 Kaggle 或 UCI 數(shù)據(jù)庫中的數(shù)據(jù)更混亂。但也正是這些混亂的數(shù)據(jù)提高了他們處理混亂數(shù)據(jù)的能力。比起從學(xué)術(shù)服務(wù)器上下載數(shù)據(jù),這種做法讓他們能夠更好地理解自己的數(shù)據(jù)。
他們將做出的東西可視化。所謂面試,并不是說由一位無所不知的裁判對你的能力做出客觀的評估,而是將你自己推銷給另一個(gè)人。人是視覺動物。如果你掏出手機(jī)向面試官展示你的作品,那么你要確保自己做的東西看起來有趣,這點(diǎn)非常值得。
他們的所作所為看起來確實(shí)有點(diǎn)瘋狂。正常人不會用膠帶把自己的手機(jī)綁在購物車上。正常人也不會花那么長時(shí)間從 YouTube 上裁剪飛行員視頻。什么人才會做這種事?那些不顧一切完成目標(biāo)的人才會這么干。公司最想雇傭的就是這種人。
Ron 和 Alex 的所作所為可能看起來太夸張,但實(shí)際上,這和你在真正的工作中要做的事差不多。這就是要點(diǎn):當(dāng)你沒有做某事的工作經(jīng)驗(yàn)時(shí),招聘經(jīng)理會看你做過的和某事相類似的經(jīng)歷。
幸運(yùn)的是,這種程度的項(xiàng)目你只要做一兩次就好——Ron 和 Alex 就在所有的面試中重復(fù)使用之前準(zhǔn)備的項(xiàng)目。
因此,如果用一句話來概括偉大 ML 項(xiàng)目的秘密的話,那就是:用一個(gè)有趣的數(shù)據(jù)集來構(gòu)建一個(gè)項(xiàng)目,這個(gè)數(shù)據(jù)集需要很大的努力來收集,并且盡可能地在視覺上有影響力。
-
分類器
+關(guān)注
關(guān)注
0文章
152瀏覽量
13179 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8406瀏覽量
132561
原文標(biāo)題:舉兩個(gè)栗子:如何正確建立個(gè)人的機(jī)器學(xué)習(xí)項(xiàng)目集
文章出處:【微信號:DBDevs,微信公眾號:數(shù)據(jù)分析與開發(fā)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論