我們和大家分享了哪些問題適合于用機器學習來解決。在明確了問題之后我們就需要來解決問題,本文要描述的是產(chǎn)品經(jīng)理在開發(fā)機器學習產(chǎn)品時所需要的能力。
第一部分提到產(chǎn)品經(jīng)理的核心能力并不會因為應(yīng)用到機器學習技術(shù)而改變,而只是在某些方面需要有所加強。產(chǎn)品經(jīng)理一般需要五種核心能力,包括客戶共情/設(shè)計分解,溝通、合作、商業(yè)策略和技術(shù)理解力。在機器學習領(lǐng)域需要增強的可能是技術(shù)方面的理解能力,因為產(chǎn)品經(jīng)理需要理解機器學習系統(tǒng)的操作才能做出較好的產(chǎn)品決策。你可以向工程師學習也可以通過書本和網(wǎng)絡(luò)教程充電。但如果你對機器學習系統(tǒng)的運行沒有很好的理解,那么你的產(chǎn)品很可能會遇到很多問題。
算法的局限性
機器學習使用的每一個算法都基于特定的任務(wù)進行優(yōu)化,無法覆蓋真實情況下每一個細微的差別。理解算法的能力和局限將會幫助你把握住用戶體驗中存在的差距,并且通過優(yōu)化產(chǎn)品設(shè)計或算法來解決。這是作為產(chǎn)品經(jīng)理必須要掌握的能力。關(guān)于算法的不足我們用幾個例子來說明。
數(shù)據(jù)中的偏差
機器學習算法從數(shù)據(jù)中學習模式,所以數(shù)據(jù)的質(zhì)量決定了算法的表現(xiàn)。機器學習產(chǎn)品需要面對的第一個挑戰(zhàn)便是這些數(shù)據(jù)要能夠充分代表你的用戶。有一個很負面的例子,就是google將黑人兄弟識別成了大猩猩。
所以保證數(shù)據(jù)代表你所有的用戶是產(chǎn)品成功的關(guān)鍵。有時候偏差的存在并不是來自于數(shù)據(jù)收集的錯誤,而是數(shù)據(jù)固有的特性。就像IBM沃森利用俚語的都市字典進行訓練后會輸出惡毒的語言一樣。我們期待的是輸出禮貌的語言,但機器學習卻學到了語言集中不好的部分。所以在精訓練的時候需要對數(shù)據(jù)進行一定的清晰。
另一個例子,一般發(fā)達國家的互聯(lián)網(wǎng)人數(shù)相較于發(fā)展中國家多。如果你基于搜索次數(shù)對搜索習慣進行建模的話,就會得到發(fā)達國家更多的結(jié)果,那么建模就不能準確的反映各國人民的上網(wǎng)習慣了,例如非洲的用戶。對于數(shù)據(jù)偏差的審視將幫助你意識到產(chǎn)品不希望出現(xiàn)的用戶體驗。
精度和召回率的權(quán)衡
例如兩個團隊利用相同的預(yù)測產(chǎn)品預(yù)測有害行為,但團隊的目標卻各不相同。一個團隊僅僅想要識別出有害行為的人,而不管行為良好的人,他們希望每個良好行為的人都來用這個產(chǎn)品,所以精度對于這個團隊就十分重要。而另一個各團隊則僅僅只讓行為良好的人使用,即使限制了少數(shù)行為良好的人也在所不辭,所以他們更注重的是召回率。精確率和召回率是兩個此消彼長的指標。你需要針對用戶需求的實際情況來確定有限考慮哪一個指標。下面的曲線反應(yīng)了召回率和精度的關(guān)系。
根據(jù)不同的問題,可以通過調(diào)節(jié)是的模型具有不同的召回率和精度分布。同時使用不同類型的模型也可以改變曲線的分布情況。
冷啟動
冷啟動是來自于汽車發(fā)動機的一個術(shù)語,發(fā)動機需要預(yù)熱后才能達到較好的表現(xiàn)。這對于機器學習來說也是一樣的,當機器學習面對新用戶或者新數(shù)據(jù)時也需要一個預(yù)熱過程來達到較優(yōu)的表現(xiàn)。
從用戶出發(fā):這樣的情況一般發(fā)生在新用戶第一次使用產(chǎn)品的時候,模型對于用戶還沒有任何的了解。例如網(wǎng)站一般都能像用戶推薦一些喜歡的內(nèi)容,但第一次使用網(wǎng)站時網(wǎng)站并不知知道你的喜好所以算法很難給出個性化的推薦。這樣的情況一般通過下面三種方法解決:
1.給用戶從隨機推薦的數(shù)據(jù)中做出預(yù)先的偏好選項;
2.根據(jù)地理位置等基本信息為用戶分類,并基于人群偏好給出推薦;
3.用戶手動設(shè)置自己的偏好類型。
從實例出發(fā):這樣的情況一般發(fā)生在某個新產(chǎn)品第一次上線的時候,例如商品、電影等。例如Netflix上新上線的電影很難做出向哪類用戶推薦的選擇,特別是在電影元數(shù)據(jù)缺失的情況下。和用戶出發(fā)的解決方式相同,主要有兩種方法:
1.人工標注,請專家分類并補充電影元數(shù)據(jù),這樣就能想匹配的人群推薦;
2.基于算法,用算法記錄對新產(chǎn)品感興趣的用戶,并根據(jù)這些信息不斷收縮用戶范圍。
反饋閉環(huán)
由于算法并不完美,可能會得出錯誤的預(yù)測或者識別結(jié)果。這就需要我們?yōu)楫a(chǎn)品設(shè)計一種反饋機制來對算法提供反饋,這樣就可以使得算法隨著時間不斷改進。反饋的形式多種多樣,可以簡單的記錄下負樣本的信號,例如記錄下用戶滾動頁面的速度或者閱讀停留時長。更為精確的方法是設(shè)計在算法失效的時候讓用戶主動介入的機制,例如給出差評或者忽略預(yù)測,當算法給出好結(jié)果時給予好評。
充分利用/探索新世界
我們用信息分發(fā)推薦業(yè)務(wù)作為例子。如果網(wǎng)站算法發(fā)現(xiàn)我比較喜歡足球,那么在給我推薦電影或者相關(guān)文章的時候就會主要推薦與足球相關(guān)的內(nèi)容。這時候網(wǎng)站就充分利用了我喜歡足球這一特征,不斷的給我推薦相關(guān)內(nèi)容。但這種方式的弊端在于,我還有其他感興趣的內(nèi)容,但算法把我和他們隔絕開來了。大家可能還記得以前新聞app總是給你推薦看過內(nèi)容類似的新聞,甚至有時候負新聞不絕于耳,這意味著算法出現(xiàn)了較大的偏差,這樣的filter bubble在媒體行業(yè)中很常見。
那么為了解決這一狀況需要給用戶以探索新內(nèi)容的機會,給用戶周期性的呈現(xiàn)隨機的探索內(nèi)容,并根據(jù)用戶的喜好來糾正用戶偏好模型。
以上對于算法局限性的闡述并不完全,由于新的算法不斷產(chǎn)生,可能會不斷產(chǎn)生新的問題。我們?nèi)绾尾拍馨l(fā)現(xiàn)算法的這些問題和局限呢?下面為產(chǎn)品經(jīng)理總結(jié)了三個有用的tips:
1.為工程師團隊提供清晰的用戶使用場景。與工程師團隊一起討論,并讓他們明白期待的用戶體驗是什么樣的。用戶樣例不僅需要包含主要和次要的用戶,更需要包括反面用戶。當模型準備好后,需要針對這些用戶樣例進行評估。
2.關(guān)注數(shù)據(jù)的收集過程。對數(shù)據(jù)的清洗和組織方式保持清醒,并確保數(shù)據(jù)能夠代表你的用戶。
3.利用產(chǎn)品方案縮小差距。如果模型達不到期望的數(shù)據(jù),我們需要考察是否能夠改進模型的能力,或者用新的用戶樣例增強模型的表示,隨后創(chuàng)建新的產(chǎn)品解決方案來彌補這一差距。
-
機器學習
+關(guān)注
關(guān)注
66文章
8406瀏覽量
132558
原文標題:想要參與開發(fā)一款機器學習產(chǎn)品,你需要get哪些技能?
文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論