當(dāng)我們打開一個資訊APP刷新聞時,有沒有想過,系統(tǒng)是如何迅速推送給我們想看的內(nèi)容?資訊APP背后有一個巨大的內(nèi)容池,系統(tǒng)是如何判斷要不要將某條資訊推送給我們的呢?這就是今天想跟大家探討的問題——推薦系統(tǒng)中的“召回”策略。
推薦系統(tǒng)中的召回
召回策略主要滿足的是能夠從海量的數(shù)據(jù)中召回一部分相關(guān)的候選集,在實現(xiàn)方法上也有很多種,主要可以分為離線召回和在線召回。離線召回的方法主要有協(xié)同過濾、聚類算法。協(xié)同過濾可以分為基于用戶的協(xié)同過濾和基于物品的協(xié)同過濾。在線召回主要是基于搜索的方式,從該用戶的歷史記錄中利用不同的算法抽取相關(guān)信息,這里的相關(guān)信息可以是物品的基本信息,也可以是離線標(biāo)注的標(biāo)簽,然后將這些抽取到的關(guān)鍵信息從索引中快速的查詢出相關(guān)的結(jié)果集。
Elastic Search是基于Apache Lucene(TM)的一個開源搜索引擎,是一個分布式且具有高擴展性的全文檢索的搜索引擎,而且還提供了近乎實時的索引、分析、搜索功能。 Lucene是現(xiàn)今搜索領(lǐng)域被認為速度最快、性能最穩(wěn)定、功能最全的搜索引擎庫,而Elastic Search是以Lucene為核心進行二次開發(fā)的搜索引擎,主要完成索引和搜索的功能,它可以通過簡單的接口隱藏Lucene的復(fù)雜性,從而讓整個搜索引擎變得更方便。
在基于內(nèi)容推薦的算法中,關(guān)鍵詞的提取是至關(guān)重要的一環(huán),關(guān)鍵詞提取直接影響了物品相似度計算的效果。假如沒有關(guān)鍵詞提取的話,物品全部信息作為特征維度會造成維度災(zāi)難,使得維度巨大,且構(gòu)造的矩陣會相當(dāng)稀疏,不利于計算。在關(guān)鍵詞提取的過程中,TF-IDF算法是很有效率的一種算法。關(guān)于TF-IDF算法我們不再這里展開詳述。
Elastic Search與推薦系統(tǒng)的結(jié)合
Elastic Search的搭建過程可以參考官網(wǎng)。安裝配置完成Elastic Search之后,當(dāng)數(shù)據(jù)進入Elastic Search并完成分詞和索引以后,現(xiàn)在只能夠根據(jù)指定輸入的詞語進行搜索,與推薦系統(tǒng)并沒有任何聯(lián)系。因此,我們可以根據(jù)用戶的歷史記錄進行TF-IDF構(gòu)造關(guān)鍵詞并且輸入Elastic Search,采用倒排索引的方式進行存儲,以便全文搜索。
簡單來說,用戶的瀏覽、收藏等行為會被記錄在數(shù)據(jù)庫中,推薦系統(tǒng)會收集用戶的各種行為記錄,利用TF-IDF關(guān)鍵詞提取算法,實現(xiàn)一個概率模型,這個概率模型可以計算出近期用戶記錄中用戶偏好的關(guān)鍵詞,由于這些關(guān)鍵詞由用戶的記錄產(chǎn)生,因此就具有了個性化的特性,再將關(guān)鍵詞輸入到Elastic Search,就可以召回與用戶強相關(guān)的內(nèi)容集合。
利用這種方法搭建的推薦系統(tǒng),其優(yōu)勢也很明顯:一是能夠?qū)?nèi)容池中的所有物料做可計算的精細整合,實現(xiàn)對所有物料的召回,特別是對長尾物料的召回,從而極大地提高物料利用率;二是自帶物品冷啟動,在沒有大量用戶數(shù)據(jù)的情況下也能實現(xiàn)個性化推薦,并且讓用戶對推薦結(jié)果滿意。
獲取更多詳細資料,或申請產(chǎn)品試用,歡迎訪問第四范式智能推薦產(chǎn)品先薦官網(wǎng)!本賬號為第四范式智能推薦產(chǎn)品先薦的官方賬號。本賬號立足于計算機領(lǐng)域,特別是人工智能相關(guān)的前沿研究,旨在把更多與人工智能相關(guān)的知識分享給公眾,從專業(yè)的角度促進公眾對人工智能的理解;同時也希望為人工智能相關(guān)人員提供一個討論、交流、學(xué)習(xí)的開放平臺,從而早日讓每個人都享受到人工智能創(chuàng)造的價值。
審核編輯 黃昊宇
-
人工智能
+關(guān)注
關(guān)注
1791文章
47183瀏覽量
238246 -
推薦系統(tǒng)
+關(guān)注
關(guān)注
1文章
43瀏覽量
10075
發(fā)布評論請先 登錄
相關(guān)推薦
評論