感謝大家長(zhǎng)期以來對(duì)文章的關(guān)注,最近工作比較忙,好久沒更新了。接下來的幾篇文章想和大家分享下關(guān)于用戶畫像的一些東西。今天我們先從用戶畫像的標(biāo)簽權(quán)重開始聊起吧。
用戶畫像:即用戶信息標(biāo)簽化,通過收集用戶社會(huì)屬性、消費(fèi)習(xí)慣、偏好特征等各個(gè)維度數(shù)據(jù),進(jìn)而對(duì)用戶或者產(chǎn)品特征屬性的刻畫,并對(duì)這些特征分析統(tǒng)計(jì)挖掘潛在價(jià)值信息,從而抽象出一個(gè)用戶的信息全貌,可看做是企業(yè)應(yīng)用大數(shù)據(jù)的根基,是定向廣告投放與個(gè)性化推薦的前置條件。
先舉個(gè)場(chǎng)景,程序員小Z在某電商平臺(tái)上注冊(cè)了賬號(hào),經(jīng)過一段時(shí)間在該電商平臺(tái)的web端/app端進(jìn)行瀏覽、所搜、收藏商品、下單購(gòu)物等系列行為,該電商平臺(tái)數(shù)據(jù)庫已全程記錄該用戶在平臺(tái)上的行為,通過系列建模算法,給程序員小Z打上了符合其特征的標(biāo)簽(如下圖所示)。此后程序員小Z在該電商平臺(tái)的相關(guān)推薦版塊上總能發(fā)現(xiàn)自己想買的商品,總能在下單前猶豫不決時(shí)收到優(yōu)惠券的推送,總是在平臺(tái)上越逛越喜歡....
上面的例子是用戶畫像一些應(yīng)用場(chǎng)景。而本文主要分享的是打在用戶身上標(biāo)簽的權(quán)重是如何確定的。
如上圖所示,一個(gè)用戶標(biāo)簽表里面包括常見的字段如:用戶id、用戶姓名、標(biāo)簽id、標(biāo)簽名稱、用戶與該標(biāo)簽發(fā)生行為的次數(shù)(如搜索了兩次“大數(shù)據(jù)”這個(gè)關(guān)鍵詞)、行為類型(不同的行為類型對(duì)應(yīng)用戶對(duì)商品不同的意愿強(qiáng)度,如購(gòu)買某商品>收藏某商品>瀏覽某商品>搜索某商品),行為時(shí)間(越久遠(yuǎn)的時(shí)間對(duì)用戶當(dāng)前的影響越小,如5年前你會(huì)搜索一本高考的書,而現(xiàn)在你會(huì)搜索一本考研的書)。最后非常重要的一個(gè)字段是標(biāo)簽權(quán)重,該權(quán)重影響著對(duì)用戶屬性的歸類,屬性歸類不準(zhǔn)確,接下來基于畫像對(duì)用戶進(jìn)行推薦、營(yíng)銷的準(zhǔn)確性也就無從談起了。下面我們來講兩種權(quán)重的劃分方法:
TF-IDF算法是什么思想,這里不做詳細(xì)展開,簡(jiǎn)而言之:一個(gè)詞語的重要性隨著它在該文章出現(xiàn)的次數(shù)成正比,隨它在整個(gè)文檔集中出現(xiàn)的次數(shù)成反比。
比如說我們這里有3個(gè)用戶和4個(gè)標(biāo)簽,標(biāo)簽和用戶之間的關(guān)系將會(huì)在一定程度上反應(yīng)出標(biāo)簽之間的關(guān)系。這里我們用w(P , T)表示一個(gè)標(biāo)簽T被用于標(biāo)記用戶P的次數(shù)。TF(P , T)表示這個(gè)標(biāo)記次數(shù)在用戶P所有標(biāo)簽中所占的比重,公式如下圖:
對(duì)上面的圖來說,用戶1身上打了標(biāo)簽A 5個(gè),標(biāo)簽B 2個(gè),標(biāo)簽C 1個(gè),那么用戶1身上的A標(biāo)簽TF=5/(5+2+1) 。相應(yīng)的IDF(P , T)表示標(biāo)簽T在全部標(biāo)簽中的稀缺程度,即這個(gè)標(biāo)簽的出現(xiàn)幾率。如果一個(gè)標(biāo)簽T出現(xiàn)幾率很小,并且同時(shí)被用于標(biāo)記某用戶,這就使得該用戶與該標(biāo)簽T之間的關(guān)系更加緊密。
然后我們根據(jù)TF * IDF即可得到該用戶該標(biāo)簽的權(quán)重值。到這里還沒結(jié)束,此時(shí)的權(quán)重是不考慮業(yè)務(wù)場(chǎng)景,僅考慮用戶與標(biāo)簽之間的關(guān)系,顯然是不夠的。還需要考慮到該標(biāo)簽所處的業(yè)務(wù)場(chǎng)景、發(fā)生的時(shí)間距今多久、用戶產(chǎn)生該標(biāo)簽的行為次數(shù)等等因素。我用個(gè)圖總結(jié)下:
關(guān)于時(shí)間衰減的函數(shù),根據(jù)發(fā)生時(shí)間的先后為用戶行為數(shù)據(jù)分配權(quán)重。
時(shí)間衰減是指用戶的行為會(huì)隨著時(shí)間的過去,歷史行為和當(dāng)前的相關(guān)性不斷減弱,在建立與時(shí)間衰減相關(guān)的函數(shù)時(shí),我們可套用牛頓冷卻定律數(shù)學(xué)模型。牛頓冷卻定律描述的場(chǎng)景是:一個(gè)較熱的物體在一個(gè)溫度比這個(gè)物體低的環(huán)境下,這個(gè)較熱的物體的溫度是要降低的,周圍的物體溫度要上升,最后物體的溫度和周圍的溫度達(dá)到平衡,在這個(gè)平衡的過程中,較熱物體的溫度F(t)是隨著時(shí)間t的增長(zhǎng)而呈現(xiàn)指數(shù)型衰減,其溫度衰減公式為:
F(t)=初始溫度×exp(-冷卻系數(shù)×間隔的時(shí)間)
其中α為衰減常數(shù),通過回歸可計(jì)算得出。例如:指定45分鐘后物體溫度為初始溫度的0.5,即 0.5=1×exp(-a×45),求得α=0.1556。
2、基于相關(guān)系數(shù)矩陣的權(quán)重歸類
這個(gè)相關(guān)系數(shù)矩陣聽title挺困難,其實(shí)道理十分簡(jiǎn)單。舉個(gè)例子:用戶1身上打上了5個(gè)A標(biāo)簽、2個(gè)B標(biāo)簽、1個(gè)C標(biāo)簽;用戶2身上打上了4個(gè)A標(biāo)簽,3個(gè)B標(biāo)簽;用戶3身上打上了4個(gè)C標(biāo)簽、1個(gè)D標(biāo)簽。
用個(gè)圖形象表示一下:
那么同時(shí)打上A、B標(biāo)簽的用戶有兩個(gè)人,這就說明AB之間可能存在某種相關(guān)性,當(dāng)用戶量、標(biāo)簽量級(jí)越多時(shí),標(biāo)簽兩兩之間的相關(guān)性也越明顯。
-
算法
+關(guān)注
關(guān)注
23文章
4607瀏覽量
92826 -
權(quán)重
+關(guān)注
關(guān)注
0文章
12瀏覽量
7581 -
標(biāo)簽
+關(guān)注
關(guān)注
0文章
137瀏覽量
17877
原文標(biāo)題:用戶畫像之標(biāo)簽權(quán)重算法
文章出處:【微信號(hào):AI_shequ,微信公眾號(hào):人工智能愛好者社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論