一、用戶畫像—計算用戶偏好標(biāo)簽
下面介紹如何計算用戶的偏好標(biāo)簽。
在上一篇寫用戶畫像的文章 “用戶畫像—打用戶行為標(biāo)簽”中,主要講了如何對用戶的每一次操作行為、業(yè)務(wù)行為進(jìn)行記錄打上相應(yīng)的標(biāo)簽。在這篇博客中,主要講如何對這些明細(xì)標(biāo)簽進(jìn)行計算以及偏好的產(chǎn)品、內(nèi)容的類目。
關(guān)于用戶標(biāo)簽權(quán)重的計算,在這篇文章里面講過了:
用戶畫像之標(biāo)簽權(quán)重算法
這里再詳細(xì)介紹一下:
用戶標(biāo)簽權(quán)重 = 行為類型權(quán)重 × 時間衰減 × 用戶行為次數(shù) × TF-IDF計算標(biāo)簽權(quán)重
公式中各參數(shù)的釋義如下:
行為類型權(quán)重:用戶瀏覽、搜索、收藏、下單、購買等不同行為對用戶而言有著不同的重要性,一般而言操作復(fù)雜度越高的行為權(quán)重越大。該權(quán)重值一般由運營人員或數(shù)據(jù)分析人員主觀給出;
時間衰減:用戶某些行為受時間影響不斷減弱,行為時間距現(xiàn)在越遠(yuǎn),該行為對用戶當(dāng)前來說的意義越??;
行為次數(shù):用戶標(biāo)簽權(quán)重按天統(tǒng)計,用戶某天與該標(biāo)簽產(chǎn)生的行為次數(shù)越多,該標(biāo)簽對用戶的影響越大;
TF-IDF計算標(biāo)簽權(quán)重:每個標(biāo)簽的對用戶的重要性及該標(biāo)簽在全體標(biāo)簽中重要性的乘積得出每個標(biāo)簽的客觀權(quán)重值;
為計算用戶偏好標(biāo)簽,需要在用戶行為標(biāo)簽的基礎(chǔ)上計算用戶行為標(biāo)簽對應(yīng)的權(quán)重值,而后對同類標(biāo)簽做權(quán)重匯總,算出用戶偏好的標(biāo)簽。關(guān)于用戶行為標(biāo)簽如何打,在這篇博客里面有介紹過了
用戶畫像—打用戶行為標(biāo)簽
下面介紹如何在用戶行為標(biāo)簽表的基礎(chǔ)上加工用戶偏好標(biāo)簽:
1、用戶標(biāo)簽權(quán)重表結(jié)構(gòu)設(shè)計
字段定義:
用戶id(user_id):用戶唯一id;
標(biāo)簽id(tag_id):圖書id;
標(biāo)簽名稱(tag_name):圖書名稱;
用戶行為次數(shù)(cnt):用戶當(dāng)日產(chǎn)生該標(biāo)簽的次數(shù),如用戶當(dāng)日瀏覽一本圖書4次,則記錄4;
行為日期(date_id):產(chǎn)生該條標(biāo)簽對應(yīng)日期;
標(biāo)簽類型(tag_type_id):在本案例中通過與圖書類型表相關(guān)聯(lián),取出每本圖書對應(yīng)的類型,如《鋼鐵是怎么煉成的》對應(yīng)“名著”;
用戶行為類型(act_type_id):即用戶的購買、瀏覽、評論等操作行為,在本例中通過預(yù)設(shè)數(shù)值1~7來定義用戶對應(yīng)的行為類型。1:購買行為,2:瀏覽行為,3:評論行為,4:收藏行為,5:取消收藏行為,6:加入購物車行為,7:搜索行為;
2、在用戶行為標(biāo)簽基礎(chǔ)上加工權(quán)重表
加工標(biāo)簽權(quán)重表時,需要根據(jù)用戶不同行為對應(yīng)的權(quán)重建立一個權(quán)重維表:
向維表中插入數(shù)據(jù):
3、對每個用戶偏好的每個標(biāo)簽加總求權(quán)重值,對權(quán)重值做倒排序,取top N
二、用戶畫像—數(shù)據(jù)指標(biāo)與表結(jié)構(gòu)設(shè)計
本段文章介紹一下畫像中需要開發(fā)的數(shù)據(jù)指標(biāo)與開發(fā)過程中表結(jié)構(gòu)的設(shè)計。
首先介紹畫像開發(fā)的數(shù)據(jù)指標(biāo),畫像開發(fā)過程中通用類的指標(biāo)體系包括用戶屬性類、用戶行為標(biāo)簽類、用戶活躍時間段類、用戶消費能力類、用戶偏好類等
數(shù)據(jù)指標(biāo)體系
用戶屬性指標(biāo)
用戶屬性指標(biāo)根據(jù)業(yè)務(wù)數(shù)據(jù)來源,盡可能全面地描述用戶基礎(chǔ)屬性,這些基礎(chǔ)屬性值是短期內(nèi)不會有改變的。如年齡、性別、手機(jī)號歸屬地、身份證歸屬地等
用戶登錄活躍指標(biāo)
看用戶近期登錄時間段、登錄時長、登錄頻次、常登陸地等指標(biāo)
用戶消費能力指標(biāo)
看用戶的消費金額、消費頻次、最近消費時間。進(jìn)一步結(jié)合用戶登錄活躍情況,可以對用戶做RFM分層。
用戶流失層級
根據(jù)用戶的活躍度及消費情況,判斷用戶的流失意向。可及時對有流失趨向的用戶做營銷召回
用戶年齡段劃分
在做營銷活動或站內(nèi)推送時,可對不同年齡段做針對性運營
用戶行為標(biāo)簽
記錄用戶在平臺上每一次操作行為,及該次行為所帶來的標(biāo)簽。后續(xù)可根據(jù)用戶的行為標(biāo)簽計算用戶的偏好標(biāo)簽,做推薦和營銷等活動
表結(jié)構(gòu)設(shè)計
對于畫像數(shù)據(jù)的存儲,除了用戶屬性這種基本上短期不會有變化的數(shù)據(jù),其他相關(guān)數(shù)據(jù)的更新頻率一般都比較高,為周更新或日更新
畫像數(shù)據(jù)更新較為頻繁,通常使用分區(qū)來將數(shù)據(jù)從物理上轉(zhuǎn)移到離用戶最近的地方。
一般對日期字段進(jìn)行分區(qū),當(dāng)然事實上分區(qū)是為了優(yōu)化查詢性能,否則使用數(shù)據(jù)的用戶也不需要關(guān)注這些字段是否分區(qū)。
例如說創(chuàng)建一個用戶行為標(biāo)簽表:
CREATE TABLE userprofile( user_id string, tag_id string, tag_name string, cnt string, act_type_id string, tag_type_id string ) PARTITION BY (date_id string);
分區(qū)表改變了Hive對數(shù)據(jù)的存儲方式,如果沒做分區(qū),創(chuàng)建的這個表目錄為:
hdfs://master_server/user/hive/warehouse/userprofile
創(chuàng)建日期分區(qū)后,Hive可以更好地反映分區(qū)結(jié)構(gòu)子目錄:
hdfs://master_server/user/hive/warehouse/userprofile/date_id='2018-05-01'
在userprofile表下面,每個日期分區(qū)的數(shù)據(jù)可以存儲截止到當(dāng)日的全量歷史數(shù)據(jù),方便使用者查找。
-
數(shù)據(jù)分析
+關(guān)注
關(guān)注
2文章
1445瀏覽量
34050 -
標(biāo)簽
+關(guān)注
關(guān)注
0文章
137瀏覽量
17877
原文標(biāo)題:用戶畫像—計算用戶偏好標(biāo)簽及數(shù)據(jù)指標(biāo)與表結(jié)構(gòu)設(shè)計
文章出處:【微信號:AI_shequ,微信公眾號:人工智能愛好者社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論