RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何計算用戶的偏好標(biāo)簽

lviY_AI_shequ ? 來源:未知 ? 作者:李倩 ? 2018-09-04 17:18 ? 次閱讀

一、用戶畫像—計算用戶偏好標(biāo)簽

下面介紹如何計算用戶的偏好標(biāo)簽。

在上一篇寫用戶畫像的文章 “用戶畫像—打用戶行為標(biāo)簽”中,主要講了如何對用戶的每一次操作行為、業(yè)務(wù)行為進(jìn)行記錄打上相應(yīng)的標(biāo)簽。在這篇博客中,主要講如何對這些明細(xì)標(biāo)簽進(jìn)行計算以及偏好的產(chǎn)品、內(nèi)容的類目。

關(guān)于用戶標(biāo)簽權(quán)重的計算,在這篇文章里面講過了:

用戶畫像之標(biāo)簽權(quán)重算法

這里再詳細(xì)介紹一下:

用戶標(biāo)簽權(quán)重 = 行為類型權(quán)重 × 時間衰減 × 用戶行為次數(shù) × TF-IDF計算標(biāo)簽權(quán)重

公式中各參數(shù)的釋義如下:

行為類型權(quán)重:用戶瀏覽、搜索、收藏、下單、購買等不同行為對用戶而言有著不同的重要性,一般而言操作復(fù)雜度越高的行為權(quán)重越大。該權(quán)重值一般由運營人員或數(shù)據(jù)分析人員主觀給出;

時間衰減:用戶某些行為受時間影響不斷減弱,行為時間距現(xiàn)在越遠(yuǎn),該行為對用戶當(dāng)前來說的意義越??;

行為次數(shù):用戶標(biāo)簽權(quán)重按天統(tǒng)計,用戶某天與該標(biāo)簽產(chǎn)生的行為次數(shù)越多,該標(biāo)簽對用戶的影響越大;

TF-IDF計算標(biāo)簽權(quán)重:每個標(biāo)簽的對用戶的重要性及該標(biāo)簽在全體標(biāo)簽中重要性的乘積得出每個標(biāo)簽的客觀權(quán)重值;

為計算用戶偏好標(biāo)簽,需要在用戶行為標(biāo)簽的基礎(chǔ)上計算用戶行為標(biāo)簽對應(yīng)的權(quán)重值,而后對同類標(biāo)簽做權(quán)重匯總,算出用戶偏好的標(biāo)簽。關(guān)于用戶行為標(biāo)簽如何打,在這篇博客里面有介紹過了

用戶畫像—打用戶行為標(biāo)簽

下面介紹如何在用戶行為標(biāo)簽表的基礎(chǔ)上加工用戶偏好標(biāo)簽:

1、用戶標(biāo)簽權(quán)重表結(jié)構(gòu)設(shè)計

字段定義:

用戶id(user_id):用戶唯一id;

標(biāo)簽id(tag_id):圖書id;

標(biāo)簽名稱(tag_name):圖書名稱;

用戶行為次數(shù)(cnt):用戶當(dāng)日產(chǎn)生該標(biāo)簽的次數(shù),如用戶當(dāng)日瀏覽一本圖書4次,則記錄4;

行為日期(date_id):產(chǎn)生該條標(biāo)簽對應(yīng)日期;

標(biāo)簽類型(tag_type_id):在本案例中通過與圖書類型表相關(guān)聯(lián),取出每本圖書對應(yīng)的類型,如《鋼鐵是怎么煉成的》對應(yīng)“名著”;

用戶行為類型(act_type_id):即用戶的購買、瀏覽、評論等操作行為,在本例中通過預(yù)設(shè)數(shù)值1~7來定義用戶對應(yīng)的行為類型。1:購買行為,2:瀏覽行為,3:評論行為,4:收藏行為,5:取消收藏行為,6:加入購物車行為,7:搜索行為;

2、在用戶行為標(biāo)簽基礎(chǔ)上加工權(quán)重表

加工標(biāo)簽權(quán)重表時,需要根據(jù)用戶不同行為對應(yīng)的權(quán)重建立一個權(quán)重維表:

向維表中插入數(shù)據(jù):

3、對每個用戶偏好的每個標(biāo)簽加總求權(quán)重值,對權(quán)重值做倒排序,取top N

二、用戶畫像—數(shù)據(jù)指標(biāo)與表結(jié)構(gòu)設(shè)計

本段文章介紹一下畫像中需要開發(fā)的數(shù)據(jù)指標(biāo)與開發(fā)過程中表結(jié)構(gòu)的設(shè)計。

首先介紹畫像開發(fā)的數(shù)據(jù)指標(biāo),畫像開發(fā)過程中通用類的指標(biāo)體系包括用戶屬性類、用戶行為標(biāo)簽類、用戶活躍時間段類、用戶消費能力類、用戶偏好類等

數(shù)據(jù)指標(biāo)體系

用戶屬性指標(biāo)

用戶屬性指標(biāo)根據(jù)業(yè)務(wù)數(shù)據(jù)來源,盡可能全面地描述用戶基礎(chǔ)屬性,這些基礎(chǔ)屬性值是短期內(nèi)不會有改變的。如年齡、性別、手機(jī)號歸屬地、身份證歸屬地等

用戶登錄活躍指標(biāo)

看用戶近期登錄時間段、登錄時長、登錄頻次、常登陸地等指標(biāo)

用戶消費能力指標(biāo)

看用戶的消費金額、消費頻次、最近消費時間。進(jìn)一步結(jié)合用戶登錄活躍情況,可以對用戶做RFM分層。

用戶流失層級

根據(jù)用戶的活躍度及消費情況,判斷用戶的流失意向。可及時對有流失趨向的用戶做營銷召回

用戶年齡段劃分

在做營銷活動或站內(nèi)推送時,可對不同年齡段做針對性運營

用戶行為標(biāo)簽

記錄用戶在平臺上每一次操作行為,及該次行為所帶來的標(biāo)簽。后續(xù)可根據(jù)用戶的行為標(biāo)簽計算用戶的偏好標(biāo)簽,做推薦和營銷等活動

表結(jié)構(gòu)設(shè)計

對于畫像數(shù)據(jù)的存儲,除了用戶屬性這種基本上短期不會有變化的數(shù)據(jù),其他相關(guān)數(shù)據(jù)的更新頻率一般都比較高,為周更新或日更新

畫像數(shù)據(jù)更新較為頻繁,通常使用分區(qū)來將數(shù)據(jù)從物理上轉(zhuǎn)移到離用戶最近的地方。

一般對日期字段進(jìn)行分區(qū),當(dāng)然事實上分區(qū)是為了優(yōu)化查詢性能,否則使用數(shù)據(jù)的用戶也不需要關(guān)注這些字段是否分區(qū)。

例如說創(chuàng)建一個用戶行為標(biāo)簽表:

CREATE TABLE userprofile( user_id string, tag_id string, tag_name string, cnt string, act_type_id string, tag_type_id string ) PARTITION BY (date_id string);

分區(qū)表改變了Hive對數(shù)據(jù)的存儲方式,如果沒做分區(qū),創(chuàng)建的這個表目錄為:

hdfs://master_server/user/hive/warehouse/userprofile

創(chuàng)建日期分區(qū)后,Hive可以更好地反映分區(qū)結(jié)構(gòu)子目錄:

hdfs://master_server/user/hive/warehouse/userprofile/date_id='2018-05-01'

在userprofile表下面,每個日期分區(qū)的數(shù)據(jù)可以存儲截止到當(dāng)日的全量歷史數(shù)據(jù),方便使用者查找。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)分析
    +關(guān)注

    關(guān)注

    2

    文章

    1445

    瀏覽量

    34050
  • 標(biāo)簽
    +關(guān)注

    關(guān)注

    0

    文章

    137

    瀏覽量

    17877

原文標(biāo)題:用戶畫像—計算用戶偏好標(biāo)簽及數(shù)據(jù)指標(biāo)與表結(jié)構(gòu)設(shè)計

文章出處:【微信號:AI_shequ,微信公眾號:人工智能愛好者社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    基于偏好不一致熵的偏好決策方法

    不一致程度;然后,根據(jù)偏好決策中不同屬性對決策的重要性不同的特點,提出了一種加權(quán)的樣本偏好不一致熵,并結(jié)合屬性偏好不一致熵在度量屬性重要性方面的能力,給出了一種基于屬性偏好不一致熵的權(quán)
    發(fā)表于 12-05 11:50 ?0次下載

    基于用戶QoS偏好的WEB服務(wù)灰色關(guān)聯(lián)分析方法

    為方便用戶選擇最優(yōu)Web服務(wù),利用灰色系統(tǒng)理論對Web服務(wù)質(zhì)量QoS屬性因子進(jìn)行分析,提出了一種基于用戶QoS偏好的Web服務(wù)灰色關(guān)聯(lián)分析方法??紤]到Web服務(wù)QoS的不確定性,該方法使用區(qū)間
    發(fā)表于 12-05 15:35 ?0次下載

    面向評分?jǐn)?shù)據(jù)中用戶偏好發(fā)現(xiàn)的隱變量模型構(gòu)建

    電子商務(wù)應(yīng)用中產(chǎn)生了大量用戶評分?jǐn)?shù)據(jù),而這些數(shù)據(jù)中富含了用戶觀點和偏好信息,為了能夠從這些數(shù)據(jù)中準(zhǔn)確地推斷出用戶偏好,提出一種面向評分?jǐn)?shù)據(jù)中
    發(fā)表于 12-06 10:59 ?0次下載
    面向評分?jǐn)?shù)據(jù)中<b class='flag-5'>用戶</b><b class='flag-5'>偏好</b>發(fā)現(xiàn)的隱變量模型構(gòu)建

    基于偏好矩陣遺傳算法求解長期車輛合乘問題

    針對長期車輛合乘問題( LTCPP),提出帶有偏好矩陣的遺傳算法(PMGA),將擁有私家車且目的地相同的用戶群體分配到產(chǎn)生總花費最少的合乘小組。首先,建立計算基于全體用戶費用成本的目標(biāo)
    發(fā)表于 12-06 11:15 ?0次下載

    基于用戶偏好的隨機(jī)游走模型

    、項目相似度進(jìn)行計算;其次,將項目進(jìn)行聚類,通過用戶評分計算用戶對項目類的偏好和不同項目類下的用戶
    發(fā)表于 12-08 17:01 ?0次下載
    基于<b class='flag-5'>用戶</b><b class='flag-5'>偏好</b>的隨機(jī)游走模型

    基于用戶行為偏好的服務(wù)選擇策略

    在云計算模型中,用戶的需求是服務(wù)資源預(yù)留的主要依據(jù)。而現(xiàn)實中,用戶的喜好往往是隨著時間的推移變化的,例如新的云服務(wù)出現(xiàn)后,用戶根據(jù)自己的體驗,往往會選擇新的云服務(wù)。 本文提出
    發(fā)表于 12-11 11:18 ?0次下載
    基于<b class='flag-5'>用戶</b>行為<b class='flag-5'>偏好</b>的服務(wù)選擇策略

    偏好數(shù)據(jù)庫中挖掘Ceteris Paribus偏好

    針對傳統(tǒng)的推薦系統(tǒng)需要用戶給出明確的偏好矩陣(U-I矩陣),進(jìn)而使用自動化技術(shù)來獲取用戶偏好的問題,提出了一種從偏好數(shù)據(jù)庫中挖掘出Agent
    發(fā)表于 12-13 15:13 ?0次下載
    從<b class='flag-5'>偏好</b>數(shù)據(jù)庫中挖掘Ceteris Paribus<b class='flag-5'>偏好</b>

    基于時間衰減協(xié)同偏好獲取方法

    針對現(xiàn)有的推薦系統(tǒng)多采用近鄰用戶偏好行為來預(yù)測當(dāng)前用戶偏好,而不考慮用戶偏好會隨著時間的變
    發(fā)表于 12-15 16:14 ?0次下載

    基于用戶偏好的協(xié)同過濾算法

    基于評分的用戶相似度;其次,依據(jù)用戶項目評分和項目類別信息挖掘用戶對項目類別的興趣度以及用戶項目偏好,并以此
    發(fā)表于 12-20 10:54 ?0次下載

    基于標(biāo)簽主題的協(xié)同過濾推薦算法研究

    語義主題,從語義層面計算用戶對各資源的偏好概率,將計算出的偏好概率與協(xié)同過濾算法計算出的資源相似
    發(fā)表于 03-07 13:58 ?0次下載
    基于<b class='flag-5'>標(biāo)簽</b>主題的協(xié)同過濾推薦算法研究

    什么是用戶畫像?用戶畫像的四階段

    用戶畫像的焦點工作就是為用戶打“標(biāo)簽”,而一個標(biāo)簽通常是人為規(guī)定的高度精煉的特征標(biāo)識,如年齡、性別、地域、用戶
    的頭像 發(fā)表于 09-14 15:39 ?9642次閱讀

    內(nèi)容中心網(wǎng)絡(luò)中基于用戶偏好的協(xié)作緩存策略

    針對內(nèi)容中心網(wǎng)絡(luò)( CCN)中節(jié)點默認(rèn)緩存所有經(jīng)過的內(nèi)容,未能實現(xiàn)對內(nèi)容選擇性緩存與最佳放置的問題,提出一種基于用戶偏好的協(xié)作緩存策略( CCUP)。首先,考慮用戶對內(nèi)容類型的喜好和內(nèi)容流行度作為
    發(fā)表于 12-19 15:23 ?4次下載
    內(nèi)容中心網(wǎng)絡(luò)中基于<b class='flag-5'>用戶</b><b class='flag-5'>偏好</b>的協(xié)作緩存策略

    一種基于用戶偏好的權(quán)重搜索及告警選擇方法

    用戶在現(xiàn)有交互方式下選擇最為嚴(yán)重的告警時完全依據(jù)其個人偏好,而未考慮處理不同告警所需成本的差異性問題。為此,提出一種基于用戶偏好的權(quán)重搜索及告警選擇方法。挖掘
    發(fā)表于 04-29 16:26 ?4次下載
    一種基于<b class='flag-5'>用戶</b><b class='flag-5'>偏好</b>的權(quán)重搜索及告警選擇方法

    時序地理社交網(wǎng)絡(luò)下基于動態(tài)偏好的組查詢

    在新生活體驗與社交影響的驅(qū)動下,用戶偏好隨時間不斷改變。為彌補(bǔ)現(xiàn)有的地理社交網(wǎng)絡(luò)模型往往無法獲取用戶動態(tài)偏好的不足,構(gòu)建了能夠襝測用戶動態(tài)偏
    發(fā)表于 05-11 16:38 ?11次下載

    可反映用戶偏好的多目標(biāo)任務(wù)調(diào)度算法

    UPTSA算法能尋找反映用戶偏好的最優(yōu)解,并設(shè)計梯形遷移率計算模型擴(kuò)大其搜索鄰域,避免陷人局部最優(yōu)解實例分析結(jié)果表明, UPTSA算法能有效求解云制造環(huán)境下的多目標(biāo)任務(wù)調(diào)度問題,為用戶
    發(fā)表于 05-25 14:05 ?3次下載
    RM新时代网站-首页