RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

打在用戶身上標(biāo)簽的權(quán)重是如何確定的?

lviY_AI_shequ ? 來源:未知 ? 作者:李倩 ? 2018-08-09 11:07 ? 次閱讀

感謝大家長(zhǎng)期以來對(duì)文章的關(guān)注,最近工作比較忙,好久沒更新了。接下來的幾篇文章想和大家分享下關(guān)于用戶畫像的一些東西。今天我們先從用戶畫像的標(biāo)簽權(quán)重開始聊起吧。

用戶畫像:即用戶信息標(biāo)簽化,通過收集用戶社會(huì)屬性、消費(fèi)習(xí)慣、偏好特征等各個(gè)維度數(shù)據(jù),進(jìn)而對(duì)用戶或者產(chǎn)品特征屬性的刻畫,并對(duì)這些特征分析統(tǒng)計(jì)挖掘潛在價(jià)值信息,從而抽象出一個(gè)用戶的信息全貌,可看做是企業(yè)應(yīng)用大數(shù)據(jù)的根基,是定向廣告投放與個(gè)性化推薦的前置條件。

先舉個(gè)場(chǎng)景,程序員小Z在某電商平臺(tái)上注冊(cè)了賬號(hào),經(jīng)過一段時(shí)間在該電商平臺(tái)的web端/app端進(jìn)行瀏覽、所搜、收藏商品、下單購(gòu)物等系列行為,該電商平臺(tái)數(shù)據(jù)庫已全程記錄該用戶在平臺(tái)上的行為,通過系列建模算法,給程序員小Z打上了符合其特征的標(biāo)簽(如下圖所示)。此后程序員小Z在該電商平臺(tái)的相關(guān)推薦版塊上總能發(fā)現(xiàn)自己想買的商品,總能在下單前猶豫不決時(shí)收到優(yōu)惠券的推送,總是在平臺(tái)上越逛越喜歡....

上面的例子是用戶畫像一些應(yīng)用場(chǎng)景。而本文主要分享的是打在用戶身上標(biāo)簽的權(quán)重是如何確定的。

如上圖所示,一個(gè)用戶標(biāo)簽表里面包括常見的字段如:用戶id、用戶姓名、標(biāo)簽id、標(biāo)簽名稱、用戶與該標(biāo)簽發(fā)生行為的次數(shù)(如搜索了兩次“大數(shù)據(jù)”這個(gè)關(guān)鍵詞)、行為類型(不同的行為類型對(duì)應(yīng)用戶對(duì)商品不同的意愿強(qiáng)度,如購(gòu)買某商品>收藏某商品>瀏覽某商品>搜索某商品),行為時(shí)間(越久遠(yuǎn)的時(shí)間對(duì)用戶當(dāng)前的影響越小,如5年前你會(huì)搜索一本高考的書,而現(xiàn)在你會(huì)搜索一本考研的書)。最后非常重要的一個(gè)字段是標(biāo)簽權(quán)重,該權(quán)重影響著對(duì)用戶屬性的歸類,屬性歸類不準(zhǔn)確,接下來基于畫像對(duì)用戶進(jìn)行推薦、營(yíng)銷的準(zhǔn)確性也就無從談起了。下面我們來講兩種權(quán)重的劃分方法:

1、基于TF-IDF算法的權(quán)重歸類

TF-IDF算法是什么思想,這里不做詳細(xì)展開,簡(jiǎn)而言之:一個(gè)詞語的重要性隨著它在該文章出現(xiàn)的次數(shù)成正比,隨它在整個(gè)文檔集中出現(xiàn)的次數(shù)成反比。

比如說我們這里有3個(gè)用戶和4個(gè)標(biāo)簽,標(biāo)簽和用戶之間的關(guān)系將會(huì)在一定程度上反應(yīng)出標(biāo)簽之間的關(guān)系。這里我們用w(P , T)表示一個(gè)標(biāo)簽T被用于標(biāo)記用戶P的次數(shù)。TF(P , T)表示這個(gè)標(biāo)記次數(shù)在用戶P所有標(biāo)簽中所占的比重,公式如下圖:

對(duì)上面的圖來說,用戶1身上打了標(biāo)簽A 5個(gè),標(biāo)簽B 2個(gè),標(biāo)簽C 1個(gè),那么用戶1身上的A標(biāo)簽TF=5/(5+2+1) 。相應(yīng)的IDF(P , T)表示標(biāo)簽T在全部標(biāo)簽中的稀缺程度,即這個(gè)標(biāo)簽的出現(xiàn)幾率。如果一個(gè)標(biāo)簽T出現(xiàn)幾率很小,并且同時(shí)被用于標(biāo)記某用戶,這就使得該用戶與該標(biāo)簽T之間的關(guān)系更加緊密。

然后我們根據(jù)TF * IDF即可得到該用戶該標(biāo)簽的權(quán)重值。到這里還沒結(jié)束,此時(shí)的權(quán)重是不考慮業(yè)務(wù)場(chǎng)景,僅考慮用戶與標(biāo)簽之間的關(guān)系,顯然是不夠的。還需要考慮到該標(biāo)簽所處的業(yè)務(wù)場(chǎng)景、發(fā)生的時(shí)間距今多久、用戶產(chǎn)生該標(biāo)簽的行為次數(shù)等等因素。我用個(gè)圖總結(jié)下:

關(guān)于時(shí)間衰減的函數(shù),根據(jù)發(fā)生時(shí)間的先后為用戶行為數(shù)據(jù)分配權(quán)重。

時(shí)間衰減是指用戶的行為會(huì)隨著時(shí)間的過去,歷史行為和當(dāng)前的相關(guān)性不斷減弱,在建立與時(shí)間衰減相關(guān)的函數(shù)時(shí),我們可套用牛頓冷卻定律數(shù)學(xué)模型。牛頓冷卻定律描述的場(chǎng)景是:一個(gè)較熱的物體在一個(gè)溫度比這個(gè)物體低的環(huán)境下,這個(gè)較熱的物體的溫度是要降低的,周圍的物體溫度要上升,最后物體的溫度和周圍的溫度達(dá)到平衡,在這個(gè)平衡的過程中,較熱物體的溫度F(t)是隨著時(shí)間t的增長(zhǎng)而呈現(xiàn)指數(shù)型衰減,其溫度衰減公式為:

F(t)=初始溫度×exp(-冷卻系數(shù)×間隔的時(shí)間)

其中α為衰減常數(shù),通過回歸可計(jì)算得出。例如:指定45分鐘后物體溫度為初始溫度的0.5,即 0.5=1×exp(-a×45),求得α=0.1556。

2、基于相關(guān)系數(shù)矩陣的權(quán)重歸類

這個(gè)相關(guān)系數(shù)矩陣聽title挺困難,其實(shí)道理十分簡(jiǎn)單。舉個(gè)例子:用戶1身上打上了5個(gè)A標(biāo)簽、2個(gè)B標(biāo)簽、1個(gè)C標(biāo)簽;用戶2身上打上了4個(gè)A標(biāo)簽,3個(gè)B標(biāo)簽;用戶3身上打上了4個(gè)C標(biāo)簽、1個(gè)D標(biāo)簽。

用個(gè)圖形象表示一下:

那么同時(shí)打上A、B標(biāo)簽的用戶有兩個(gè)人,這就說明AB之間可能存在某種相關(guān)性,當(dāng)用戶量、標(biāo)簽量級(jí)越多時(shí),標(biāo)簽兩兩之間的相關(guān)性也越明顯。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4607

    瀏覽量

    92826
  • 權(quán)重
    +關(guān)注

    關(guān)注

    0

    文章

    12

    瀏覽量

    7581
  • 標(biāo)簽
    +關(guān)注

    關(guān)注

    0

    文章

    137

    瀏覽量

    17877

原文標(biāo)題:用戶畫像之標(biāo)簽權(quán)重算法

文章出處:【微信號(hào):AI_shequ,微信公眾號(hào):人工智能愛好者社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    怎樣分析一個(gè)網(wǎng)站的權(quán)重

    怎樣分析一個(gè)網(wǎng)站的權(quán)重 權(quán)重分析方式之一  網(wǎng)站收錄量和網(wǎng)站收錄速度。關(guān)于網(wǎng)站收錄,北京網(wǎng)站推廣一般通過site這個(gè)語法去查詢,而收錄速度就是我們所說的當(dāng)天收錄,比如說A5和A5論壇里面就是秒收
    發(fā)表于 04-19 14:58

    這款智能紋身可將健康傳感器放在用戶皮膚上?

    像智能手表這樣的健康追蹤設(shè)備存在一個(gè)共同的問題:它們并不是真的附著在你身上,你只能依賴于一個(gè)短暫的電池和一個(gè)無線連接,即使是一個(gè)自供電的補(bǔ)丁也有其局限性。而這正是哈佛和麻省理工學(xué)院認(rèn)為他們可以提供幫助的地方:他們開發(fā)出了一種智能紋身,可以有效地將健康傳感器放置在用戶的皮膚
    發(fā)表于 05-20 07:28

    如何在用戶空間操作IIO設(shè)備

    關(guān)注、星標(biāo)嵌入式客棧,精彩及時(shí)送達(dá)[導(dǎo)讀] 朋友們,大家好,我是逸珺。今天分享一下如何在用戶空間操作IIO設(shè)備。IIO設(shè)備能實(shí)現(xiàn)很多有價(jià)值的應(yīng)用,有興趣的一起來看看~什么是IIO設(shè)備 II...
    發(fā)表于 09-08 08:02

    如何讓CubeMX生成帶有給IO的用戶標(biāo)簽的代碼?

    我使用的是最新版本 6.4.0。我為某些 IO 配置使用了用戶標(biāo)簽,但是在生成代碼時(shí),代碼沒有使用用戶標(biāo)簽;對(duì)于前 PC4,我使用 LED_1 作為
    發(fā)表于 12-01 06:20

    如何從esp32內(nèi)獲取mac地址,然后自動(dòng)打印成標(biāo)簽貼在機(jī)身上呢?

    如何從esp32內(nèi)獲取mac地址,然后自動(dòng)打印成標(biāo)簽貼在機(jī)身上呢這玩意沒有自動(dòng)化的一套東西很麻煩啊
    發(fā)表于 03-06 07:23

    一種基于標(biāo)簽概率相關(guān)性的微博推薦方法

    方法利用標(biāo)簽之間的概率相關(guān)性,構(gòu)造標(biāo)簽相似性矩陣。然后通過相關(guān)性標(biāo)簽權(quán)重加權(quán)方案,加強(qiáng)標(biāo)簽權(quán)重
    發(fā)表于 11-17 14:54 ?13次下載
    一種基于<b class='flag-5'>標(biāo)簽</b>概率相關(guān)性的微博推薦方法

    基于標(biāo)簽傳播的社交網(wǎng)絡(luò)的社區(qū)發(fā)現(xiàn)模型

    團(tuán)(UMC)并對(duì)每個(gè)UMC中的節(jié)點(diǎn)賦予唯一標(biāo)簽來減少冗余標(biāo)簽,提高社區(qū)發(fā)現(xiàn)的效率以及穩(wěn)定性。標(biāo)簽更新時(shí)以UMC作為核心單位采用親密度的方式由中心向四周更新UMC鄰接節(jié)點(diǎn)的標(biāo)簽
    發(fā)表于 01-04 16:49 ?0次下載
    基于<b class='flag-5'>標(biāo)簽</b>傳播的社交網(wǎng)絡(luò)的社區(qū)發(fā)現(xiàn)模型

    如何計(jì)算用戶的偏好標(biāo)簽

    行為類型權(quán)重用戶瀏覽、搜索、收藏、下單、購(gòu)買等不同行為對(duì)用戶而言有著不同的重要性,一般而言操作復(fù)雜度越高的行為權(quán)重越大。該權(quán)重值一般由運(yùn)營(yíng)
    的頭像 發(fā)表于 09-04 17:18 ?1.1w次閱讀

    如何使用標(biāo)簽權(quán)重進(jìn)行協(xié)同過濾推薦算法的資料說明

    針對(duì)傳統(tǒng)協(xié)同過濾推薦 算法中由于相似度計(jì)算導(dǎo)致推薦精度不足的問題,提出一種基于標(biāo)簽權(quán)重相似度量方法的協(xié)同過濾推薦算法。首先,通過改進(jìn)當(dāng)前算法中標(biāo)簽權(quán)重的計(jì)算,并構(gòu)成
    發(fā)表于 05-14 17:34 ?1次下載
    如何使用<b class='flag-5'>標(biāo)簽</b><b class='flag-5'>權(quán)重</b>進(jìn)行協(xié)同過濾推薦算法的資料說明

    電子標(biāo)簽的核心部分是什么

    電子標(biāo)簽由芯片及天線組成,附著在物體上標(biāo)識(shí)目標(biāo)對(duì)象,每個(gè)電子標(biāo)簽具有唯一的電子編碼,存儲(chǔ)著被識(shí)別物體的相關(guān)信息。
    發(fā)表于 04-20 16:44 ?2289次閱讀
    電子<b class='flag-5'>標(biāo)簽</b>的核心部分是什么

    貼片電阻上標(biāo)注的數(shù)字是什么意思?資料下載

    電子發(fā)燒友網(wǎng)為你提供貼片電阻上標(biāo)注的數(shù)字是什么意思?資料下載的電子資料下載,更有其他相關(guān)的電路圖、源代碼、課件教程、中文資料、英文資料、參考設(shè)計(jì)、用戶指南、解決方案等資料,希望可以幫助到廣大的電子工程師們。
    發(fā)表于 04-15 08:47 ?10次下載
    貼片電阻<b class='flag-5'>上標(biāo)</b>注的數(shù)字是什么意思?資料下載

    可解決高沖突證據(jù)合成問題的證據(jù)權(quán)重確定方法

    為對(duì)證據(jù)源進(jìn)行合理修正,解決高沖突證據(jù)合成時(shí)存在的問題,提岀了一種新的證據(jù)權(quán)重確定方法。首先利用證據(jù)之間的局部沖突和相似性求出各個(gè)證據(jù)的全局沖突系數(shù);其次取全局沖突系數(shù)的反值作為證據(jù)的權(quán)重并利用該
    發(fā)表于 04-22 14:07 ?0次下載
    可解決高沖突證據(jù)合成問題的證據(jù)<b class='flag-5'>權(quán)重</b><b class='flag-5'>確定</b>方法

    一種基于用戶偏好的權(quán)重搜索及告警選擇方法

    問題的復(fù)雜性建立評(píng)估函數(shù),并給出偏好權(quán)重的選擇策略。對(duì)不同告警及其對(duì)應(yīng)的用戶偏好權(quán)重建立效用函數(shù),確定需優(yōu)先解決的告警,并在成本約束下完成基于用戶
    發(fā)表于 04-29 16:26 ?4次下載
    一種基于<b class='flag-5'>用戶</b>偏好的<b class='flag-5'>權(quán)重</b>搜索及告警選擇方法

    PCB中過孔為什么不能打在焊盤上

    過孔為什么不能打在焊盤上,我就想打,怎么辦?很多新手在剛接觸到PCB的時(shí)候經(jīng)常會(huì)出現(xiàn)這個(gè)問題,由于板子空間過小,器件密集導(dǎo)致空間狹小,無法引線扇孔,通常就會(huì)選擇把過孔打在焊盤上,這樣子雖然使自己連線
    的頭像 發(fā)表于 11-03 15:37 ?1.5w次閱讀

    在用機(jī)器人與未來機(jī)器人并行推進(jìn)的權(quán)重關(guān)系

    在用機(jī)器人與未來機(jī)器人并行推進(jìn)的權(quán)重關(guān)系
    的頭像 發(fā)表于 08-01 08:14 ?485次閱讀
    <b class='flag-5'>在用</b>機(jī)器人與未來機(jī)器人并行推進(jìn)的<b class='flag-5'>權(quán)重</b>關(guān)系
    RM新时代网站-首页