面向流式數(shù)據(jù)的增量式字符串相似性連接方法
推薦 + 挑錯(cuò) + 收藏(0) + 用戶評(píng)論(0)
字符串相似性連接是數(shù)據(jù)質(zhì)量管理的基本操作,也是數(shù)據(jù)價(jià)值發(fā)現(xiàn)的關(guān)鍵步驟。針對(duì)目前已有的方法不能滿足面向大數(shù)據(jù)的增量式處理需求的問題,提出一種面向流式數(shù)據(jù)的增量式字符串相似性連接方法-Inc-Join,并對(duì)方法的索引技術(shù)進(jìn)行了優(yōu)化。該方法以Pass-Join字符串連接算法為基礎(chǔ),首先,采用字符串劃分技術(shù)將字符串劃分成多個(gè)互不相交的子串;然后,建立字符串的反向索引列表并將其作為狀態(tài);最后,新增數(shù)據(jù)只需根據(jù)狀態(tài)進(jìn)行相似性計(jì)算,每次連接操作結(jié)束后都對(duì)狀態(tài)進(jìn)行更新。實(shí)驗(yàn)結(jié)果表明,Inc-Join方法在不影響連接準(zhǔn)確率的同時(shí),有效將長(zhǎng)、短字符串重復(fù)匹配次數(shù)減少為根號(hào)n(n是批處理方式的匹配次數(shù))。實(shí)驗(yàn)對(duì)3種數(shù)據(jù)集進(jìn)行處理,發(fā)現(xiàn)使用批處理方式進(jìn)行相似性連接的響應(yīng)時(shí)間是Inc-Join的1至4.7倍,并呈現(xiàn)急劇遞增的趨勢(shì);而且優(yōu)化后Inc-Join方法的響應(yīng)時(shí)間最小只占優(yōu)化前的3/4,并隨處理數(shù)據(jù)的增多所占比例越來越小。同時(shí)優(yōu)化后的Inc-Join不需要保存狀態(tài),再一次減小了算法執(zhí)行的時(shí)間和空間開銷。
非常好我支持^.^
(0) 0%
不好我反對(duì)
(0) 0%
下載地址
面向流式數(shù)據(jù)的增量式字符串相似性連接方法下載
相關(guān)電子資料下載
- CAN轉(zhuǎn)Profinet網(wǎng)關(guān)模塊連接激光切割機(jī)的配置方法 631
- 是什么原因促使250A接線端子被燒毀 20
- 圓形連接器焊線注意事項(xiàng) 62
- 光伏儲(chǔ)能電廠設(shè)備連接iec61850平臺(tái)解決方案 40
- 聚徽觸控-led 屏連接正常但屏幕沒有顯示什么原因 82
- 見證國(guó)產(chǎn)連接器新篇章 94
- 3針M16插頭連接器制作標(biāo)準(zhǔn) 36
- 14針M16接頭絕緣材料知識(shí)詳解 37
- 安信可Ai-WB2系列模組/開發(fā)板連接AWS亞馬遜云方法 42
- 配網(wǎng)速度達(dá)0.3S/pcs!涂鴉藍(lán)牙m(xù)esh2.1帶來極致連接體驗(yàn) 16