Deep Web數(shù)據(jù)源選擇和集成方法
針對基于數(shù)據(jù)源質(zhì)量選擇方法的數(shù)據(jù)源在數(shù)據(jù)爬取時存在代價大、重復(fù)率高的問題,提出一種結(jié)合兩層選擇模型的Deep Web數(shù)據(jù)源選擇和集成方法。該方法根據(jù)數(shù)據(jù)源本身質(zhì)量和數(shù)據(jù)源的效用構(gòu)建數(shù)據(jù)源的兩層選擇模型。給出基于該模型的遞歸增量數(shù)據(jù)源選擇和集成策略,采用基于數(shù)據(jù)源質(zhì)量的選擇器過濾大量低質(zhì)量DeepWeb數(shù)據(jù)源,僅選擇若干個高質(zhì)量的數(shù)據(jù)源作為第2層選擇器的輸入。從候選數(shù)據(jù)源集合中遞歸地選擇,使集成系統(tǒng)在獲得盡可能多的高質(zhì)量數(shù)據(jù)的同時,避免出現(xiàn)較高覆蓋率的K個數(shù)據(jù)源,作為集成系統(tǒng)最終需要爬取和集成的數(shù)據(jù)源。實驗結(jié)果表明,該方法結(jié)合兩類選擇器的優(yōu)點,縮減了候選數(shù)據(jù)源的空間并保證集成數(shù)據(jù)的質(zhì)量,同時避免了系統(tǒng)處理大量重復(fù)數(shù)據(jù),有效降低Deep Web數(shù)據(jù)爬取與集成的代價。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%
下載地址
Deep Web數(shù)據(jù)源選擇和集成方法下載
相關(guān)電子資料下載
- 大數(shù)據(jù)采集系統(tǒng)分為幾類 269
- 常見的數(shù)據(jù)采集工具的介紹 109
- 邊緣計算與晶振技術(shù):實現(xiàn)智能靠近數(shù)據(jù)源的新型計算范式 407
- 商湯科技攜手國內(nèi)頭部遙感數(shù)據(jù)平臺全面升級SenseEarth數(shù)據(jù)源 272
- 萬維網(wǎng)35周年之際,聯(lián)合創(chuàng)始人警告平臺沉迷和數(shù)據(jù)源控制兩大問題 445
- NBA比賽收視率的背后是什么? 213
- 開發(fā)RAG管道過程中的12個痛點 435
- 鴻蒙開發(fā)教學(xué)-圖片的引用 381
- 鴻蒙HarmonyOS引用圖片的方法 555
- 數(shù)據(jù)網(wǎng)關(guān)機干什么的 數(shù)據(jù)網(wǎng)關(guān)與數(shù)據(jù)采集器的區(qū)別 1097