RM新时代网站-首页

您好,歡迎來電子發(fā)燒友網(wǎng)! ,新用戶?[免費注冊]

您的位置:電子發(fā)燒友網(wǎng)>源碼下載>數(shù)值算法/人工智能>

Deep Web數(shù)據(jù)源選擇和集成方法

大小:1.10 MB 人氣: 2018-02-09 需要積分:1

  針對基于數(shù)據(jù)源質(zhì)量選擇方法的數(shù)據(jù)源在數(shù)據(jù)爬取時存在代價大、重復(fù)率高的問題,提出一種結(jié)合兩層選擇模型的Deep Web數(shù)據(jù)源選擇和集成方法。該方法根據(jù)數(shù)據(jù)源本身質(zhì)量和數(shù)據(jù)源的效用構(gòu)建數(shù)據(jù)源的兩層選擇模型。給出基于該模型的遞歸增量數(shù)據(jù)源選擇和集成策略,采用基于數(shù)據(jù)源質(zhì)量的選擇器過濾大量低質(zhì)量DeepWeb數(shù)據(jù)源,僅選擇若干個高質(zhì)量的數(shù)據(jù)源作為第2層選擇器的輸入。從候選數(shù)據(jù)源集合中遞歸地選擇,使集成系統(tǒng)在獲得盡可能多的高質(zhì)量數(shù)據(jù)的同時,避免出現(xiàn)較高覆蓋率的K個數(shù)據(jù)源,作為集成系統(tǒng)最終需要爬取和集成的數(shù)據(jù)源。實驗結(jié)果表明,該方法結(jié)合兩類選擇器的優(yōu)點,縮減了候選數(shù)據(jù)源的空間并保證集成數(shù)據(jù)的質(zhì)量,同時避免了系統(tǒng)處理大量重復(fù)數(shù)據(jù),有效降低Deep Web數(shù)據(jù)爬取與集成的代價。

Deep Web數(shù)據(jù)源選擇和集成方法

非常好我支持^.^

(0) 0%

不好我反對

(0) 0%

      發(fā)表評論

      用戶評論
      評價:好評中評差評

      發(fā)表評論,獲取積分! 請遵守相關(guān)規(guī)定!

      ?
      RM新时代网站-首页