網(wǎng)絡(luò)搜索引擎,網(wǎng)絡(luò)搜索引擎的工作原理
網(wǎng)絡(luò)搜索引擎,網(wǎng)絡(luò)搜索引擎的工作原理
21 世紀(jì)是信息時(shí)代,隨著信息科學(xué)技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)已成為人們生活中的重要組成部分,網(wǎng)上信息呈幾何級(jí)數(shù)增長(zhǎng),面對(duì)眾多繁雜無(wú)序的信息,如何能快速、準(zhǔn)確、經(jīng)濟(jì)地查找到所需要的信息,成為人們迫切需要解決的問(wèn)題。
搜索引擎概述
搜索引擎是為滿足人們對(duì)網(wǎng)絡(luò)信息的搜索需求而新興的一種網(wǎng)絡(luò)工具,它利用網(wǎng)絡(luò)自動(dòng)搜索功能,對(duì)各種信息資源分門(mén)別類(lèi)地進(jìn)行標(biāo)引、建庫(kù),并對(duì)信息進(jìn)行理解、提取、組織和處理,從而起到信息導(dǎo)航的作用,幫助人們從不同形式的數(shù)字化信息中進(jìn)行搜索。
搜索引擎起源于傳統(tǒng)的信息全文檢索理論。狹義上的搜索引擎僅指基于因特網(wǎng)的搜索引擎;廣義上的搜索引擎除此之外還包括基于目錄的信息檢索服務(wù)。搜索引擎的研究極具綜合性和挑戰(zhàn)性,它涉及到信息檢索、人工智能、計(jì)算機(jī)網(wǎng)絡(luò)、分布式處理、數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘、數(shù)字圖書(shū)館、自然語(yǔ)言處理等多領(lǐng)域的關(guān)鍵理論和技術(shù),其核心問(wèn)題是數(shù)據(jù)庫(kù)的規(guī)模、索引數(shù)據(jù)庫(kù)的質(zhì)量和標(biāo)引質(zhì)量。
搜索引擎的工作原理及分類(lèi)
搜索引擎由搜索器、索引器、檢索器和用戶接口四部分。它利用一個(gè)名為“蜘蛛”的機(jī)器人程序以一定的策略自動(dòng)進(jìn)行信息搜索,然后由索引器對(duì)信息進(jìn)行理解、處理,從中抽取索引項(xiàng),建立索引庫(kù),再由檢索器根據(jù)用戶的查詢?cè)谒饕龓?kù)中快速檢索文檔,進(jìn)行相關(guān)度評(píng)價(jià),將要輸出的結(jié)果排序,并按用戶的查詢需求合理反饋信息,由用戶接口來(lái)接納用戶查詢,顯示查詢結(jié)果,提供個(gè)性化查詢項(xiàng)。按照信息搜集的方法和服務(wù)提供方式的不同,搜索引擎可以分為:
1. 全文搜索引擎
全文搜索引擎是從各個(gè)網(wǎng)站提取信息,建立數(shù)據(jù)庫(kù),檢索與用戶查詢條件相匹配的記錄后,按照一定的排列順序返回結(jié)果,是名副其實(shí)的搜索引擎。全文搜索引擎的自動(dòng)信息搜集功能分2 種:一種是定期搜索,即每隔一段時(shí)間,搜索引擎主動(dòng)派出“蜘蛛”程序,對(duì)一定IP 地址范圍的互聯(lián)網(wǎng)站進(jìn)行檢索,一旦發(fā)現(xiàn)新的網(wǎng)站,它會(huì)自動(dòng)提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫(kù);另一種是提交網(wǎng)站搜索,即網(wǎng)站擁有者主動(dòng)向搜索引擎提交網(wǎng)址,它在一定時(shí)間內(nèi)(2 天到數(shù)月不等) 定向向你的網(wǎng)站派出“蜘蛛”程序。全文搜索引擎中最具代表性的有國(guó)外著名的Google 及國(guó)內(nèi)的百度搜索。
2. 目錄索引
目錄索引是一種人工方式或半自動(dòng)方式的搜索引擎,由編輯人員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類(lèi)框架中。由于目錄索引只是一個(gè)按目錄分類(lèi)的網(wǎng)站鏈接列表,因此不能稱(chēng)為嚴(yán)格意義上的搜索引擎。由于目錄索引中加入了人的智能,所以導(dǎo)航質(zhì)量高,信息更準(zhǔn)確,但也正因?yàn)槿绱?使得維護(hù)費(fèi)用偏大,信息更新不及時(shí)。目錄索引中最具代表性的為yahoo 、新浪。
3. 元搜索引擎
元搜索引擎沒(méi)有自己的數(shù)據(jù),而是將用戶的查詢請(qǐng)求同時(shí)向多個(gè)搜索引擎遞交,將返回的結(jié)果處理后,作為自己的結(jié)果返回給用戶。元搜索引擎返回結(jié)果的信息量更大、更全,但是不能夠充分使用所使用搜索引擎的功能,用戶需要做更多的篩選。元搜索引擎的代表是WebCrawler、info market 等。
搜索引擎的發(fā)展現(xiàn)狀及技術(shù)展望
目前,搜索引擎一般提供的是關(guān)鍵詞的全文檢索和分類(lèi)瀏覽的查詢方式,檢索方式單一。分類(lèi)目錄瀏覽常常檢索到很多無(wú)關(guān)的信息,查全率、查準(zhǔn)率不高;關(guān)鍵詞檢索僅僅是機(jī)械的詞語(yǔ)匹配,缺乏知識(shí)處理能力和理解能力,信息檢索質(zhì)量不高。此外,數(shù)據(jù)庫(kù)檢索功能和應(yīng)用上的局限性、排序技術(shù)指標(biāo)單一、分類(lèi)目標(biāo)體系缺乏規(guī)范、信息加工深度不夠,這些都嚴(yán)重影響著搜索引擎的發(fā)展。因此,必須增加檢索途徑,加強(qiáng)網(wǎng)絡(luò)信息資源的科學(xué)標(biāo)引和組織,推動(dòng)網(wǎng)絡(luò)資源標(biāo)準(zhǔn)化進(jìn)程,積極推進(jìn)搜索引擎的發(fā)展。
1. 精確搜索技術(shù)
采用基于自然語(yǔ)言理解技術(shù)的智能化搜索引擎,加深理解用戶搜索請(qǐng)求; 通過(guò)對(duì)用戶的不斷了解、分析,提供個(gè)性化搜索;利用XML 等技術(shù)使信息結(jié)構(gòu)化,查詢結(jié)構(gòu)化,提高檢索的速度和性能;針對(duì)某一行業(yè),某一主題和某一地區(qū)的信息而建立專(zhuān)業(yè)化搜索,提高搜索的準(zhǔn)確度。
2. 對(duì)等搜索技術(shù)
對(duì)等搜索P2P(Peer To Peer) 技術(shù)是以用戶為中心,通過(guò)P2P 共享硬盤(pán)上的文件、目錄甚至整個(gè)硬盤(pán),將這一理念具體運(yùn)用到搜索引擎技術(shù)上,使用戶無(wú)須通過(guò)Web 服務(wù)器,不受信息文檔格式和宿主設(shè)備的限制,進(jìn)行深度搜索,網(wǎng)上信息的價(jià)值得到極大的提升。
3. 交叉語(yǔ)言檢索技術(shù)
交叉語(yǔ)言信息檢索是指用戶用母語(yǔ)提交查詢,搜索引擎在多種語(yǔ)言的數(shù)據(jù)庫(kù)中進(jìn)行信息檢索,返回能夠回答用戶問(wèn)題的所有語(yǔ)言的文檔。如果再加上機(jī)器翻譯,返回結(jié)果可以用母語(yǔ)顯示。該技術(shù)目前還處于初步研究階段,主要的困難在于語(yǔ)言之間在表達(dá)方式和語(yǔ)義對(duì)應(yīng)上的不確定性。但對(duì)于經(jīng)濟(jì)全球化、互聯(lián)網(wǎng)跨越國(guó)界的今天,無(wú)疑具有很重要的意義。
4. 移動(dòng)代理技術(shù)
移動(dòng)代理(Mobile Agent) 技術(shù)是一種新型分布式計(jì)算技術(shù),是指網(wǎng)絡(luò)上具有移動(dòng)功能的、能夠自主運(yùn)行的,按照用戶的要求完成指定任務(wù)的程序。在移動(dòng)代理模式下,客戶機(jī)向服務(wù)器提交的不再是一些簡(jiǎn)單的請(qǐng)求,而是包含代碼和數(shù)據(jù)的移動(dòng)對(duì)象,移動(dòng)對(duì)象代表用戶,按照“程序靠近數(shù)據(jù)”的原則,在服務(wù)器間自主的移動(dòng),完成數(shù)據(jù)處理的任務(wù)?;谝苿?dòng)代理的模式之上的應(yīng)用程序可以大大節(jié)省網(wǎng)絡(luò)寬帶,有效克服網(wǎng)絡(luò)延時(shí)帶來(lái)的種種問(wèn)題,可以智能化地自主異步執(zhí)行,它克服了搜索引擎?zhèn)鹘y(tǒng)的“數(shù)據(jù)靠近程序”的運(yùn)行模式,大大降低了網(wǎng)絡(luò)的數(shù)據(jù)流量,節(jié)省了網(wǎng)絡(luò)資源。
發(fā)展前景
隨著信息化社會(huì)的推進(jìn),搜索已成為網(wǎng)絡(luò)生活中組織和控制網(wǎng)絡(luò)信息資源的有效工具,利用搜索引擎加速信息流通及整和有用知識(shí),提高信息利用率,已成為廣大用戶的共識(shí)。我們應(yīng)更好的利用搜索引擎,實(shí)現(xiàn)信息服務(wù)的人性化、高效化,為用戶檢索信息提供更大的便利。
非常好我支持^.^
(208) 99.5%
不好我反對(duì)
(1) 0.5%
相關(guān)閱讀:
- [電子說(shuō)] 西南交通大學(xué)攜手華為部署四川首例Wi-Fi 7,打造高品質(zhì)萬(wàn)兆校園網(wǎng)絡(luò)底座 2023-10-24
- [電子說(shuō)] 深層云時(shí)代,重新思考業(yè)務(wù)轉(zhuǎn)型的網(wǎng)絡(luò)風(fēng)險(xiǎn) 2023-10-24
- [電子說(shuō)] 三星電子進(jìn)行12.7GHz—13.25GHz頻段的6G網(wǎng)絡(luò)測(cè)試 2023-10-24
- [移動(dòng)通信] 5G網(wǎng)絡(luò)特性對(duì)車(chē)聯(lián)網(wǎng)應(yīng)用發(fā)展的影響 2023-10-24
- [電子說(shuō)] 諾基亞貝爾實(shí)驗(yàn)室創(chuàng)造800 Gbps跨洋光傳輸新紀(jì)錄 2023-10-24
- [電子說(shuō)] 網(wǎng)絡(luò)華佗 | 大明星出行記 2023-10-24
- [RF/無(wú)線] 5G-A時(shí)代的室內(nèi)網(wǎng)絡(luò)建設(shè)解決方案 2023-10-24
- [電子說(shuō)] 外貿(mào)專(zhuān)用網(wǎng)絡(luò)有哪些? 2023-10-24
( 發(fā)表人:admin )