一本一道久久a久久精品综合蜜臀,亚洲日韩激情一区二区,国产国产东北刺激毛片对白,国产精品三级一区二区,91久久精品日日躁夜夜躁欧美
您當(dāng)前的位置主頁 > SEO優(yōu)化 > 瀏覽文章

搜索引擎核心算法:自然語言和布爾搜索

來源:SEO優(yōu)化 2013-08-07

快速提升網(wǎng)站銷量,使用365webcall網(wǎng)頁客服系統(tǒng)

剛開始時(shí)有2000個(gè)網(wǎng)頁,但使用布爾邏輯運(yùn)算符來分解數(shù)據(jù)集合,就大大減小了搜索范圍

本人從事搜索引擎相關(guān)的工作已有十一年,今天與大家一起談?wù)勊阉饕婧诵乃惴ㄖ?自然語言和布爾搜索論述引出了如下結(jié)論:搜索爬蟲和搜索引擎使用某種啟發(fā)式方法給網(wǎng)頁排名,并返回結(jié)果爬蟲觀察模式,以確定某網(wǎng)頁的內(nèi)容,搜索引擎在搜索查詢中查找模式,并與爬蟲識別的模式進(jìn)行比較,并返回結(jié)果

這個(gè)理論的復(fù)雜性在于,我們使用的是活躍的、不斷成長、不斷演變的語言,這意味著語言的使用模式也在不斷變化為了跟上這種變化,搜索引擎也必須是活躍的、不斷成長、不斷演變的,所以在理解如何針對搜索引擎定位阿站時(shí),啟發(fā)式方法是一個(gè)非常重要的概念理解它的最簡單方法是比較過去和現(xiàn)在的搜索行為,確定搜索是如何演變的

開始時(shí)使用布爾搜索

今天,人們的搜索方式與搜索引擎剛剛問世時(shí)的搜索方式完全不同記得以前提過 Archie、Gopher、Jughead和verojnuca 這些早期的索引和搜索程序的能力是相當(dāng)有限的,要在索引中查找信息,必須對索引非常了解實(shí)際上,使用Archie和Gopher時(shí),必須知道所要查找的文檔或文件的確切位置

有了Jughead和Veronica后,就可以實(shí)際搜索信息了:但那時(shí),搜索仍是非常基本的當(dāng)搜索最終變?yōu)榭赡軙r(shí),如何查找文件是有一些嚴(yán)苛的規(guī)則的在搜索引擎的早期,還沒有今天非常普遍的自然語言搜索

用戶必須指定他們要搜索“這個(gè)短語”,而不是搜索“那個(gè)短語”,或者精確搜索某個(gè)短語.輸入靠爾邏輯——在索引中查找正確的文件或文檔所需的方法布爾邏輯基于GeorgeBoole在19世紀(jì)中葉提出的邏輯代數(shù)系統(tǒng)

實(shí)際上,布爾邏輯就是把數(shù)據(jù)分解為集合,直到數(shù)據(jù)集合非常小,滿足初始查詢提出的要求為止例如,在搜索時(shí),網(wǎng)絡(luò)上可能有1000個(gè)網(wǎng)頁有關(guān)“pools”,有1000個(gè)網(wǎng)頁有關(guān)“saltwater”,如果搜索“saltwater pools”,就會(huì)返回所有2000個(gè)阿頁這實(shí)在太多了但合并這兩個(gè)術(shù)語,僅查找既包含“saltwater”、又包含“pools”的網(wǎng)頁,則只返同原來2000個(gè)阿頁中的一小部分,如圖5—1所示

為了使這個(gè)例子更進(jìn)一步,可以添加一個(gè)限制符,例如“not chlorine”,以縮小數(shù)據(jù)集合添加這個(gè)限制符時(shí),會(huì)去除另外部分?jǐn)?shù)據(jù),滿足“pools,saltwater. but not chlorine”查詢的選項(xiàng)就更少了,如

這個(gè)例子演示了布爾搜索中使用的3個(gè)運(yùn)算符:與、或、非布爾邏輯基于邏輯代數(shù)系統(tǒng),所以這些運(yùn)算符都可以用一個(gè)符號表示:

·與:+

·非;

·或:默認(rèn)運(yùn)算符,返回包含任意一個(gè)單詞的所有頁面,而不管它們的接近程度如何該運(yùn)算符用單詞之間的空格表示現(xiàn)在找到需要的內(nèi)容的可能性更大,且查找速度更快

在互聯(lián)網(wǎng)搜索的早期.布爾邏輯幫助用戶定位需要的文件和文檔從啟發(fā)式方法的角度來看,布爾邏輯為搜索提供了完美的問題解決能力但技術(shù)會(huì)逐漸成熟起來……

小站(BET365)

文章編輯: 365webcall網(wǎng)上客服軟件(www.365webcall.com)

我的評論

登錄賬號: 密碼: 快速注冊 | 找回密碼

一本一道久久a久久精品综合蜜臀,亚洲日韩激情一区二区,国产国产东北刺激毛片对白,国产精品三级一区二区,91久久精品日日躁夜夜躁欧美