企業(yè)與個人網(wǎng)絡(luò)營銷一站式服務(wù)商
        網(wǎng)站建設(shè) / SEO優(yōu)化排名 / 小程序開發(fā) / OA
        0731-88571521
        136-3748-2004
        搜索引擎抓取、索引、排名原理
        信息來源:長沙做網(wǎng)站   發(fā)布時(shí)間:2015-5-28   瀏覽:

        一、索引:在談這個過程前,我們首先要理清搜索引擎索引數(shù)據(jù)表與信息數(shù)據(jù)表之間的關(guān)系,其實(shí)搜索引擎底層的數(shù)據(jù)存儲本身就是一個關(guān)系數(shù)據(jù)庫,索引數(shù)據(jù)表和信息數(shù)據(jù)表是兩個獨(dú)立的表,只是索引數(shù)據(jù)表和信息數(shù)據(jù)表是一對多的關(guān)系,這樣或許更好理解。那么搜索引擎為什么需要索引數(shù)據(jù)表呢?我們不妨從信息量這個角度分析一下,就目前來看,搜索引擎的信息量在百億級,而用戶搜索某個關(guān)鍵字時(shí)響應(yīng)速度在短短的2、3秒內(nèi),在這短短的2、3內(nèi)不僅僅要完成數(shù)據(jù)的查詢,而且還要完成數(shù)據(jù)的排序(關(guān)鍵詞排名)。如果每次都要從這百億級的數(shù)據(jù)中查詢用戶請求并處理排序,不僅減慢響應(yīng)速度,而且還浪費(fèi)了大量的計(jì)算資源,對服務(wù)器的壓力也會更大。這個時(shí)候,搜索引擎就迫切希望將用戶查詢的信息鎖定在一個范圍,這個范圍的信息量或許只有幾千條、幾百條,計(jì)算處理起來,效率要高很多,而索引數(shù)據(jù)表就是為解決這一問題出現(xiàn)的。

        根據(jù)統(tǒng)計(jì),漢語詞語大約有9萬多個,聽起來很龐大,但對于計(jì)算機(jī)來講處理起來恐怕會很輕松,而中文用戶的搜索無外乎就是這幾萬個詞語的組合(英文就更簡單了,26個字母的組合)。如果用戶搜索的是一連串兒的句子,那么要先經(jīng)過搜索引擎的分詞處理,比如 搜索:華普筆記本電腦,分詞技術(shù)首先會按照漢語習(xí)慣進(jìn)行劃分,劃分為:華普、筆記本、電腦,那么這三個常見詞語在搜索引擎索引數(shù)據(jù)庫表中都有對應(yīng)的詞條,此時(shí)搜索引擎將從信息數(shù)據(jù)表中篩選出關(guān)聯(lián)索引數(shù)據(jù)表中3個詞語的全部詞條并取其交集詞條展現(xiàn)給用戶,如果用戶單一搜索一個詞語,那搜索引擎處理起來就更為簡單,直接從信息數(shù)據(jù)表中篩選出索引數(shù)據(jù)表中該詞所對應(yīng)的詞條即可。

        二、抓取:其實(shí)在抓取前面還有一個過程沒有描述在內(nèi),那就是爬行,也就是搜索引擎程序發(fā)現(xiàn)新網(wǎng)址的過程,只是這個過程大多伴隨著抓取,除非你的這個URL上的內(nèi)容沒有什么價(jià)值(垃圾內(nèi)容、重復(fù)內(nèi)容、文字過少內(nèi)容等)而被搜索引擎抓取程序直接跳過。搜索引擎爬行程序以數(shù)據(jù)表中已存在或新提交的鏈接順藤摸瓜式地進(jìn)行爬行以不斷發(fā)現(xiàn)新的URL,抓取程序在分析并確定該URL的頁面內(nèi)容有價(jià)值后,便將其整個頁面抓取下來放入到龐大的信息數(shù)據(jù)表中。新抓取的內(nèi)容在進(jìn)入信息數(shù)據(jù)表時(shí),并不是一股腦地堆積在那,而是按照信息數(shù)據(jù)庫中表的字段(如:網(wǎng)頁URL、title、描述、正文內(nèi)容、抓取時(shí)間、導(dǎo)出鏈接等)分門別類地將信息存儲起來,以便滿足后期的數(shù)據(jù)索引操作。

        三、排名:闡述這一原理,不得不說下搜索引擎爬行、抓取過程,影響關(guān)鍵詞排名的因素很多,如:站內(nèi)優(yōu)化情況、外鏈質(zhì)量及數(shù)量、pr等,那么這些排名因素搜索引擎也必須抓入數(shù)據(jù)庫,納入數(shù)據(jù)表作為特定URL的排名依據(jù),其實(shí)影響網(wǎng)頁排名指標(biāo)的獲取過程就是搜索引擎爬行、抓取的過程。最難理解的可能就是外鏈這一塊兒,因?yàn)樵谧ト【W(wǎng)頁時(shí),搜索引擎是捕捉不到他的導(dǎo)入鏈接的,其實(shí)搜索引擎在抓取一個頁面時(shí),已經(jīng)將該頁面的導(dǎo)出鏈接投票計(jì)算到了相應(yīng)的頁面,并將這一有效投票寫入到了所指向的URL字段中(比如:votes字段),便于排名程序加以計(jì)算。當(dāng)然,影響排名的因素很多,排名計(jì)算的具體方式我們也無從得知,因此這些不在我們的討論之列。關(guān)于排名,大家可能還有一個問題,就是每個詞語的排名是事先排序好了,還是當(dāng)用戶搜索時(shí)才進(jìn)行排序,筆者給出的答案是后者,或許這一個現(xiàn)象可以揭秘筆者的答案:每一天甚至每一小時(shí)關(guān)鍵字排名都會出現(xiàn)波動。




        上一條: 長沙做網(wǎng)站:網(wǎng)站流量迅速提升的方法
        下一條: 網(wǎng)站降權(quán)原因分析及解決辦法
        案例鑒賞
        多年的網(wǎng)站建設(shè)經(jīng)驗(yàn),斌網(wǎng)網(wǎng)絡(luò)不斷提升技術(shù)設(shè)計(jì)服務(wù)水平,迎合搜索引擎優(yōu)化規(guī)則
        網(wǎng)絡(luò)營銷
        多年的網(wǎng)站建設(shè)經(jīng)驗(yàn),網(wǎng)至普不斷提升技術(shù)設(shè)計(jì)服務(wù)水平,迎合搜索引擎優(yōu)化規(guī)則
        長沙私人做網(wǎng)站    長沙做網(wǎng)站    深圳網(wǎng)站建設(shè)    株洲做網(wǎng)站    東莞做網(wǎng)站    湖南大拇指養(yǎng)豬設(shè)備    株洲做網(wǎng)站    
        版權(quán)所有 © 長沙市天心區(qū)斌網(wǎng)網(wǎng)絡(luò)技術(shù)服務(wù)部    湘公網(wǎng)安備 43010302000270號  統(tǒng)一社會信用代碼:92430103MA4LAMB24R  網(wǎng)站ICP備案號:湘ICP備13006070號-2  
        成年免费a级毛片免费看无码| 中文无码vs无码人妻| 大蕉久久伊人中文字幕| 精品久久久久久无码国产| 久久午夜无码鲁丝片秋霞| 久久亚洲精品中文字幕| 国产精品无码一区二区在线观一 | 无码AV岛国片在线播放| xx中文字幕乱偷avxx| 日本中文字幕在线| 蜜臀AV无码国产精品色午夜麻豆| 无码午夜成人1000部免费视频| 中文字幕国产91| 亚洲欧美精品一区久久中文字幕| 亚洲高清无码在线观看| 东京热无码av一区二区| 少妇无码一区二区三区| 无码H肉动漫在线观看| 亚洲中文字幕无码爆乳AV| 中文字幕亚洲一区| 亚洲av中文无码| 最近中文国语字幕在线播放| 亚洲无av在线中文字幕| 亚洲毛片av日韩av无码| 免费无码专区毛片高潮喷水| 久久久久久无码国产精品中文字幕| 色综合久久久久无码专区| 亚洲爆乳无码专区| 无码专区天天躁天天躁在线| 亚洲一区精品无码| 亚洲动漫精品无码av天堂| 亚洲av日韩av无码| 亚洲Aⅴ无码专区在线观看q| 亚洲AV无码久久寂寞少妇| 亚洲av无码不卡一区二区三区| 亚洲av日韩av无码| 99国产精品无码| 亚洲av无码成人精品国产| 久久人妻无码中文字幕| 日本一区二区三区精品中文字幕| 精品久久久久久中文字幕人妻最新|