搜索引擎是現(xiàn)代人從網(wǎng)絡(luò)世界中獲取信息的重要工具,無論你有什么問題,都可以在網(wǎng)上搜索出答案。比如百度搜索引擎那句很有名的slogon:百度一下,你就知道。然而,關(guān)于搜索引擎的工作原理,相信沒幾個人能說出來。今天,小編就來以百度搜索為例,從頁面抓取、篩查過濾、建立索引、評分排序以及搜索展出幾個方面,為大家好好科普一下搜索引擎的基本工作原理。
百度搜索引擎的工作原理
1、頁面抓取
一旦發(fā)現(xiàn)有新的數(shù)據(jù)信息出現(xiàn),不管是老站更新,還是新站上線,百度蜘蛛會以很快的速度精準找到你的網(wǎng)站,然后將你網(wǎng)站的所有數(shù)據(jù)和信息直接打包帶回家給百度搜索引擎。當(dāng)然,為了能夠讓百度蜘蛛一開始就抓取網(wǎng)站信息,很多網(wǎng)站也會主動提交信息數(shù)據(jù)給百度搜索引擎。
2、篩查過濾
當(dāng)百度蜘蛛把抓取的數(shù)據(jù)信息帶回來以后,百度搜索引擎會對帶回來的信息數(shù)據(jù)進行一個基本的篩選,也是搜索引擎的基本工作原理之一。比如黃賭毒,還有特殊詞匯信息和數(shù)據(jù)都會篩掉。那么什么信息和數(shù)據(jù)會被屏蔽過濾呢?比如說我國管控的物品,或禁止的一些服務(wù),再比如辦退伍證、出售警服、軍火器械等等。還有少兒不宜、有參賭性質(zhì)、或者與毒品相關(guān)的內(nèi)容都是不被允許的。另外,還有一點大家要注意,沒有價值,不能為用戶提供幫助的垃圾數(shù)據(jù)信息,比如抄襲的文章、大量采集的文章、鏡像的站點等等,也屬于會被屏蔽過濾的內(nèi)容。
而優(yōu)質(zhì)的頁面,有信譽或者有威望的網(wǎng)站則直接通過篩選進入下一環(huán)節(jié)。如果百度蜘蛛抓取的頁面信息是原創(chuàng)度高,用戶體驗度高的內(nèi)容就會被很快通過篩選。百度搜索引擎還有一個白名單,這類被百度直接信任的數(shù)據(jù)信息一旦有更新,會被馬上抓取,然后建庫索引,直接參與排名。包括一些大型的站點,對社會有用的站點也會受到這樣的優(yōu)待。
3、建立索引
通過篩選頁面這個環(huán)節(jié)過后,所有留存下來的信息基本都被判定為優(yōu)質(zhì)內(nèi)容,然后進入建庫索引環(huán)節(jié)。在這個環(huán)節(jié)搜索引擎對信息數(shù)據(jù)進行分門別類。比如:購物網(wǎng)站歸為一類,培訓(xùn)網(wǎng)站歸為一類,美食網(wǎng)站歸為一類等等海量的數(shù)據(jù)信息一一分類入庫。搜索引擎每天都要分類海量(按億計算)的各種信息數(shù)據(jù),這些數(shù)據(jù)來自各行各業(yè),但在分類的過程中,搜索引擎會把性質(zhì)相同的信息數(shù)據(jù)分到一個庫里。不會出現(xiàn)亂套,雜亂的分類。所謂建庫索引也可以理解為登記造冊,然后準備輸入檔案庫,等用戶搜索相關(guān)信息是,搜索引擎就會用正排索引和倒排索引技術(shù)到檔案庫里去調(diào)用符合要求的內(nèi)容給用戶,這就是建立索引的意義所在,也是百度搜索引擎的基本工作原理之一。
4、評分排序
評分排名的標準有三點,網(wǎng)站權(quán)重、網(wǎng)站與內(nèi)容相關(guān)聯(lián)程度、內(nèi)容的實用性;站內(nèi)細節(jié)優(yōu)化、網(wǎng)站本身的構(gòu)架與相應(yīng)速度。
?。?)網(wǎng)站權(quán)重:自來源于哪些網(wǎng)站,然后看下他們網(wǎng)站的年齡。網(wǎng)站年齡越大,百度搜索引擎給予網(wǎng)站的信任分越高。
?。?)網(wǎng)站與內(nèi)容相關(guān)聯(lián)程度:網(wǎng)站的內(nèi)容否與網(wǎng)站主題定位相關(guān),不相關(guān)扣分,相關(guān)就加分。像掛羊頭賣狗肉,就會嚴重影響用戶體驗。
?。?)內(nèi)容的實用性:如果內(nèi)容對有用戶有價值的分,如果不實用,不加分。評判實用的標準有:內(nèi)容原創(chuàng)度、內(nèi)容真實度、閱讀量、轉(zhuǎn)發(fā)收藏、用戶停留時間等等。
(4)站內(nèi)細節(jié)優(yōu)化:站內(nèi)優(yōu)化細節(jié)評分,這一環(huán)節(jié)是重中之重。包括首頁,欄目頁;網(wǎng)頁的URL地址化;圖片Alt屬性、站內(nèi)的內(nèi)鏈建設(shè);站外的外鏈建設(shè);還有其它各種的小細節(jié)。
?。?)網(wǎng)站自身的結(jié)構(gòu):好的結(jié)構(gòu)導(dǎo)致網(wǎng)站本身的打開率高。相反JS代碼太多就會扣分,服務(wù)器不行也會扣分、圖片上經(jīng)常不寫標識也要扣分,URL經(jīng)常帶不開也扣分。
在分析評分階段,百度搜索引擎根據(jù)它的評分機制,評分項,算法機制來對頁面給一個初始評分,這個評分有一個標準,每個行業(yè)的評分標準是不一樣的。一般來講,行業(yè)競爭越激烈需求越大的網(wǎng)站,評分標準越高。低于評分標準線的不能進入site庫,但是會建立索引,等到它超過這個分數(shù)線以后,就可以進入site庫,參與排名了。高于評分標準線的進入site庫,并且直接參與排名。
5、搜索展出
當(dāng)用戶在百度搜索欄輸入關(guān)鍵詞并搜索的時候,百度會根據(jù)剛說的評分標準一一展示網(wǎng)站的排名。不過這個排名也不是一直固定的,所有的排名都會變動。不過有的網(wǎng)站因為本身的權(quán)重很高,網(wǎng)站內(nèi)的每個頁面的初始分值也很高,因此排名自然也十分穩(wěn)固。百度把這類網(wǎng)站放入白名單中,白名單中的網(wǎng)站排名基本上不會收到影響。因此,從這個角度來說,任何網(wǎng)站優(yōu)化的基本準則都必須遵循搜索引擎的評分機制,做好站內(nèi)優(yōu)化,站外優(yōu)化,用戶體驗,網(wǎng)站的基本架構(gòu)配置。只要做好這些,你才能通過搜索引擎的排名機制得到高的頁面初始評分值,評分越高,越容易被收錄,有了收錄,才能有好的排名。
百度搜索引擎的基本工作原理就講到這里了,希望本文能為想要在海量的索引庫中取得優(yōu)先排名的SEO從業(yè)者,提供一些啟發(fā)和幫助。隨著搜索引擎的發(fā)展和進化,規(guī)則算法變得越來越復(fù)雜了。不過搜索引擎的評分機制與評分項其核心并沒有改變。總的來說,討好搜索引擎與提升用戶體驗是SEO中不變的并駕齊驅(qū)的課題。