做網(wǎng)站優(yōu)化的人應該要對搜索引擊的基本原理有一些了解,從搜索引擎發(fā)現(xiàn)網(wǎng)址到該頁面擁有排名,以及后續(xù)更新整個過程中,搜索引擎到底是怎么工作的,都需要簡單了解。對于專業(yè)的算法不必進行深入的研究,但是對于搜索引擎工作中的策略和算法原理要有個簡單的認知樣才能更有效地開展SEO工作,知其然也要知其所以然。當然,也有一些朋友不懂這些,照樣做得有聲有色,但是對于搜索引擎工作原理,懂總比不懂要好一些。
結合SEO實際工作中的現(xiàn)象,更進一步剖析一下搜索引擎的工作原理,其實當你了解了搜索引擎的工作流程、策略基本算法后,就可以在一定程度上避免因為不當操作而帶來的不必要處罰,同時也可以快速析出很多搜索引擎搜索結果異常的原因。有搜索行為的地方就有搜索引擎,站內搜索、全索、垂直搜索等都會用到搜索引擎。接下來,筆者會根據(jù)從業(yè)認知,討論一下全文搜索引擎基本架構。、 Google等綜合搜索巨頭肯定有著更為復雜的架構和檢索技術,但宏觀上的本原理都差不多。
搜索引擎的大概架構可以分成左右兩個部分:一部分是主動抓取網(wǎng)頁行一系列處理后建立索引,等待用戶搜索;另一部分是分析用戶搜索意圖,展現(xiàn)用戶所需要搜索結果。
搜索引擎派出 Spider(蜘蛛)
按照一定策略把網(wǎng)頁抓回到搜索引擎服務器。步驟2對抓回的網(wǎng)頁進行鏈接抽離、內容處理,消除噪聲、提取該頁主題文本內容等。步驟3對網(wǎng)頁的文本內容進行中文分詞、去除停止詞等。步驟4對網(wǎng)頁內容進行分詞后判斷該頁面內容與已索引網(wǎng)頁是否有重復,剔除重復頁對剩余網(wǎng)頁進行倒排索引,然后等待用戶的檢索。
當有用戶進行查詢后
搜索引擎工作的流程機制一般如下。
先對用戶所查詢的關鍵詞進行分詞處理
并根據(jù)用戶的地理位置和歷史檢索特征進行用戶需求分析,以便使用地域性搜索結果和個性化搜索結果展示用戶較需要的內容。
查找緩存中是否有該關鍵詞的查詢結果
如果有,為了較快地呈現(xiàn)查詢結果,搜索引擎會根據(jù)當下用戶的各種信息判斷其真正需求,對緩存中的結果進行微調或直接呈現(xiàn)給用戶。
如果用戶所查詢的關鍵詞在緩存中不存在
那么就在索引庫中的網(wǎng)頁進行調取排名呈現(xiàn),并將該關鍵詞和對應的搜索結果加入到緩存中。
網(wǎng)頁排名是根據(jù)用戶的搜索詞和搜索需求
對索引庫中的網(wǎng)頁進行相關性、重要性(鏈接權重分析)和用戶體驗的高低進行分析所得出的。用戶在搜索結果中的點擊和重復搜索行為,也可以告訴搜索引擎,用戶對搜索結果頁的使用體驗。這塊兒是近來作弊較多的部分,所以這部分會伴隨著搜索引擎的反作弊算法干預,有時甚至可能會進行人工干預。
按照上述搜索引擎的架構,在整個搜索引擎工作流程中大概會涉及 Spider、內容處理、分詞、去重、索引、內容相關性、鏈接分析、判斷頁面用戶體驗、反作弊、人工干預、緩存機制、用戶需求分析等模塊。