搜索引擎的工作過程大體可以分成三階段。
(1)爬行和抓取:搜索引擎蜘蛛通過跟蹤鏈接訪問網(wǎng)頁(yè),獲取網(wǎng)頁(yè)HTML代碼存入數(shù)據(jù)庫(kù)。
(2)預(yù)處理:索引程序?qū)ψト淼木W(wǎng)頁(yè)數(shù)據(jù)進(jìn)行文字提取,中文分詞,索引等處理,以備排名程序調(diào)用。
(3)排名:用戶輸入關(guān)鍵詞后,排名程序調(diào)用索引庫(kù)數(shù)據(jù),計(jì)算相關(guān)性,然后按一定格式生成搜索結(jié)果頁(yè)面。