深度優(yōu)先
與廣度優(yōu)先的抓取方式相反,深度優(yōu)先首先跟蹤淺層頁面中的某一連接后逐步抓取深層頁面,直至抓完最深層的頁面才返回淺層頁面再跟蹤其另一鏈接,繼續(xù) 向深層頁面抓取,這是一種縱向的頁面抓取方式。使用深度優(yōu)先的抓取方式,搜索引擎可以抓取到網(wǎng)站中較為隱蔽、冷門的頁面,這樣就能滿足更多用戶的需求。
首先,搜索引擎會(huì)抓取網(wǎng)站的首頁,并提取首頁中的鏈接:再沿著其中的一個(gè)連接抓取到頁面 A-1,同時(shí)獲取A-1中的鏈接并抓取頁面B-1,獲取B-1中的來鏈接并抓取頁面C-1 ,如此不斷的重復(fù),滿足到某個(gè)條件后,再?gòu)腁-2抓取頁面及鏈接! |