河北百度愛(ài)采購策略思路很直接:以網(wǎng)站為單位來(lái)衡量網(wǎng)頁(yè)重要性,對于待抓取URL隊列中的網(wǎng)頁(yè),根據所屬網(wǎng)站歸類(lèi),如果哪個(gè)網(wǎng)站等待下載的頁(yè)面最多,則優(yōu)先下載這些鏈接。其本質(zhì)思想傾向于優(yōu)先下載大型網(wǎng)站,因為大型網(wǎng)站往往包含更多的頁(yè)面。鑒于大型網(wǎng)站往往是著(zhù)名企業(yè)的內容,其網(wǎng)頁(yè)質(zhì)量一般較高,所以這個(gè)思路雖然簡(jiǎn)單,但是有一定依據。實(shí)驗表明這個(gè)算法效果也要略?xún)?yōu)于寬度優(yōu)先遍歷策略;ヂ(lián)網(wǎng)的動(dòng)態(tài)性是其顯著(zhù)特征,隨時(shí)都有新出現的頁(yè)面,頁(yè)面的內容被更改或者本來(lái)存在的頁(yè)面被刪除。對于爬蟲(chóng)來(lái)說(shuō),并非將網(wǎng)頁(yè)抓取到本地就算完成任駑,也要體現出互聯(lián)網(wǎng)的這種動(dòng)態(tài)性。本地下載的網(wǎng)頁(yè)可被看做是互聯(lián)網(wǎng)頁(yè)面的“鏡像”,爬蟲(chóng)要盡可能保證其一致性?梢约僭O種情況:某個(gè)網(wǎng)頁(yè)已被刪除或者內容做岀重大變動(dòng),而搜索引擎對此惘然無(wú)知,仍然按其舊有內容排序,將其作為搜索結果提供給用戶(hù),其用戶(hù)體驗之糟糕不言而喻。所以,對于已經(jīng)抓取過(guò)的網(wǎng)頁(yè),河北百度愛(ài)采購還要負責保持其內容和互聯(lián)網(wǎng)頁(yè)面內容的同步,這取決于爬蟲(chóng)所采用的網(wǎng)頁(yè)更新策略。網(wǎng)頁(yè)更新策略的任務(wù)是要決定何時(shí)重新抓取之前已經(jīng)下載過(guò)的網(wǎng)頁(yè),以盡可能使得本地下載網(wǎng)頁(yè)和互聯(lián)網(wǎng)原始頁(yè)面內容保持致。常用的網(wǎng)頁(yè)更新策略有3種:歷史參考策略、用戶(hù)體驗策略和聚類(lèi)抽樣策略。
歷史參考策略是最直觀(guān)的_種更新策略,它建立于如下假設之上:過(guò)去頻繁更新的網(wǎng)頁(yè),那么將來(lái)也會(huì )頻繁更新。所以,為了預估某個(gè)網(wǎng)頁(yè)何時(shí)進(jìn)行更新,可以通過(guò)參考其歷史更新情況來(lái)做出決定。這種方法往往利用泊松過(guò)程來(lái)對網(wǎng)頁(yè)的變化進(jìn)行建模,根據每個(gè)網(wǎng)頁(yè)過(guò)去的變動(dòng)情況,利用模型預測將來(lái)何時(shí)內容會(huì )再次發(fā)生變化,以此來(lái)指導爬蟲(chóng)的抓取過(guò)程。但是不同方法側重不盡相同,比如有的研究將一個(gè)網(wǎng)頁(yè)劃分成不同的區域,抓取策略應該忽略掉廣告欄或者導航欄這種不重要區域的頻繁變化,而集中在主題內容的變化探測和建模上。一般來(lái)說(shuō),搜索引擎用戶(hù)提交查詢(xún)后,相關(guān)的搜索結果可能成干上萬(wàn),而用戶(hù)沒(méi)有耐心查看排在后面的搜索結果,往往只查看前3頁(yè)搜索內容。用戶(hù)體驗策略就是利用搜索引擎用戶(hù)的這個(gè)特點(diǎn)來(lái)設計更新策略的。這種更新策略以用戶(hù)體驗為核心,即使本地索引的網(wǎng)頁(yè)內容是過(guò)時(shí)的,但是如果不影響用戶(hù)體驗,那么晚些更新這些過(guò)時(shí)網(wǎng)頁(yè)也未嘗不可。所以判斷個(gè)網(wǎng)頁(yè)何時(shí)更新為好,取決于這個(gè)網(wǎng)頁(yè)的內容變化所帶來(lái)搜索質(zhì)量的變化(往往采用搜索結果排名的變化來(lái)衡量),影響越大的網(wǎng)頁(yè),則應該越快更新。
河北百度愛(ài)采購用戶(hù)體驗策略保存網(wǎng)頁(yè)的多個(gè)歷史版本,并根據過(guò)去每次內容變化對搜索質(zhì)量的影響,得出一個(gè)平均值,以此作為判斷爬蟲(chóng)重抓該網(wǎng)頁(yè)時(shí)機的參考依據,對于影響越厲害的網(wǎng)頁(yè),則越優(yōu)先調度重新抓取。上面介紹的兩種網(wǎng)頁(yè)更新策略嚴重依賴(lài)網(wǎng)頁(yè)的歷史更新信息,因為這是能夠進(jìn)行后續計算的基礎。但是在現實(shí)中,為每個(gè)網(wǎng)頁(yè)保存其歷史信息,搜索系統會(huì )大量增加額外負擔。從另外個(gè)角度考慮,如果是首次抓取到的網(wǎng)頁(yè),因為沒(méi)有歷史信息,所以也就無(wú)法按照這兩種思路去預估其更新周期。聚類(lèi)抽樣策略即是為了解決上述缺點(diǎn)而提出的聚類(lèi)抽樣策略認為:網(wǎng)頁(yè)具有一些屬性,根據這些屬性可以預測其更新周期,具有相似屬性的網(wǎng)頁(yè),其更新周期也是類(lèi)似的。于是,可以根據這些屬性將網(wǎng)頁(yè)歸類(lèi),同一類(lèi)別內的網(wǎng)頁(yè)具有相同的更新頻率。為了計算某個(gè)類(lèi)別的更新周期,只需對類(lèi)別內網(wǎng)頁(yè)進(jìn)行采樣,以這些被采樣網(wǎng)頁(yè)的更新周期作為類(lèi)別內所有其他網(wǎng)頁(yè)的更新周期。與之前敘述的兩種方法相比較,這種策略方面無(wú)須為每個(gè)網(wǎng)頁(yè)保存歷史信息;另一方面,對于新網(wǎng)頁(yè),即使沒(méi)有歷史信息,也可以根據其所屬類(lèi)別來(lái)對其進(jìn)行更新。
作者:chuangxinkeji
上一頁(yè):
有關(guān)河北百度愛(ài)采購產(chǎn)業(yè)結構的升級
下一頁(yè):
有關(guān)河北百度愛(ài)采購搜索數據的查詢(xún)