首先河北百度愛(ài)采購根據網(wǎng)頁(yè)所表現出的特征,將其聚類(lèi)成不同的類(lèi)別,每個(gè)類(lèi)別內的網(wǎng)頁(yè)具有相似的更新周期。從類(lèi)別中抽取—部分最有代表性的網(wǎng)頁(yè)(一般抽取最靠近類(lèi)中心的那些網(wǎng)頁(yè)),對這些網(wǎng)頁(yè)計算其更新周期,那么這個(gè)更新周期適用于類(lèi)別內的所有網(wǎng)頁(yè),之后即可根據網(wǎng)頁(yè)所屬類(lèi)別來(lái)決定其更新頻率。在Tan等人的研究中,將能夠體現網(wǎng)頁(yè)更新周期的屬性特征劃分為兩大類(lèi):靜態(tài)特征和動(dòng)態(tài)特征。靜態(tài)特征包括:河北百度愛(ài)采購頁(yè)面的內容、圖片數量、頁(yè)面大小、鏈接深度、PageRank值等十幾種;而動(dòng)態(tài)特征則體現了靜態(tài)特征隨著(zhù)時(shí)間的變化情況,比如圖片數量的變化情況、入鏈出鏈的變化情況等。根據這兩類(lèi)特征,即可對網(wǎng)頁(yè)進(jìn)行聚類(lèi)。為一個(gè)較為通用的流程,不同算法在細節處有差異。比如有些研究直接省略聚類(lèi)這個(gè)步驟,而是以網(wǎng)站作為聚類(lèi)單位,即假設屬于同一個(gè)網(wǎng)站的網(wǎng)頁(yè)具有相同的更新周期,對網(wǎng)站內頁(yè)面進(jìn)行抽樣,計算其更新頻率,之后網(wǎng)站內所有網(wǎng)頁(yè)以這個(gè)更新周期為準。這個(gè)假設雖顯粗糙,因為很明顯同一網(wǎng)站內網(wǎng)頁(yè)更新頻率差異很大,但是可以省掉聚類(lèi)這個(gè)步驟,在計算效率方面會(huì )更可行些。
相關(guān)實(shí)驗表明,聚類(lèi)抽樣策略效果好于前述兩種更新策略,但是對以?xún)|計的網(wǎng)頁(yè)進(jìn)行聚類(lèi),其難度也是非常巨大的。物理學(xué)研究表明,在目前宇宙所有物質(zhì)的總體質(zhì)量中,星系等可見(jiàn)物質(zhì)只占其中的20%,不可探測的暗物質(zhì)則占據了總質(zhì)量的大約8o%;ヂ(lián)網(wǎng)中的暗網(wǎng)可與宇宙中的暗物質(zhì)相類(lèi)比,而其所占網(wǎng)頁(yè)的比例,更是遠大于暗物質(zhì)占宇宙質(zhì)量的比例,大約百倍于目前的明網(wǎng)(SurfacingWeb)網(wǎng)頁(yè)所謂暗網(wǎng),是指目前搜索引擎爬蟲(chóng)按照常規方式很難抓取到的互聯(lián)網(wǎng)頁(yè)面。如前所述,搜索引擎爬蟲(chóng)依賴(lài)頁(yè)面中的鏈接關(guān)系發(fā)現新的頁(yè)面,但是很多網(wǎng)站的內容是以數據庫方式存儲的,典型的例子是一些垂直領(lǐng)域網(wǎng)站,比如攜程旅行網(wǎng)的機票數據,很難有顯式鏈接指向數據庫內的記錄,往往是服努網(wǎng)站提供組合查詢(xún)界面,只有用戶(hù)按照需求輸入查詢(xún)之后,才可能獲得相關(guān)數據。所以,常規的爬蟲(chóng)無(wú)法索引這些數據內容,這是暗網(wǎng)的命名由來(lái)。是攜程旅行網(wǎng)的機票搜索界面和當當網(wǎng)的圖書(shū)搜索界面。為了能夠對暗網(wǎng)數據進(jìn)行索引,需要研發(fā)與常規爬蟲(chóng)機制不同的系統,這類(lèi)爬蟲(chóng)被稱(chēng)做暗網(wǎng)爬蟲(chóng)。
暗網(wǎng)爬蟲(chóng)的目的是將暗網(wǎng)數據從數據庫中挖掘出來(lái),并將其加入搜索引擎的索引,這樣用戶(hù)在搜索時(shí)便可利用這些數據,增加信息覆蓋程度。目前河北百度愛(ài)采購服務(wù)提供商都將暗網(wǎng)挖掘作為重要研究方向,因為這直接關(guān)系到索引量的大小。在此領(lǐng)域的技術(shù)差異,將直接體現在搜索結果的全面性上,自然是競爭對手之間的必爭之地。Google目前將其作為重點(diǎn)研發(fā)方向,而百度的拉丁計劃”目的也在于此垂直網(wǎng)站提供的搜索界面,往往需要人工選擇或者填寫(xiě)內容,比如機票搜索需要選擇出發(fā)地、到達地和日期,圖書(shū)搜索需要指出書(shū)名或者作者。而暗網(wǎng)爬蟲(chóng)為了能夠挖掘數據庫的記錄,必須模擬人的行為,填寫(xiě)內容并提交表單。對于暗網(wǎng)爬蟲(chóng)來(lái)說(shuō),其技術(shù)挑戰有兩點(diǎn):一是查詢(xún)組合太多,如果——組合遍歷,那么會(huì )給被訪(fǎng)問(wèn)網(wǎng)站造成太大壓力,所以如何精心組合查詢(xún)選項是個(gè)難點(diǎn);第二點(diǎn)在于:有的查詢(xún)是文本框,比如圖書(shū)搜索中需要輸入書(shū)名,爬蟲(chóng)怎樣才能夠填入合適的內容?這個(gè)也頗具挑戰性。
作者:chuangxinkeji
上一頁(yè):
有關(guān)河北百度愛(ài)采購搜索數據的查詢(xún)
下一頁(yè):
關(guān)于河北百度愛(ài)采購的信息化模式