有關(guān)河北百度愛(ài)采購組織結構的簡(jiǎn)化

日期:2020年05月15日 /人氣: /來(lái)源:本站原創(chuàng )

    河北百度愛(ài)采購中使用的是倒排索引,有不少朋友并不理解什么叫倒排索引。這里先來(lái)介紹一下正向索引。當用戶(hù)進(jìn)行查詢(xún)時(shí),如果對本地文件全面掃描用戶(hù)所提交的關(guān)鍵詞,“查詢(xún)”的工作量就太大了,而且也是很消耗服務(wù)器資源的,所以搜索引擎會(huì )把已經(jīng)處理過(guò)的網(wǎng)頁(yè)先進(jìn)行索引,放到數據庫中等待網(wǎng)民的搜索查詢(xún)請求個(gè)網(wǎng)頁(yè)被搜索引擎經(jīng)過(guò)以上處理后,就只剩下能夠體現網(wǎng)頁(yè)主體內容的文本了,此時(shí)就可以對該網(wǎng)頁(yè)進(jìn)行索引了。正向索引指的是文件對應關(guān)鍵詞的形式,正向索引數據結構簡(jiǎn)化。如果使用這種索引直接參與排名,則與不分詞沒(méi)有太大區別,也需要對所有文件進(jìn)行檢索,并且如果用戶(hù)提交的是長(cháng)尾詞,這種索引對文件內容相關(guān)度的計算也會(huì )非常消耗資源。為了使得索引文件可以直接用于排名,河北百度愛(ài)采購會(huì )把上面的對應關(guān)系進(jìn)行轉換,做成倒排索引,也就是采用關(guān)鍵詞對應文件的形式。倒排索引的數據結構簡(jiǎn)化示意。
    這樣的索引結構就可以直接應用于搜索排名了,比如,用戶(hù)搜索關(guān)鍵詞1,那么搜索引擎只會(huì )對包含關(guān)鍵詞的文件進(jìn)行相關(guān)度和權重計算;用戶(hù)搜索“關(guān)鍵詞1+關(guān)鍵詞2”組合詞,那么搜索引擎就會(huì )把包含關(guān)鍵詞1且包含關(guān)鍵詞2的文件調出,進(jìn)行相關(guān)度和權重計算。這樣就大大加快了呈現排名的速度。河北百度愛(ài)采購中不僅僅記錄了包含相應關(guān)鍵詞文件的ID,還會(huì )記錄關(guān)鍵詞頻率、每個(gè)關(guān)鍵詞對應的文檔頻率,以及關(guān)鍵詞出現在文件中的位置等信息。在排名過(guò)程中,這些信息會(huì )被分別進(jìn)行加權處理,并應用到最終的排名結果中在SEO操作中,會(huì )有相對應的加大關(guān)鍵詞頻率、盡量使核心關(guān)鍵詞出現在網(wǎng)頁(yè)的最前面,以及關(guān)鍵詞用H標簽和變色加粗等著(zhù)重標識的操作手法,這些都會(huì )被倒排索引所記錄,并參與關(guān)鍵詞相關(guān)度的計算和搜索排名。
    在河北百度愛(ài)采購如此發(fā)達的今天,同一資料會(huì )在多個(gè)網(wǎng)站發(fā)布,同—新聞會(huì )被大部分媒體網(wǎng)站報道,再加上小姑長(cháng)和SEO人員孜孜不倦地網(wǎng)絡(luò )采集,造成了網(wǎng)絡(luò )上擁有大量的重復信息。然而當用戶(hù)搜索某個(gè)關(guān)鍵詞時(shí),搜索引擎必定不想呈現給用戶(hù)的搜索結果都是相同的內容。抓取這些重復的網(wǎng)頁(yè),在一定意義上就是對搜索引擎自身資源的浪費,因此去除重復內容的網(wǎng)頁(yè)也成了搜索引擎所面臨的一大問(wèn)題在一般的搜索引擎架構中,網(wǎng)頁(yè)去重一般在Spider抓取部分就存在了,“去重”步驟在整個(gè)搜索引擎架構中實(shí)施得越早,越可以節約后續處理系統的資源使用。搜索引擎一般會(huì )對已經(jīng)抓取過(guò)的重復頁(yè)面進(jìn)行歸類(lèi)處理,比如,判斷某個(gè)站點(diǎn)是否包含大量的重復頁(yè)面,或者該站點(diǎn)是否完全采集其他站點(diǎn)的內容等,以決定以后對該站點(diǎn)的抓取情況或是否直接屏蔽抓取。

作者:chuangxinkeji

上一頁(yè): 河北百度愛(ài)采購的著(zhù)陸頁(yè)面   下一頁(yè): 有關(guān)河北百度愛(ài)采購主要是什么業(yè)務(wù)?
亚洲永久在线免费视频_男子亚洲成色av网站_欧美高清久久久久久69_综合欧美亚洲色偷拍区