去重的工作一般會(huì )在分詞之后和索引之前進(jìn)行(也有可能在分詞之前),河北百度愛(ài)采購會(huì )在頁(yè)面已經(jīng)分出的關(guān)鍵詞中,提取部分具有代表性的關(guān)鍵詞,然后計算這些關(guān)鍵詞的“指紋”。每一個(gè)網(wǎng)頁(yè)都會(huì )有個(gè)這樣的特征指紋,當新抓取的網(wǎng)頁(yè)的關(guān)鍵詞指紋和已索引網(wǎng)頁(yè)的關(guān)鍵詞指紋有重合時(shí),那么該新網(wǎng)頁(yè)就可能會(huì )被搜索引擎視為重復內容而放棄索引實(shí)際工作中的搜索引擎,不僅僅使用分詞步驟所分出的有意義的關(guān)鍵詞,還會(huì )使用連續切割的方式提取關(guān)鍵詞,并進(jìn)行指紋計算。連續切割就是以單個(gè)字向后移動(dòng)的方式進(jìn)行切詞,比如,“百度開(kāi)始打擊買(mǎi)賣(mài)鏈接”會(huì )被切成“百度開(kāi)”度開(kāi)始”“開(kāi)始打”“始打擊打擊買(mǎi)“擊買(mǎi)賣(mài)“買(mǎi)賣(mài)鏈“賣(mài)鏈接”。然后從這些詞中提取部分關(guān)鍵詞進(jìn)行指紋計算,參與是否重復內容的對比。這只是搜索引擎識別重復網(wǎng)頁(yè)的基本算法,還有很多其他對付重復網(wǎng)頁(yè)的算法。因此網(wǎng)絡(luò )上流行的大部分偽原創(chuàng )工具,不是不能欺騙搜索引擎,就是把內容做得鬼都讀不通,所以理論上使用普通偽原創(chuàng )工具不能得到搜索引擎的正常收錄和排名。
但是由于河北百度愛(ài)采購并不是對所有的重復頁(yè)面都直接拋棄不索引,而是會(huì )根據重復網(wǎng)頁(yè)所在網(wǎng)站的權重適當放寬索引標準,這樣使得部分作弊者有機可乘,利用網(wǎng)站的高權重,大量采集其他站點(diǎn)的內容獲取搜索流量。不過(guò)自2012年6月份以來(lái),百度搜索多次升級算法,對采集重復信息、垃圾頁(yè)面進(jìn)行了多次重量級的打擊。所以SEO在面對網(wǎng)站內容時(shí),不應該再以偽原創(chuàng )的角度去建設,而需要以對用戶(hù)有用的角度去建設,雖然后者的內容不一定全部是原創(chuàng ),一般如果網(wǎng)站權重沒(méi)有大問(wèn)題,都會(huì )得到健康的發(fā)展。關(guān)于原創(chuàng )問(wèn)題,本書(shū)后續會(huì )在第12章進(jìn)行詳細討論另外,不僅僅是搜索引擎需要“網(wǎng)頁(yè)去重”,自己做網(wǎng)站也需要對站內頁(yè)面進(jìn)行去重。比如分類(lèi)信息、B2B平臺等UGC類(lèi)的網(wǎng)站,如果不加以限制,用戶(hù)所發(fā)布的信息必然會(huì )有大量的重復,這樣不僅在SEO方面表現不好,站內用戶(hù)體驗也會(huì )降低很多。又如河北百度愛(ài)采購在設計流量產(chǎn)品大批量產(chǎn)生頁(yè)面時(shí),也需要做—個(gè)重復過(guò)濾,否則就會(huì )大大降低產(chǎn)品質(zhì)量。SEO人員所設計的流量品常見(jiàn)的般為以“聚合”為基礎的索引頁(yè)、專(zhuān)題頁(yè)或目錄頁(yè),“聚合”就必須有核心詞,不加以過(guò)源,海量核心詞所擴展出來(lái)的頁(yè)面就可能會(huì )有大量重復,從而導致該產(chǎn)品效果不佳,甚至會(huì )因此被搜索引擎降權“去重算法的大概原理一般就如上所述,有興趣的朋友可以了解一下I-Match、Shingle、Simhash及余弦去重具體算法。
搜索引擎在做“網(wǎng)頁(yè)去重”工作之前首先要分析網(wǎng)頁(yè),內容周?chē)脑肼暋睂θブ亟Y果多少會(huì )有影響,做這部分工作時(shí)只對內容部分操作就可以了,相對來(lái)說(shuō)會(huì )簡(jiǎn)單很多,并且可以很有效地輔助產(chǎn)出高質(zhì)量的“SEO產(chǎn)品”。作為SEO人員只要了解實(shí)現原理就可以了,具體在產(chǎn)品中的應用,需要技術(shù)人員來(lái)實(shí)現。此外還涉及效率、資源需求等問(wèn)題,并且根據實(shí)際情況“去重”工作也可以在多個(gè)環(huán)節進(jìn)行(比如對核心詞的分詞環(huán)節),SEO人員只要稍微了解一些原理,能夠為技術(shù)人員建議幾個(gè)方向就很不錯了(技術(shù)人員并不是萬(wàn)能的,也有不熟悉、不擅長(cháng)的領(lǐng)域,在特定時(shí)刻也需要別人提供思路)。如果SEO人員能在這些方面和技術(shù)人員進(jìn)行深入的交流,技術(shù)人員也會(huì )對SEO另眼相看,至少不會(huì )再認為"SEO人員就只會(huì )提改標題、改鏈接、改文字之類(lèi)無(wú)聊的需求”了。
作者:chuangxinkeji
上一頁(yè):
有關(guān)河北百度愛(ài)采購主要是什么業(yè)務(wù)?
下一頁(yè):
使用河北百度愛(ài)采購的用戶(hù)體驗