Seo針對網站頁面如何去重

   搜索引擎還需要對頁面進行去重處理。同一篇文章經常會重復出現在不同網站及同一個網站的不同網址上,搜索引擎并不喜歡這種重復性的內容。用戶搜索時,如果在前兩頁看到的都是來自不同網站的同一篇文章,用戶體驗就太差了,雖然都是內容相關的。搜索引擎希望只返回相同文章中的一篇,所以在進行索引前還需要識別和刪除重復內容,這個過程就稱為“去重”。

  “去重”的基本方法是對頁面特征關鍵詞計算指紋,也就是說從頁面主體內容中選取適合有代表性的一部分關鍵詞(經常是出現頻率適合高的關鍵詞),然后計算這些關鍵詞的數字指紋。這里的關鍵詞選取是在分詞、去停止詞、消噪之后。實驗表明,通常選取10個特征關鍵詞就可以達到比較高的計算準確性,再選取更多詞對去重準確性提高的貢獻也就不大了。

  典型的指紋計算方法如MD5算法(信息摘要算法第五版)這類指紋算法的特點是,輸入 (特征關鍵詞及其順序)有任何微小的變化,都會導致計算出的指紋有很大差距。

  了解了搜索引擎的去重算法,SEO人員就應該知道簡單地增加“的”、“地”、“得”、調換段落順序這種所謂偽原創,并不能逃過搜索引擎的去重算法,因為這樣的操作無法改變文章的特征關鍵詞,也就無法改變指紋。而且搜索引擎的去重算法很可能不止于頁面級別,而是進行到段落級別,混合不同文章、交叉調換段落順序也不能使轉載和抄襲變成原創。


請尊重我們的辛苦付出,未經允許,請不要轉載南京SEO優化-南京網站優化推廣-凱壹良SEO公司!
上一篇:Seo如何理解網站去停止詞和消除噪聲
下一篇:怎么理解搜索引擎的正向索引