怎么理解搜索引擎的正向索引

   正向索引也可以簡稱為索引。

  經過文字提取、分詞、消噪、去重后,搜索引擎得到的就是獨特的、能反映頁面主體內容的、以詞為單位的字符串。接下來搜索引擎索引程序就可以提取關鍵詞,按照分詞程序劃分好的詞,把頁面轉換為一個關鍵詞組成的集合,同時記錄每一個關鍵詞在頁面上的出現頻率、出現次數、格式(如出現在標題標簽、黑體、H標簽、錨文字等)、位置等信息。這樣,每一個頁面都可以記錄為一串關鍵詞集合,基點每個關鍵詞的詞頻、格式、位置等權重信息也都記錄在案。

  搜索引擎索引程序將頁面及關鍵詞形成詞表結構存儲進索引庫。簡化的索引詞表形式如下:

  文件ID 內容

  文件1 關鍵詞1,關鍵詞2,關鍵詞7,關鍵詞10,…..,關鍵詞L

  文件2 關鍵詞1,關鍵詞7,關鍵詞30,……,關鍵詞M

  文件3 關鍵詞2,關鍵詞70,關鍵詞305,……,關鍵詞N

  等以上形式。

  每個文件都對應一個文件ID,文件內容被表示為一串關鍵詞的集合。實際上在搜索引擎索引庫中,關鍵詞也已經轉換為關鍵詞ID。這樣的數據結構就稱為正向索引。


請尊重我們的辛苦付出,未經允許,請不要轉載南京SEO優化-南京網站優化推廣-凱壹良SEO公司!
上一篇:Seo針對網站頁面如何去重
下一篇:新網站如何做SEO優化