正向索引還不能直接用于排名。假設用戶搜索關鍵詞2,如果只存在正向索引,排名程序需要掃描所有索引庫中的文件,找出包含關鍵詞2的文件,再進行相關性計算。這樣的計算量無法滿足實時返回排名結果的要求。
所以搜索引擎會將正向索引數據庫重新構造為倒排索引,把文件對應到關鍵詞的映射轉換為關鍵詞到文件的映射。
關鍵詞 文件
關鍵詞1 文件1,文件2,文件15,文件58,……,文件I
關鍵詞2 文件1,文件3,文件6,……,文件M
關鍵詞3 文件5,文件700,文件805,……;,文件N
等以上順序
在倒排索引中關鍵詞是主鍵,每個關鍵詞都對應著一系列文件,這些文件中都出現了這個關鍵詞。這樣當用戶搜索某個關鍵詞時,排序程序在倒排索引中定位到這個關鍵詞,就可以馬上找出所有包含這個關鍵詞的文件。