搜索引擎預處理方面的提取文字處理

   在一些SEO材料中,預處理也被簡稱為索引,因為索引是預處理適合主要的內容。

  搜索引擎蜘蛛抓取的原始頁面,并不能直接用于查詢排名處理。搜索引擎數據庫中的頁面都在數萬億級別以上,用戶輸入搜索詞后,靠排名程序實時對這么多頁面分析相關性,計算量太大,不可能在一兩秒內返回排名結果。因此抓取來的頁面必須經過預處理,為適合后的查詢排名做好準備。

  和爬行抓取一樣,預處理也是在后臺提前完成,用戶搜索時感覺不到這個過程。

  現在的搜索引擎還是以文字內容為基礎。蜘蛛爬取到的頁面HTML代碼,除了用戶在瀏覽器上可以看到的可見文字外,還包含了大量的HTML格式標簽、JAVASCRIPT程序等無法用于排名的內容。搜索引擎預處理首先要做的就是從HTML文件中去除標簽、程序提取出可以用于排名處理的頁面文字 。

  除了可見文字,搜索引擎也會提取出一些特殊的包含文字信息的代碼,如META標簽中的文字、圖片替代文字 、FLASH文件的替代文字、鏈接鏈文字等。


請尊重我們的辛苦付出,未經允許,請不要轉載南京SEO優化-南京網站優化推廣-凱壹良SEO公司!
上一篇:html 塊級標簽與內聯標簽的區別
下一篇:搜索引擎對中文分詞