很多SEO人員并沒有真正理解爬行、抓取、索引、收錄這些概念到底指的是什么、區別在哪,以及noindex、nofollow、robots文件的實質功能又是什么。對這些概念沒有精準理解,處理大型網站結構,決定什么頁面需要被抓取,什么頁面需要被索引,哪些頁面需要禁止抓取、素引等情況時,就很難明白SEO該怎么做。所以,這里先來弄清楚這些概念的意義。
1.爬行
爬行指的是搜索引擎蜘蛛從己知頁面上解析出鏈接指向的URL,也就是沿著鏈接發現新頁面(鏈按指向的URL)的過程。當然,蜘蛛并不是發現新URI就馬上爬過去抓取新頁面,而是把發現的URL存放到待抓地址庫中,按照一定順序從地址庫中提取要抓取的URL。
2.抓取
抓取是指搜索引擎蜘蛛從待抓地址庫中提取要抓的URL,訪問這個URL,把讀取的HTML代碼存入數據庫的過程。蜘蛛抓取就是像瀏覽器一樣打開這個頁面,過程和用戶瀏覽器訪問一樣,也會在服務器原始日志中留下記錄。
3.索引
索引的英文是index,指的是將一個URL的信息進行整理,并存入數據庫,也就是素引庫。用戶搜索時,搜索引擎從素引庫中提取URL信息并排序展現出來。索引庫是用于搜索的,被索引的URL是可以被用戶搜索到的,沒有被索引的URI,用戶在搜索結果中是看不到的。
要注意的是,所謂“一個URL的信息”,并不限于蜘蛛從URL上抓取來的內容,還有來自其他來源的信息,如外部鏈接、鏈接的描文字等。有的時候,索引庫中關于這個URL的信息,根本沒有從這個URL抓取來的內容,但搜索引擎知道這個URL的存在,并且存在一些其他信息。
4.收錄
我個人覺得收錄和索引沒有區別,在這里是混用的。只不過收錄是從站長角度看的,搜索時能找到這個URI,就是這個URL被收錄了。從搜索引擎角度看,URL被收錄了,也就是這個URL的信息在索引庫中存在了。英文中并沒有收錄這個詞,它和索引使用的是同一個詞index。
有的時候,站長并不希望某些頁面被收錄(或者說被素引),如復制內容頁面。網站上不出現鏈接,或者使用JavaSoript鏈按,使用nofollow等方法都不能保證頁面一定不被收錄。站長自己雖然沒有鏈按到不想被收錄的頁面,其他網站可能由于某種原因鏈接到這個頁面,導致頁面被抓取和收錄。
有的時候,站長也不希望某些頁面被抓取,如付費內容、還在測試階段的網站等。還有一種很常見的情況,搜索引擎抓取了大量漢有意義的頁面,如電子商務網站按各種條件過調、飾選的頁面,各種排序、排版格式的頁面,這些貝面數量龐大,抓取過去會消耗掉搜索引擎分配給這不網站的抓取份額,造成真正有意義的頁面反倒不能被抓取和收錄的情況。如果通過檢在日志文什發現這些無意義頁面被反復大量抓取,想要收錄的頁面根本沒有抓取,那就應該直接禁止抓取無意義的頁面。
要確保頁面不被抓取,需要使用robots文件,要確保頁面不被收錄,需要使用noindex meta robots標簽。
北京愛品特SEO網站優化提供專業的網站SEO診斷服務、SEO顧問服務、SEO外包服務,咨詢電話或微信:13811777897 袁先生 可免費獲取SEO網站診斷報告。
北京網站優化公司 >> SEO資訊 >> SEO技術技巧 >> 爬行、抓取、索引、收錄到底是什么意思有什么區別 本站部分內容來源于互聯網,如有版權糾紛或者違規問題,請聯系我們刪除,謝謝!
售后響應及時
全國7×24小時客服熱線數據備份
更安全、更高效、更穩定價格公道精準
項目經理精準報價不弄虛作假合作無風險
重合同講信譽,無效全額退款