Google爬蟲原理,詳解文章收錄的3個步驟

sitemap

你是否想過在我們的網頁內容按下「發布」之後究竟是如何被google所收錄的呢?其實google有個爬蟲機器人,叫做googlebot。googlebot會透過網路上的連結發現你的網頁,再來會經過檢索(Crawl)、索引(Index)以及排名(Ranking)三個步驟,讓你的網站曝光在搜尋結果頁面。這也就是google爬蟲的原理。關於這部分google官方也有特別推出影片說明。

看完影片的說明,我們可以了解搜尋引擎是透過爬蟲機器人,從網路上已存在的不同網址之間回探索並發現新網頁。所以儘管你什麼都不做只要文章有確實發布,googlebot就會透過連結來爬取你的內容。But檢索(Crawl)只是第一步,如果僅僅是有被檢索並不代表網頁有被google收錄(Index)。只有被收錄(Index)的網頁內容才會真的進入排名階段進而產生曝光。

一、爬蟲如何檢索(Crawl)網頁?

檢索階段是指爬蟲是否爬取你的網頁內容,這步驟的重點是要讓爬蟲可以順利的爬取。你可能會疑問是會有什麼不順利的?還真的有,我們已經知道爬蟲是透過網址來發現你的網站的。但是假如你是新建置的網站,在網路上沒人認識你。也因此不會有人放你的連結在網路上。那爬蟲該怎麼找到你?又或者你確實發布文章了,但是卻不小心將文章設定成Noindex或是在Robot.txt設定成Disallow。這都會造成爬蟲無法順利檢索你的網頁內容。因此確保讓爬蟲順利爬取我們的頁面就很重要了。接下來我們先來談談讓爬蟲順利爬取的三種方式。

(一)、透過網址發現

這是爬蟲預設也是最基本的發現方式,他會將在爬取過程中蒐集到的網址放入檢索隊列。也就是他的爬取清單中再依序去爬取。那回到上面提過的問題,假如是新網站又一直沒被檢索該怎麼辦呢?有以下幾種小訣竅可以加快被檢索的速度。

  1. 社群網站:到社群網站或是相關論壇貼網址,也就是自己將文章分享到相關的社群中建立反向連結。
  2. 付費廣告:花一點錢買付費廣告,創造流量。
  3. google 我的商家:創建自己的商家檔案放上首頁連結。
  4. 提交Sitemap:Sitemap就是網站地圖,是用來讓爬蟲了解網站上網頁的列表。方便爬蟲快速爬取重要內容的檔案。

(二)、透過提交網頁地圖(Sitemap)

網頁地圖是讓爬蟲發現我們網站的第二種方式,透過生成sitemap檔並在google search console上傳提交,就能加快被爬取的等待時間。因為這相當於我們主動提交了我們網站的網址給爬蟲,請他來爬取相關內容。一般來說sitemap檔都是xml檔的形式。若是大型網站還會再根據網址內容作細分。比如另外提交多媒體檔案的sitemap。那麼我們該如何生成sitemap檔及提交呢?通常有以下幾種方式。

  1. WordPress:
  2. 第三方網站或軟體:
  3. 上傳網頁根目錄+google search console提交

如果你是使用wordpress架站的,那麼wordpress在5.5版本更新之後就內建有sitemap自動提交的功能。你可以在網址列輸入”你的網址/wp-sitemap.xml”查看。如果是透過外掛軟體或是一般正常位置則是”你的網址/sitemap.xml”確認位置之後就能到google search console提交囉。另外不是使用wordpress的就要自己在網站根目錄建一個sitemap資料夾。然後將透過第三方網站或軟體建立的sitemap檔上傳。之後一樣到google search console提交檔案位置就可以囉。

(三)、透過Google Search Console

最後還有一種方式是利用google search console工具。使用檢查網址,確認網址沒問題之後。點擊要求建立索引。但這種方式只能一次一個網址,所以如果是大量更新或是範圍比較大的改動,還是利用sitemap更新會比較方便喔。

二、為何我的網頁沒被google收錄(Index)?

當我們的網頁被正常檢索(Crawl)後,正常來說就會被google所收錄(Index)但實務上的確就有出現已檢索卻未收錄的狀況。一般來說有以下這幾種可能。

  1. 內容過於單薄(Thin page)
  2. 有重複頁面
  3. 爬蟲還沒來爬取更新

以上三種問題可以一一去排查,若是因為內容過於單薄就要多寫點東西提高內容質量。如果沒有靈感可以先去看看在相同關鍵字之下其他網站都寫了什麼主題。但嚴禁抄襲複製,不然後果可能不僅僅是沒被收錄這麼簡單喔!

重複性頁面問題也是相當常見的SEO問題,可能是存在多個不同的網址但都導到同一個頁面。或是因為網址動態參數而導致。一般處理重複性頁面可以簡單的區分為兩種方式。301永久轉址或使用Canonical tag。第一步先判斷除了主要頁面的網址之外其他頁面或網址是否需要存在?如果不需要,就把多餘的頁面都301轉址集中。需要的話,就用Canonical tag標註,告訴爬蟲我們選的標準網址是哪一個。另外就算沒有重複網頁也建議每篇內容設定標準網址指向自己。

第三種只是因為剛發布爬蟲還沒來爬取收錄,耐心點讓爬蟲飛一會。等不及的話可以試著重新提交sitemap或是到Search Console檢查網址確認收錄狀況。

Buy me a coffee 用行動支持我的內容創作

如果我的文章對你有幫助,歡迎用行動支持我的內容創作,小額贊助請我喝咖啡、留言或是寄信來跟我分享你的收穫,都會讓我持續有動力分享更多內容唷~

Buy Me a Coffee