什麼是「爬取」?
「爬取」是指搜尋引擎的爬蟲程序訪問網站並抓取、下載網站資料的過程,這是Google接觸我們網站內容的第一步,隨後才會進行索引建檔、內容分析和關鍵字排名。
換句話說,網頁必須先被Google爬取,才能出現在搜尋結果中。如果在一開始Google無法順利爬取你的網站,即使網站內容再優質,SEO效果也會受限。相反,如果Google能有效地爬取網站,則能加快網站出現在搜尋結果中的速度(僅加快Google的處理速度,並不代表會提升排名機會)。
認識爬取額度(Crawl Budget)
Google是如何決定在每個網站上爬取多少頁面的呢?
隨著網路資訊以飛快的速度增長,搜尋引擎的資源卻是有限的。為了更好地分配資源,Google設置了「爬取額度」,來限制其爬蟲在每個網站上的爬取時間和頁面數量。Google為每個網站分配的爬取額度是不同的,主要取決於以下幾個因素:
- 網站規模:大型網站通常會獲得較多的爬取額度,因為其結構複雜、頁面眾多,需要更多時間來爬取。
- 網站權重:權重高的網站通常會有較多的爬取額度,因為Google認為這些網站更可能包含優質內容,值得花更多時間爬取(這也是為什麼大型網站上的文章通常能在一天內被Google收錄,而小型網站可能需要幾天甚至一週的時間)。
- 網站內容:如果網站上有大量錯誤頁面或垃圾內容,Google可能會減少爬取額度,不會浪費時間在對用戶沒有幫助的內容上。
- 網站更新頻率與熱門程度:為了提供用戶最新資訊,熱門網站或是每天大量更新內容的網站(如新聞網站),通常會被更頻繁地爬取。
如何優化爬取額度?
我們是否需要「提高」爬取額度呢?
根據影響爬取額度的因素來看,當網站頁面增加或規模擴大時,Google自然會調整爬取額度。因此,我們的重點不在於「提高」爬取額度,而在於「優化」,也就是在現有的爬取額度內,讓網站能夠被Google最有效地爬取。
以下是一些常見的優化項目,不僅會影響網站的爬取狀況,同時也是進行SEO時必檢查的重點:
- 網站速度
Google透過網站的內部連結來爬取資料,因此網站的反應速度直接影響爬取效能。網站速度越快,Google能夠爬取的頁面和下載的內容就越多。 - 避免失效連結
當Google爬取網頁時,如果發現內容是空白的或連結失效,這不僅會浪費爬取額度,還可能讓Google認為內容沒有價值,從而影響SEO。因此,如果網站上有文章下架或產品下架,建議移除這些內部連結,或使用301轉址導向其他頁面。注意:在轉址時應遵循「只轉址一次」的原則,因為每次轉址重定向都會消耗爬取額度,應盡量避免多次轉址。 - 避免重複內容
重複內容是指「相同的頁面內容,卻有不同版本的網址」。常見的情況包括http/https版本並存,或是網址結尾帶有額外參數(通常因為架站設定或行銷追蹤而產生)。雖然這對用戶可能沒有影響,但Google會將每個版本的網址視為不同頁面。這樣一來,即使你只規劃了200頁內容,由於重複內容,可能會產生多達1000個網址,這會大量佔用爬取額度,而這些內容大多是重複的。