什麼是robots.txt?詳談如何利用robots.txt阻止網站被搜索引擎索引

2023 / 08 / 25
對絕大多數商家而言,「網站能夠在搜索結果頁中獲得靠前排名,藉此實現更可觀的流量及轉換」是他們進行網站SEO優化的目的。話雖如此,但是如果網站有些「不可告人的秘密」,而又不想讓Google、Yahoo等搜索引擎爬蟲爬時,我們又有什麼方法可以阻止它們的行動呢?

什麼是robots.txt?不想讓搜索引擎發現頁面的秘訣

robots.txt是一個放置於網站根目錄下的純文字檔案(如https://www.example.com/robots.txt),主要用於與網絡爬蟲(如搜索引擎的爬蟲程式)進行溝通,指示哪些內容允許抓取、哪些應予避開。

也就是說,robots.txt相當於網站提供給爬蟲的「訪問須知」或「交通指示牌」,並具有以下核心作用:

• 允許或禁止抓取:指引特定爬蟲存取或避開某些目錄與檔案。

• 管理爬蟲流量:避免不重要、無限迴圈或私密頁面被爬取,節省伺服器資源與爬蟲預算。

•指定網站地圖:透過Sitemap指令,告知爬蟲XML網站地圖的位置,幫助它們更有效率地索引內容。

是不是所有網站都需要設定robots.txt?未必!

網站是否需要設定robots.txt文件往往取決於其實際需求與目標,如果網站存在不希望被收錄的內容,例如登入/註冊頁面、後臺介面、站內搜索結果以及特定型別的文件等,就可以透過robots.txt限制爬蟲存取,確保搜索引擎將「抓取預算」集中在重要頁面,提升索引效率。

如果你希望搜索引擎爬蟲可以更快地發現網站的新頁面,也可以設定一個完全開放的 robots.txt檔案,並在其中提交Sitemap位置,主動邀請爬蟲進行抓取。

反之,如果你的網站頁面不多,且所有內容都是公開的,那麼不設定robots.txt也無妨,這代表預設對所有爬蟲開放。例如單頁式網站,如果沒有需要遮蔽的部分,不設定robots.txt也是常見做法。

如何為網站設定robots.txt?基礎規則一次看懂

Step 1 搞清robots.txt文件的基本規則

一般來說,robots.txt文件會包含以下這些指令:

• user-agent:指定規則適用的搜索引擎檢索器名稱,其中星號(*)通常表示適用除指定搜索引擎檢索器以外的所有搜索引擎檢索器。

• disallow:禁止前述搜索引擎檢索器在根網域下檢索特定的目錄或網頁。

• allow:允許前述搜索引擎檢索器在根網域下檢索特定的目錄或網頁。

• sitemap:告知搜索引擎檢索器,該網站的Sitemap所在位置。

值得注意的是,每項規則至少要有一個disallow或allow項目。

以下列舉幾種實用設定範例:

情境 範例 說明
禁止所有爬蟲抓取整個網站 User-agent: *
Disallow: /
注意:未被抓取的網址仍可能被索引。
禁止抓取特定目錄 User-agent: *
Disallow: /private/
Disallow: /temp/
目錄名稱後加 / 表示整個目錄。
僅允許特定爬蟲抓取 User-agent: Googlebot-news
Allow: /
User-agent: *
Disallow: /
只開放給 Google 新聞爬蟲。
禁止抓取特定檔案類型 User-agent: Googlebot
Disallow: /*.pdf$
使用 $ 匹配特定結尾的網址。
禁止 Google 圖片索引所有圖片 User-agent: Googlebot-Image
Disallow: /
適用於避免圖片出現在圖片搜尋結果。

Step 2  瞭解robots.txt檔案的設定限制

在建立或編輯robots.txt檔案之前,建議先瞭解以下關於網址封鎖方式的限制,網站管理員可以視乎網站目標和狀況而改用其他機制,以確保無人能透過網絡搜索到你的網址:

① 並非所有搜索引擎都支援robots.txt規則

雖然大部分搜索引擎檢索器都會遵循robots.txt檔案中的指示,但並非每個檢索器都是如此,因此若要確保特定資訊不會被檢索器存取,建議使用其他方式(如使用密碼保護伺服器上的私人檔案等)來封鎖搜索引擎檢索器的存取。

② 各種檢索器解讀語法的方式有所不同

雖然大部分搜索引擎檢索器都會遵循robots.txt檔案中的規則,但各個檢索器解讀規則的方式可能有所不同,部分搜索引擎檢索器可能無法理解特定的指示,因此網站管理員需要掌握不同檢索器的robots.txt規則並採用合適的語法。

③ 如果其他網站鏈接到robots.txt所封鎖的網頁,檢索器仍然可以為其建立索引

雖然搜索引擎檢索器通常不會對robots.txt所封鎖的內容進行檢索或建立索引,但如果封鎖網頁於網絡上其他網頁出現,檢索器仍然會建立這些網址的索引,甚至在搜索結果中顯示。如要完全避免這種建議,建議使用密碼保護伺服器上的檔案、使用noindex meta標記或回應標頭,或完全移除網頁等。

Step 3 測試robots.txt是否正常

正常來說,當你將robots.txt檔案儲存在網站根目錄中後,搜索引擎檢索器就會自動尋找並開始使用robots.txt檔案。但需要注意的是,為了保證robots.txt檔案能夠被檢索器正常存取,檔案上傳後別忘記使用「robots.txt 測試工具進行檢測」:

seo-robots-usage

△ 登入https://www.google.com/webmasters/tools/robots-testing-tool,選擇你需要測試的驗證的網址。

seo-robots-usage

△ 接著就可以測試當前robots.txt檔案是否有問題,以及檢視即時robots.txt的檔案內容。

【最後】robots.txt對SEO優化重要嗎?

答案並非絕對!首先我們需要搞清楚一點的是,robots.txt檔案並不是每個網站必備的。Googlebot造訪網站時,通常會先嘗試擷取 robots.txt 檔案,尋求檢索許可權;如果網站沒有設定robots.txt檔案,或者是robots meta標記、X-Robots-Tag HTTP標頭,Googlebot同樣會對該網站進行檢索並為建立索引,但有可能會增加檢索預算(Crawl Budget)的浪費。

反之,如果網站錯誤使用robots.txt檔案來阻止搜索引擎檢索器來做索引,那肯定是對網站SEO成效大打折扣。因此,網站架構初期一定要謹慎,否則第一步走錯,後續的影響絕對是很深遠的。

香港網頁提供一站式數碼營商方案服務,包括、網頁設計、網絡推廣、網頁管理與寄存、系統開發及其它增值服務,全方位滿足客戶的業務需要,歡迎隨時聯絡我們,香港網頁是您開拓網絡商機的最佳伙伴。

聯絡電話:852-3749 9734

電郵地址:[email protected]

網址:https://hkweb.com.hk

更多文章