過去
SEO目標是搶下搜索引擎的第一名,但在AI搜索時代,即使網站排名名列前茅,但如果沒有被AI選為引用來源,還是可能白白錯失許多商機。
事實上,不管是傳統搜索引擎,還是像 GPT-4o、Claude、Gemini 這類 AI 模型,都需要爬蟲抓取與理解網頁內容,才能給出精準的回答。這意味著,SEO非但沒有消失,反而變得更講究技巧;同時,這背後更涉及一個非常關鍵的概念:
PART.01 AI Crawlability 是什麼?
AI Crawlability(AI 可爬取性),是指網站內容被AI爬蟲(AI Bots)成功抓取、解析並理解的能力。簡單說,就是讓AI模型「看得懂、記得住、敢引用」你的頁面。
在AI搜索時代,使用者看到的不再是鏈接列表,而是一段已經整理好的答案。如果AI採用了你的內容,使用者甚至可能不需要點進你的網站,就已經獲得了你提供的核心資訊。
這代表什麼?
你不再只是和別的網站競爭「誰的鏈接比較吸引人點選」,而是在競爭「誰的內容更值得被AI選為答案的來源」。
從爭奪眼球,轉變為贏得信任!
PART.02 拆解網站內容沒有被AI收錄的8大陷阱
■ robot.txt對AI爬蟲設定封鎖規則
如果你在robots.txt文件中,不小心對GPTBot、Google-Extended、CCBot、ClaudeBot等AI爬蟲設定封鎖規則,那就會讓它們連你的網站大門都進不來。
■ 網頁內容太依賴JavaScript
很多現代網站都會使用React、Vue、Angular等框架進行「客戶端渲染(CSR)」,但是大多數AI爬蟲是無法準確解析這類檔案,進而錯過頁面中那些精彩的內容。
■ 網站速度太慢
AI爬蟲同樣有抓取預算(crawl budget)的限制,它們不會無限期等你的伺服器回應。所以,如果你的網站載入速度過慢,很可能會阻擋AI爬蟲進入網站抓取資料。
■ 使用無限滾動(Infinite Scroll)
無限滾動雖然能為移動端使用者帶來極佳的體驗,但是對AI爬蟲來說無疑是一場噩夢。因為它們不會滑動頁面,更不會觸發「載入更多」的JavaScript事件,而是讀取HTML初始載入的那幾篇文章便匆匆離開。
■ CDN / 防護機制意外擋掉AI
很多網站都會啟用Cloudflare、AWS WAF、Sucuri等防護服務,來判斷來訪者是否為真人。但問題是,AI爬蟲的行為模式與真人完全不同,這就會很容易被這些防護系統誤判為攻擊或垃圾流量,而拒之於門外。
■ 缺少清晰的頁面結構
就算AI爬蟲順利進入網頁並且獲取到頁面內容,但如果你的文章從頭到尾都是連續的長段落,沒有小標題、列表、粗體關鍵字等,AI可能會忽略該頁面內容中的關鍵資訊。
■ 缺少權威訊號
雖然SEO圈子常說「重複內容不會被Google懲罰,只是不會被選為優先顯示」,但AI模型(尤其是RAG架構下的檢索機制)會綜合多種可信度訊號,如作者姓名與簡介、引用外部權威來源、內容獨特性等,來評估該頁面內容是否值得引用。
■ 缺少權威訊號
為了讓頁面更簡潔,很多網站會使用摺疊區塊(Accordion)、頁籤(Tabs)、滑鼠懸浮(Hover)等各種互動元素。但AI爬蟲只能讀取HTML原始碼中「預設可見」的內容,如果重要資訊被藏在這類互動元素裡,它們是永遠都看不到的。
PART.03 如何加強網站的AI Crawlability?
提升AI Crawlability不是單一技巧,而是一套涵蓋技術架構、內容結構、信任建立的系統性工程,下面香港網頁集團重點說說:
技術面 — 讓AI爬得進來、讀得完整
Step 1 精準管理robots.txt 確認以下主流AI爬蟲沒有被robots.txt阻擋,這包括:GPTBot(ChatGPT / OpenAI)、Google-Extended(Google SGE / Vertex AI)、CCBot(Common Crawl)、ClaudeBot(Claude / Anthropi)……
開放AI爬蟲意味著你的內容可能被用於訓練大型語言模型,如果你擔心內容被「學走」,可以選擇性開放或封鎖。
Step 2 確保關鍵內容能被AI爬蟲看到 網站如果使用用伺服器端渲染(SSR)或靜態網站生成(SSG),請確保頁面關鍵內容在HTML程式碼中出現,否則建議使用以下方式讓AI爬蟲看到:
▪ 確保重要資料在初始HTML的<noscript>標籤中
▪ 建立一個純HTML的Sitemap頁面,列出所有重要文章的摘要
▪ 使用動態渲染(Dynamic Rendering)服務,對爬蟲回傳預渲染版本
Step 3 為AI爬蟲建立清晰的路徑 確保sitemap文件只包含重要頁面路徑,避免放入標籤頁、作者頁以及日期歸檔頁等無關重要的頁面,同時在robots.txt中明確標示sitemap的位置;或者建立一個精簡版sitemap文件來給AI爬蟲讀取,文件內容只包含核心頁面及附上200字內的摘要。
至於內部鏈接設定,則需要:
▪ 每篇重要頁面至少被3個其他頁面鏈接
▪ 避免使用 JavaScript 點選事件“模擬”鏈接,而是使用真實的 <a href="..."> 標籤實現頁面跳轉或資源訪問
▪ 確保每個頁面都「返回目錄」或「相關文章」區塊,形成鏈接網
▪ 在HTML中加入<link rel="canonical">標籤,明確告訴AI爬蟲「這篇文章的正確網址是什麼」,避免重複內容造成的混淆。
Step 4 檢查CDN與防護機制 在 CDN(如 Cloudflare、AWS CloudFront)或 WAF 中為已知的 AI 爬蟲 User-Agent 建立識別與管控機制,並且不要對其啟用「瀏覽器驗證」。
如果無法修改CDN設定,可以嘗試:
▪ 在robots.txt中使用Crawl-delay指令降低AI爬蟲的請求頻率
▪ 將重要內容的伺服器回應時間控制在1秒以內,減少被限流的風險
內容面 — 讓AI讀得懂、抓得準
step 1 用階層式標題打造「AI友善的大綱」保證網站中每個重要頁面都遵循以下頁面結構:
▪ 網站僅有一個H1標籤;
▪ 遵循H1→H2→H3的順序,不可跳級(如H1直接跳H3)
▪ 每個H2底下至少要有2-3個H3,或者200字以上的內文
▪ 所有H標籤都要與下方對應內容高度相關,不要使用無關標題來堆砌關鍵字
step 2 設計「可擷取」的內容元件 AI爬蟲對結構化內容的偏好遠高於連續敘述,因此合理運用結構化標籤、列表和表格等,有助於爬蟲更容易理解和抓取。
此外,在文章中加入<dl>(定義列表)標籤來呈現名詞解釋,這是HTML原生支援的結構化方式,可提高AI爬蟲對內容的理解度。
Step 3 撰寫「AI友善」的摘要區塊 AI爬蟲在引用內容時,不一定會讀完整篇文章,而是先看摘要、標題、開頭段落。因此,我們需要在Meta Description、文章摘要區塊,以及每個H2段落中的第一句話,提供一致但互補的摘要。這樣當使用者問到相關內容時,AI可能會直接引用並複製貼上頁面摘要中的重點內容。
信任面 — 讓AI願意引用你
Step 1 補強所有「可信度訊號」 AI模型在檢索內容時,會優先過濾掉「來路不明」的資訊,這意味著沒有作者、沒有日期、沒有來源的文章,信任分數極低。因此,在所有重要頁面中,明確提供作者簡介、公司/機構簡介、引用來源、原創資料或案例等。
Step 2 建立「可被驗證」的內容獨特性 AI檢索系統會傾向避免引用與其他來源高度重複的內容,因此獨特性本身就是信任加分項,特別是以下幾點:
▪ 避免內容農場式的「改寫」:與其抄襲別人的定義然後換句話說,不如用自己的案例重新解釋
▪ 加入第一手資料:做一份小規模的調查,或分享真實客戶的案例(經同意後匿名處理)
▪ 提供獨特的觀點:在文章中明確說「相較於常見說法,我們認為……」
▪ 建立內部引用鏈:當你寫了一篇原創研究後,後續的文章可以引用它,形成「自有知識庫」
PART.04 5步檢查網站內容是否被AI收錄
步驟1:確認重要頁面可被抓取使用curl或瀏覽器的「檢視原檔案」,關閉JS後檢視文章主體是否仍完整呈現。
步驟2:檢查robots.txt與Sitemap在 https://你的網域/robots.txt 確認相關指令,同時檢查Sitemap是否涵蓋所有你想被AI看見的頁面。
步驟3:使用爬蟲工具模擬AI推薦使用Google Search Console、Screaming Frog SEO Spider,以及OpenAI官方提供的GPTBot檢測工具等工具,模擬AI爬蟲的索引網站狀況。
步驟4:檢視網站內容結構是否清晰定期檢查網站中的所有重要文章,確保這些文章結構具備以下特點:
▪ 只看H2標題就能掌握文章大綱
▪ 在30秒內就能找到重要定義、結論和關鍵資料
▪ 所有段落內容保持在200字左右
步驟5:定期觀察內容在AI搜索中的曝光目前雖然沒有任何一種工具可以精確追蹤AI引用,但我們可以透過以下方式間接觀察:
▪ 在Perplexity、Bing Chat、ChatGPT等提問相關內容
▪ 觀察答案是否出現網站鏈接或品牌名稱
▪ 使用「site:你的網域」搭配AI工具測試
關於AI Crawlability的常見問題(FAQ)
Q1:AI Crawlability與傳統SEO衝突嗎?
不衝突,反而互補。傳統SEO幫你獲得排名與流量,AI Crawlability則確保你在新興的AI搜索管道中被引用,兩者共同構成未來搜索可見度的基礎。
Q2:所有產業都需要重視AI Crawlability嗎?
最好重視,特別是網站包含大量知識型、工具型、比較型的內容。
Q3:Google的AI搜索(SGE)會怎麼影響我的網站?
Google SGE同樣會優先引用結構清晰、具備可信度的內容,因此提升AI Crawlability同時也能幫助你在Google的AI搜索結果中獲得更多曝光。
Q4:我的網站技術資源有限,還能做AI Crawlability嗎?
可以。先從內容面與信任面下手:改善標題結構、加入定義句、補上作者與更新日期。這些幾乎不需要工程資源,卻能帶來明顯改善。
Q5:如何知道我的網站是否被AI引用?
目前沒有統一儀表板,但可以透過在AI工具中手動提問、觀察品牌提及、使用SEO工具偵測爬蟲紀錄等方式間接判斷。
從理解定義、排除阻礙,到實戰最佳化與自我檢查,AI Crawlability已成為網站能否在AI搜索中突圍的決定性因素。別再讓優質內容被AI忽略,現在就行動,打造既適合Google又被AI喜愛的網站。
香港網頁擁有超過10年網路營銷經驗,不僅協助企業快速診斷網站問題,更提供客製化最佳化方案,包括robots.txt調整、結構化內容重構、Schema實作等。
你的網站準備好迎接AI搜索時代了嗎?