过去
SEO目标是抢下搜索引擎的第一名,但在AI搜索时代,即使网站排名名列前茅,但如果没有被AI选为引用来源,还是可能白白错失许多商机。
事实上,不管是传统搜索引擎,还是像 GPT-4o、Claude、Gemini 这类 AI 模型,都需要爬虫抓取与理解网页内容,才能给出精准的回答。这意味着,SEO非但没有消失,反而变得更讲究技巧;同时,这背后更涉及一个非常关键的概念:
PART.01 AI Crawlability 是什么?
AI Crawlability(AI 可爬取性),是指网站内容被AI爬虫(AI Bots)成功抓取、解析并理解的能力。简单说,就是让AI模型「看得懂、记得住、敢引用」你的页面。
在AI搜索时代,使用者看到的不再是链接列表,而是一段已经整理好的答案。如果AI采用了你的内容,使用者甚至可能不需要点进你的网站,就已经获得了你提供的核心资讯。
这代表什么?
你不再只是和别的网站竞争「谁的链接比较吸引人点击」,而是在竞争「谁的内容更值得被AI选为答案的来源」。
从争夺眼球,转变为赢得信任!
PART.02 拆解网站内容没有被AI收录的8大陷阱
■ robot.txt对AI爬虫设定封锁规则
如果你在robots.txt文档中,不小心对GPTBot、Google-Extended、CCBot、ClaudeBot等AI爬虫设定封锁规则,那就会让它们连你的网站大门都进不来。
■ 网页内容太依赖JavaScript
很多现代网站都会使用React、Vue、Angular等框架进行「客户端渲染(CSR)」,但是大多数AI爬虫是无法准确解析这类档案,进而错过页面中那些精彩的内容。
■ 网站速度太慢
AI爬虫同样有抓取预算(crawl budget)的限制,它们不会无限期等你的服务器回应。所以,如果你的网站加载速度过慢,很可能会阻挡AI爬虫进入网站抓取资料。
■ 使用无限滚动(Infinite Scroll)
无限滚动虽然能为移动端用户带来极佳的体验,但是对AI爬虫来说无疑是一场噩梦。因为它们不会滑动页面,更不会触发「载入更多」的JavaScript事件,而是读取HTML初始载入的那几篇文章便匆匆离开。
■ CDN / 防护机制意外挡掉AI
很多网站都会启用Cloudflare、AWS WAF、Sucuri等防护服务,来判断来访者是否为真人。但问题是,AI爬虫的行为模式与真人完全不同,这就会很容易被这些防护系统误判为攻击或垃圾流量,而拒之于门外。
■ 缺少清晰的页面结构
就算AI爬虫顺利进入网页并且获取到页面内容,但如果你的文章从头到尾都是连续的长段落,没有小标题、列表、粗体关键字等,AI可能会忽略该页面内容中的关键资讯。
■ 缺少权威信号
虽然SEO圈子常说「重复内容不会被Google惩罚,只是不会被选为优先显示」,但AI模型(尤其是RAG架构下的检索机制)会综合多种可信度信号,如作者姓名与简介、引用外部权威来源、内容独特性等,来评估该页面内容是否值得引用。
■ 缺少权威信号
为了让页面更简洁,很多网站会使用折叠区块(Accordion)、页签(Tabs)、滑鼠悬浮(Hover)等各种互动元素。但AI爬虫只能读取HTML原始码中「预设可见」的内容,如果重要资讯被藏在这类互动元素里,它们是永远都看不到的。
PART.03 如何加强网站的AI Crawlability?
提升AI Crawlability不是单一技巧,而是一套涵盖技术架构、内容结构、信任建立的系统性工程,下面香港网页集团重点说说:
技术面 — 让AI爬得进来、读得完整
Step 1 精准管理robots.txt 确认以下主流AI爬虫没有被robots.txt阻挡,这包括:GPTBot(ChatGPT / OpenAI)、Google-Extended(Google SGE / Vertex AI)、CCBot(Common Crawl)、ClaudeBot(Claude / Anthropi)……
开放AI爬虫意味着你的内容可能被用于训练大型语言模型,如果你担心内容被「学走」,可以选择性开放或封锁。
Step 2 确保关键内容能被AI爬虫看到 网站如果使用用服务器端渲染(SSR)或静态网站生成(SSG),请确保页面关键内容在HTML代码中出现,否则建议使用以下方式让AI爬虫看到:
▪ 确保重要资料在初始HTML的<noscript>标签中
▪ 建立一个纯HTML的Sitemap页面,列出所有重要文章的摘要
▪ 使用动态渲染(Dynamic Rendering)服务,对爬虫回传预渲染版本
Step 3 为AI爬虫建立清晰的路径 确保sitemap文档只包含重要页面路径,避免放入标签页、作者页以及日期归档页等无关重要的页面,同时在robots.txt中明确标示sitemap的位置;或者建立一个精简版sitemap文档来给AI爬虫读取,文档内容只包含核心页面及附上200字内的摘要。
至于内部链接设置,则需要:
▪ 每篇重要页面至少被3个其他页面链接
▪ 避免使用 JavaScript 点击事件“模拟”链接,而是使用真实的 <a href="..."> 标签实现页面跳转或资源访问
▪ 确保每个页面都「返回目录」或「相关文章」区块,形成链接网
▪ 在HTML中加入<link rel="canonical">标签,明确告诉AI爬虫「这篇文章的正确网址是什么」,避免重复内容造成的混淆。
Step 4 检查CDN与防护机制 在 CDN(如 Cloudflare、AWS CloudFront)或 WAF 中为已知的 AI 爬虫 User-Agent 建立识别与管控机制,并且不要对其启用「浏览器验证」。
如果无法修改CDN设定,可以尝试:
▪ 在robots.txt中使用Crawl-delay指令降低AI爬虫的请求频率
▪ 将重要内容的服务器回应时间控制在1秒以内,减少被限流的风险
内容面 — 让AI读得懂、抓得准
step 1 用阶层式标题打造「AI友善的大纲」保证网站中每个重要页面都遵循以下页面结构:
▪ 网站仅有一个H1标签;
▪ 遵循H1→H2→H3的顺序,不可跳级(如H1直接跳H3)
▪ 每个H2底下至少要有2-3个H3,或者200字以上的内文
▪ 所有H标签都要与下方对应内容高度相关,不要使用无关标题来堆砌关键字
step 2 设计「可撷取」的内容元件 AI爬虫对结构化内容的偏好远高于连续叙述,因此合理运用结构化标签、列表和表格等,有助于爬虫更容易理解和抓取。
此外,在文章中加入<dl>(定义列表)标签来呈现名词解释,这是HTML原生支持的结构化方式,可提高AI爬虫对内容的理解度。
Step 3 撰写「AI友善」的摘要区块 AI爬虫在引用内容时,不一定会读完整篇文章,而是先看摘要、标题、开头段落。因此,我们需要在Meta Description、文章摘要区块,以及每个H2段落中的第一句话,提供一致但互补的摘要。这样当使用者问到相关内容时,AI可能会直接引用并复制贴上页面摘要中的重点内容。
信任面 — 让AI愿意引用你
Step 1 补强所有「可信度信号」 AI模型在检索内容时,会优先过滤掉「来路不明」的资讯,这意味着没有作者、没有日期、没有来源的文章,信任分数极低。因此,在所有重要页面中,明确提供作者简介、公司/机构简介、引用来源、原创资料或案例等。
Step 2 建立「可被验证」的内容独特性 AI检索系统会倾向避免引用与其他来源高度重复的内容,因此独特性本身就是信任加分项,特别是以下几点:
▪ 避免内容农场式的「改写」:与其抄袭别人的定义然后换句话说,不如用自己的案例重新解释
▪ 加入第一手资料:做一份小规模的调查,或分享真实客户的案例(经同意后匿名处理)
▪ 提供独特的观点:在文章中明确说「相较于常见说法,我们认为……」
▪ 建立内部引用链:当你写了一篇原创研究后,后续的文章可以引用它,形成「自有知识库」
PART.04 5步检查网站内容是否被AI收录
步骤1:确认重要页面可被抓取使用curl或浏览器的「查看原文件」,关闭JS后检视文章主体是否仍完整呈现。
步骤2:检查robots.txt与Sitemap在 https://你的网域/robots.txt 确认相关指令,同时检查Sitemap是否涵盖所有你想被AI看见的页面。
步骤3:使用爬虫工具模拟AI推荐使用Google Search Console、Screaming Frog SEO Spider,以及OpenAI官方提供的GPTBot检测工具等工具,模拟AI爬虫的索引网站状况。
步骤4:检视网站内容结构是否清晰定期检查网站中的所有重要文章,确保这些文章结构具备以下特点:
▪ 只看H2标题就能掌握文章大纲
▪ 在30秒内就能找到重要定义、结论和关键资料
▪ 所有段落内容保持在200字左右
步骤5:定期观察内容在AI搜索中的曝光目前虽然没有任何一种工具可以精确追踪AI引用,但我们可以透过以下方式间接观察:
▪ 在Perplexity、Bing Chat、ChatGPT等提问相关内容
▪ 观察答案是否出现网站链接或品牌名称
▪ 使用「site:你的网域」搭配AI工具测试
关于AI Crawlability的常见问题(FAQ)
Q1:AI Crawlability与传统SEO冲突吗?
不冲突,反而互补。传统SEO帮你获得排名与流量,AI Crawlability则确保你在新兴的AI搜索管道中被引用,两者共同构成未来搜索可见度的基础。
Q2:所有产业都需要重视AI Crawlability吗?
最好重视,特别是网站包含大量知识型、工具型、比较型的内容。
Q3:Google的AI搜索(SGE)会怎么影响我的网站?
Google SGE同样会优先引用结构清晰、具备可信度的内容,因此提升AI Crawlability同时也能帮助你在Google的AI搜索结果中获得更多曝光。
Q4:我的网站技术资源有限,还能做AI Crawlability吗?
可以。先从内容面与信任面下手:改善标题结构、加入定义句、补上作者与更新日期。这些几乎不需要工程资源,却能带来明显改善。
Q5:如何知道我的网站是否被AI引用?
目前没有统一仪表板,但可以透过在AI工具中手动提问、观察品牌提及、使用SEO工具侦测爬虫纪录等方式间接判断。
从理解定义、排除阻碍,到实战优化与自我检查,AI Crawlability已成为网站能否在AI搜索中突围的决定性因素。别再让优质内容被AI忽略,现在就行动,打造既适合Google又被AI喜爱的网站。
香港网页拥有超过10年网络营销经验,不仅协助企业快速诊断网站问题,更提供客制化优化方案,包括robots.txt调整、结构化内容重构、Schema实作等。
你的网站准备好迎接AI搜索时代了吗?