我似乎无法让它发挥作用,但它似乎非常基本。
我想要抓取域根
http://www.example.com
但没有其他可爬行的内容,并且所有子目录都是动态的
http://www.example.com/*
I tried
User-agent: *
Allow: /
Disallow: /*/
但谷歌网站管理员测试工具说所有子目录都是允许的。
有人有解决方案吗?谢谢 :)
根据 Backus-Naur Form (BNF) 解析定义Google 的 robots.txt 文档 https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt,顺序为Allow
and Disallow
指令并不重要。所以改变顺序确实对你没有帮助。
相反,使用$
运算符来指示路径的结束。$
表示“行尾”(即从此时开始不匹配任何内容)
测试这个 robots.txt。我确信它应该适合你(我也在 Google Search Console 中验证过):
user-agent: *
Allow: /$
Disallow: /
这将允许http://www.example.com
and http://www.example.com/
被抓取,但其他一切都被阻止。
note:认为Allow
指令满足您的特定用例,但如果您有index.html
or default.php
,这些URL将不会被抓取。
边注:我只非常熟悉 Googlebot 和 bingbot 的行为。如果您有任何其他目标引擎,它们可能有也可能没有关于如何列出指令的特定规则。因此,如果您想“额外”确定,您可以随时交换位置Allow
and Disallow
指令块,我只是这样设置它们来揭穿一些评论。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)