robots.txt 只允许root,禁止其他一切?

2024-01-11

我似乎无法让它发挥作用,但它似乎非常基本。

我想要抓取域根

http://www.example.com

但没有其他可爬行的内容,并且所有子目录都是动态的

http://www.example.com/*

I tried

User-agent: *
Allow: /
Disallow: /*/

但谷歌网站管理员测试工具说所有子目录都是允许的。

有人有解决方案吗?谢谢 :)


根据 Backus-Naur Form (BNF) 解析定义Google 的 robots.txt 文档 https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt,顺序为Allow and Disallow指令并不重要。所以改变顺序确实对你没有帮助。

相反,使用$运算符来指示路径的结束。$表示“行尾”(即从此时开始不匹配任何内容)

测试这个 robots.txt。我确信它应该适合你(我也在 Google Search Console 中验证过):

user-agent: *
Allow: /$
Disallow: /

这将允许http://www.example.com and http://www.example.com/被抓取,但其他一切都被阻止。

note:认为Allow指令满足您的特定用例,但如果您有index.html or default.php,这些URL将不会被抓取。

边注:我只非常熟悉 Googlebot 和 bingbot 的行为。如果您有任何其他目标引擎,它们可能有也可能没有关于如何列出指令的特定规则。因此,如果您想“额外”确定,您可以随时交换位置Allow and Disallow指令块,我只是这样设置它们来揭穿一些评论。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

robots.txt 只允许root,禁止其他一切? 的相关文章

  • robots.txt 泄漏敏感信息

    robots txt 泄漏敏感信息 漏洞描述 搜索引擎可以通过robots文件可以获知哪些页面可以爬取 哪些页面不可以 爬取 Robots协议是网站国际互联网界通行的道德规范 其目的是保护网站数据和敏感信 息 确保用户个人信息和隐私不被侵犯
  • 通过 PHP 呈现纯文本

    出于某种原因 我想通过 PHP 脚本提供 robots txt 我已经设置了 apache 以便 robots txt 文件请求 实际上是所有文件请求 到达单个 PHP 脚本 我用来渲染 robots txt 的代码是 echo User
  • robots.txt 的正则表达式

    我正在尝试设置 robots txt 但我不确定正则表达式 我有四个不同的页面 全部以三种不同的语言提供 我想我可以使用正则表达式 而不是列出每个页面乘以 3 nav aspx page aspx changelang 可能附加一个查询字符
  • Python,Mechanize - 即使在 set_handle_robots 和 add_headers 之后,robots.txt 也不允许请求

    我制作了一个网络爬虫 它获取所有链接直到页面的第一层 并从中获取所有链接和文本以及图像链接和 alt 这是完整的代码 import urllib import re import time from threading import Thr
  • robots.txt 中没有索引

    我总是阻止谷歌使用 robots txt 文件为我的网站建立索引 最近我读到了谷歌员工的一篇文章 他说你应该使用元标签来做到这一点 这是否意味着 Robots txt 不起作用 由于我正在使用 CMS 我的选择非常有限 并且仅使用 robo
  • robots.txt - 这有效吗?

    我刚刚遇到了一个 robots txt 如下所示 User agent Disallow foobar User agent badbot Disallow 仅禁止所有文件夹后 具体是否badbot规则是否适用 注意 此问题仅用于理解上述规
  • 如何设置仅允许站点默认页面的robot.txt

    假设我有一个网站http example com http example com 我真的很想让机器人看到主页 但任何其他页面都需要被阻止 因为它对蜘蛛来说毫无意义 换句话说 http example com http example co
  • Robots.txt,如何只允许访问域根目录,而不允许更深层次的访问? [关闭]

    Closed 这个问题是无关 help closed questions 目前不接受答案 我想允许爬虫访问我的域的根目录 即index html 文件 但没有更深入的目录 即没有子目录 我不想在 robots txt 文件中单独列出和拒绝每
  • robots.txt URL 格式

    根据这一页 http www robotstxt org robotstxt html User agent 或 Disallow 行中不支持 globbing 和正则表达式 然而 我注意到堆栈溢出机器人 txt https stackov
  • 禁止网站上的机器人[关闭]

    Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 我的网站经常宕机 因为蜘蛛正在访问许多资源 这是主持人告诉我的 他们告诉我禁止这些 IP 地址 46 229 164 98 46 229
  • Scrapy 和 robots.txt 的尊重

    我昨天发现Scrapy默认尊重robots txt文件 ROBOTSTXT OBEY True 如果我请求一个 URLscrapy shell url 如果我有回应 是否意味着url不受robots txt保护 根据文档 只有当您使用创建项
  • Googlebots 忽略 robots.txt? [关闭]

    Closed 这个问题是无关 help closed questions 目前不接受答案 我有一个网站 根目录中有以下 robots txt User agent Disabled User agent Googlebot Disabled
  • Robots.txt - 多个用户代理的抓取延迟的正确格式是什么?

    下面是一个示例机器人 txt文件允许多个用户代理 with 多次抓取延迟对于每个用户代理 抓取延迟值仅供说明之用 在真实的 robots txt 文件中会有所不同 我在整个网络上搜索了正确的答案 但找不到 有太多混合的建议 我不知道哪个是正
  • BOT/蜘蛛陷阱创意

    我有一个客户 他的域名似乎受到 DDoS 攻击的严重打击 在日志中 看起来很正常的具有随机 IP 的用户代理 但它们翻阅页面的速度太快 不像人类 他们似乎也没有要求任何图像 我似乎找不到任何模式 我怀疑这是一群 Windows 僵尸 客户过
  • 具有大量动态子域的站点的站点地图

    我正在运行一个允许用户创建子域的网站 我想通过站点地图将这些用户子域提交给搜索引擎 但是 根据站点地图协议 和 Google 网站管理员工具 单个站点地图只能包含来自单个主机的 URL 最好的方法是什么 目前我有以下结构 站点地图索引位于
  • 尽管文件可访问,但“Lighthouse 无法下载 robots.txt 文件”

    我有一个NodeJS NextJS应用程序运行于http www schandilla com http www schandillia com 该项目有一个机器人 txt文件可访问于http www schandillia com rob
  • Ruby on Rails robots.txt 文件夹

    我即将启动 Ruby on Rails 应用程序 作为最后一个任务 我想设置机器人 txt文件 我找不到有关如何为 Rails 应用程序正确编写路径的信息 起始路径是否始终是 Ruby on Rails 应用程序或应用程序文件夹的根路径 那
  • 是否可以通过robots.txt控制抓取速度?

    我们可以在 robots txt 中告诉机器人抓取或不抓取我们的网站 另一方面 我们可以控制Google Webmasters中的抓取速度 Google bot抓取网站的速度 我想知道是否可以通过robots txt限制爬虫活动 我的意思是
  • 用户代理字符串是否必须与我的服务器日志中显示的完全相同?

    使用 Robots txt 文件时 用户代理字符串是否必须与服务器日志中显示的完全相同 例如 当尝试匹配 GoogleBot 时 我可以使用googlebot 另外 部分匹配有效吗 例如仅使用Google 至少对于 googlebot 来说
  • 阻止搜索引擎抓取目录

    我的网站有这样的 URL 最长 结构 http www example com xyz pqr abcd efgh 123 html http www example com xyz pqr abcd efgh 123 html 因此最多有

随机推荐