robots.txt 只允许root，禁止其他一切？

2024-01-11

我似乎无法让它发挥作用，但它似乎非常基本。

我想要抓取域根

http://www.example.com

但没有其他可爬行的内容，并且所有子目录都是动态的

http://www.example.com/*

I tried

User-agent: *
Allow: /
Disallow: /*/

但谷歌网站管理员测试工具说所有子目录都是允许的。

有人有解决方案吗？谢谢：）

根据 Backus-Naur Form (BNF) 解析定义Google 的 robots.txt 文档 https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt，顺序为Allow and Disallow指令并不重要。所以改变顺序确实对你没有帮助。

相反，使用$运算符来指示路径的结束。$表示“行尾”（即从此时开始不匹配任何内容）

测试这个 robots.txt。我确信它应该适合你（我也在 Google Search Console 中验证过）：

user-agent: *
Allow: /$
Disallow: /

这将允许http://www.example.com and http://www.example.com/被抓取，但其他一切都被阻止。

note:认为Allow指令满足您的特定用例，但如果您有index.html or default.php，这些URL将不会被抓取。

边注：我只非常熟悉 Googlebot 和 bingbot 的行为。如果您有任何其他目标引擎，它们可能有也可能没有关于如何列出指令的特定规则。因此，如果您想“额外”确定，您可以随时交换位置Allow and Disallow指令块，我只是这样设置它们来揭穿一些评论。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

robotstxt

robots.txt 只允许root，禁止其他一切？的相关文章

robots.txt 泄漏敏感信息

robots txt 泄漏敏感信息漏洞描述搜索引擎可以通过robots文件可以获知哪些页面可以爬取哪些页面不可以爬取 Robots协议是网站国际互联网界通行的道德规范其目的是保护网站数据和敏感信息确保用户个人信息和隐私不被侵犯
通过 PHP 呈现纯文本

出于某种原因我想通过 PHP 脚本提供 robots txt 我已经设置了 apache 以便 robots txt 文件请求实际上是所有文件请求到达单个 PHP 脚本我用来渲染 robots txt 的代码是 echo User
robots.txt 的正则表达式

我正在尝试设置 robots txt 但我不确定正则表达式我有四个不同的页面全部以三种不同的语言提供我想我可以使用正则表达式而不是列出每个页面乘以 3 nav aspx page aspx changelang 可能附加一个查询字符
Python，Mechanize - 即使在 set_handle_robots 和 add_headers 之后，robots.txt 也不允许请求

我制作了一个网络爬虫它获取所有链接直到页面的第一层并从中获取所有链接和文本以及图像链接和 alt 这是完整的代码 import urllib import re import time from threading import Thr
robots.txt 中没有索引

我总是阻止谷歌使用 robots txt 文件为我的网站建立索引最近我读到了谷歌员工的一篇文章他说你应该使用元标签来做到这一点这是否意味着 Robots txt 不起作用由于我正在使用 CMS 我的选择非常有限并且仅使用 robo
robots.txt - 这有效吗？

我刚刚遇到了一个 robots txt 如下所示 User agent Disallow foobar User agent badbot Disallow 仅禁止所有文件夹后具体是否badbot规则是否适用注意此问题仅用于理解上述规
如何设置仅允许站点默认页面的robot.txt

假设我有一个网站http example com http example com 我真的很想让机器人看到主页但任何其他页面都需要被阻止因为它对蜘蛛来说毫无意义换句话说 http example com http example co
Robots.txt，如何只允许访问域根目录，而不允许更深层次的访问？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我想允许爬虫访问我的域的根目录即index html 文件但没有更深入的目录即没有子目录我不想在 robots txt 文件中单独列出和拒绝每
robots.txt URL 格式

根据这一页 http www robotstxt org robotstxt html User agent 或 Disallow 行中不支持 globbing 和正则表达式然而我注意到堆栈溢出机器人 txt https stackov
禁止网站上的机器人[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我的网站经常宕机因为蜘蛛正在访问许多资源这是主持人告诉我的他们告诉我禁止这些 IP 地址 46 229 164 98 46 229
Scrapy 和 robots.txt 的尊重

我昨天发现Scrapy默认尊重robots txt文件 ROBOTSTXT OBEY True 如果我请求一个 URLscrapy shell url 如果我有回应是否意味着url不受robots txt保护根据文档只有当您使用创建项
Googlebots 忽略 robots.txt？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我有一个网站根目录中有以下 robots txt User agent Disabled User agent Googlebot Disabled
Robots.txt - 多个用户代理的抓取延迟的正确格式是什么？

下面是一个示例机器人 txt文件允许多个用户代理 with 多次抓取延迟对于每个用户代理抓取延迟值仅供说明之用在真实的 robots txt 文件中会有所不同我在整个网络上搜索了正确的答案但找不到有太多混合的建议我不知道哪个是正
BOT/蜘蛛陷阱创意

我有一个客户他的域名似乎受到 DDoS 攻击的严重打击在日志中看起来很正常的具有随机 IP 的用户代理但它们翻阅页面的速度太快不像人类他们似乎也没有要求任何图像我似乎找不到任何模式我怀疑这是一群 Windows 僵尸客户过
具有大量动态子域的站点的站点地图

我正在运行一个允许用户创建子域的网站我想通过站点地图将这些用户子域提交给搜索引擎但是根据站点地图协议和 Google 网站管理员工具单个站点地图只能包含来自单个主机的 URL 最好的方法是什么目前我有以下结构站点地图索引位于
尽管文件可访问，但“Lighthouse 无法下载 robots.txt 文件”

我有一个NodeJS NextJS应用程序运行于http www schandilla com http www schandillia com 该项目有一个机器人 txt文件可访问于http www schandillia com rob
Ruby on Rails robots.txt 文件夹

我即将启动 Ruby on Rails 应用程序作为最后一个任务我想设置机器人 txt文件我找不到有关如何为 Rails 应用程序正确编写路径的信息起始路径是否始终是 Ruby on Rails 应用程序或应用程序文件夹的根路径那
是否可以通过robots.txt控制抓取速度？

我们可以在 robots txt 中告诉机器人抓取或不抓取我们的网站另一方面我们可以控制Google Webmasters中的抓取速度 Google bot抓取网站的速度我想知道是否可以通过robots txt限制爬虫活动我的意思是
用户代理字符串是否必须与我的服务器日志中显示的完全相同？

使用 Robots txt 文件时用户代理字符串是否必须与服务器日志中显示的完全相同例如当尝试匹配 GoogleBot 时我可以使用googlebot 另外部分匹配有效吗例如仅使用Google 至少对于 googlebot 来说
阻止搜索引擎抓取目录

我的网站有这样的 URL 最长结构 http www example com xyz pqr abcd efgh 123 html http www example com xyz pqr abcd efgh 123 html 因此最多有

随机推荐

如何删除 Inno Setup 卸载过程中创建的 iu-....tmp 文件夹？

在卸载过程中 Inno Setup 卸载程序将创建一个名为iu tmp in AppData Local Temp小路根据文档 https jrsoftware org isfaq php uninsttemp它应该在重新启动笔记本电脑时
使用 CLI 每秒运行一个 PHP 脚本

我有一台运行 Cent OS 并带有并行 PLESK 面板的专用服务器我需要每秒运行一个 PHP 脚本来更新我的数据库这些在时间上是没有替代方法的它需要每秒更新我可以使用 URL 找到我的脚本http www somesite co
如何在stl算法中使用glm的operator==？

是否可以在 stl 算法中使用 glm gtx comparison 中定义的运算符具体来说我有这个代码 std vector
在 Google Cloud Build 中运行 python 单元测试

我希望 Google Cloud Build 在推送更改后运行我的 python 项目中的单元测试我可以配置运行测试的步骤但我不确定如何输入保存测试的目录如果我只是输入然后它运行 0 测试我的项目结构是项目名包裹名字测试样
我们应该在 css 背景 url (“....”) 中使用哪种类型的引号？需要单引号、双引号还是不需要引号？ [复制]

这个问题在这里已经有答案了 this background url http url this background url http url or this background url http url 根据以下规定所有三个示例的 U
Xcode 12.5，为 iOS-armv7 构建但尝试链接为 iOS-arm64 问题构建的文件

我正在尝试在 Xcode 12 5 上构建 IOS 项目连接真实设备或尝试使用模拟器构建时没有问题但是当选择任何 IOS 设备时我收到此错误选择任何 IOS 设备来存档我的项目但我在存档时收到错误消息我已经更改了构建活动拱门仅
如何使用 Python 中的 API 重命名 Google Sheets 电子表格中的（工作）表？

我长期以来一直在尝试寻求解决这个问题我已阅读 gspread 的文档但找不到重命名工作表的方法你们有人知道怎么做吗我将非常感激确实有 worksheet title 给出了工作表的名称但我找不到重命名实际工作表的方法先感谢您
零长度数组的 JVM 优化

由于特定类型的所有零长度数组都是相同的因此 JVM 是否会优化零长度数组的分配以对所有此类分配使用一个共享实例不它可能不会这样做因为每个创建的零长度数组对象都可以用作不同的同步监视器甲骨文说 http docs oracle co
Jquery 手风琴内的 iFrame

我有一个页面其中嵌入了一个 JQuery 手风琴内的 iFrame JS function doc accordion accordion HTML div h3 a href 1 a h3 div div div
更改 PPTX qmd 中的标题字体大小、颜色和样式

如何正确更改绘图标题的格式qmd文件与一个pptx output 我将提供我的 MWE title My Work subtitle 2023 author Me format pptx reference doc template pp
创建并发出 gtk 信号

我正在尝试创建并发出 GTK 信号 g signal new child finished G TYPE OBJECT G SIGNAL RUN FIRST 0 NULL NULL NULL I think this is where I
正文 { 字体大小：100.01%； } vs body { 字体大小：100%； }？

我应该保留什么body font size 100 01 or font size 100 what is font size 100 01 在中提到字体大小真的好吗 html even 如果我正在使用body font size 62 5
Eclipse 是否有一个调试器“步入所选”选项，提示要步入的方法？

我在几个项目中使用过 IntelliJ Idea 我真的很喜欢它在调试器中的功能我可以在其中单步执行代码行但选择我真正想要单步执行的方法而不是遍历所有方法直到我击中了我想要的那个例如调试器停在这一行 String restult
Codeigniter 路由正则表达式 - 在控制器/方法名称中使用破折号

我正在寻找一种单行路由将虚线控制器和方法名称路由到实际的下划线控制器和方法名称例如网址 controller name method name which is long 将路由至 controller name method name
我应该使用哪个作为空字符串，为什么？ [复制]

这个问题在这里已经有答案了可能的重复 String Empty 和有什么区别 https stackoverflow com questions 151472 what is the difference between string
用户配置文件和 HKLM 注册表均不可用。使用临时密钥存储库。当应用程序退出时，受保护的数据将不可用

我有一个 Asp NET Core 应用程序没有特殊的 DataProtection 堆栈设置只是 AddMvc 虽然 IISExpress Kestrel 上一切正常但在 IIS 服务器上我收到此错误 11 23 2016 18 5
由于“_alwaysRunsAtForegroundPriority”，Ionic 应用程序在 iOS 12.2 上崩溃

在 iOS 12 2 上我的应用程序在启动后立即终止并在 xcode 中显示以下消息由于未捕获的异常 NSUnknownKeyException 而终止应用程序原因 setValue forUndefinedKey 此类与键 alw
有没有一种方法可以获取包含 R 中可以使用的所有函数名称的向量？

我想要一个调用返回一个向量其中包含我可以在当前 R 会话中调用的所有函数的名称有人知道如何实现这一目标吗我想根据这个向量检查用户输入的变量我们在用户输入时遇到了一些不可预见的问题例如 c作为变量名 UPDATE 我想从当前加载的所
（如何）我可能会用这个 ConcurrentLinkedQueue 和 sleep() 来“错过信号”吗？

在我的 Java 应用程序中多个线程将数据放入队列中另一个线程只有一个从中获取对象并分派它们有时使用线程似乎没有注意到新项目已添加到队列中因为指示轮询的日志消息不再出现来自生产线程的日志消息表明这些项目确实到达谷歌搜索告诉
robots.txt 只允许root，禁止其他一切？

我似乎无法让它发挥作用但它似乎非常基本我想要抓取域根 http www example com 但没有其他可爬行的内容并且所有子目录都是动态的 http www example com I tried User agent Allow

robots.txt 只允许root，禁止其他一切？

robots.txt 只允许root，禁止其他一切？ 的相关文章

随机推荐

热门标签

robots.txt 只允许root，禁止其他一切？的相关文章