如何保护/监控您的网站免遭恶意用户抓取

2024-03-19

情况:

  • 网站内容受用户名/密码保护(并非全部受控,因为他们可以是试用/测试用户)
  • 由于用户名/密码限制,普通搜索引擎无法获取它
  • 恶意用户仍然可以登录并将会话 cookie 传递给“wget -r”或其他东西。

问题是监控此类活动并对其做出响应的最佳解决方案是什么(考虑到网站政策不允许爬行/抓取)

我可以想到一些选择:

  1. 设置一些流量监控解决方案来限制给定用户/IP 的请求数量。
  2. 与第一点相关:自动阻止某些用户代理
  3. (邪恶:))设置一个隐藏链接,当访问该链接时,用户会注销并禁用他的帐户。 (大概普通用户不会访问它,因为他不会看到它并单击它,但机器人会抓取所有链接。)

对于第一点,您知道已经实施的良好解决方案吗?有什么相关经验吗?一个问题是,对于非常活跃但人类的情况,可能会出现一些误报。 用户。

对于第三点:你认为这真的很邪恶吗?或者您认为它可能存在任何问题吗?

也接受其他建议。


我不建议自动锁定,并不是因为它们一定是邪恶的,而是因为它们向恶意用户提供了他们触发传感器的即时反馈,并让他们知道不要对他们签署的下一个帐户做同样的事情跟上。

并且用户代理阻止可能不会有太大帮助,因为显然用户代理很容易伪造。

您能做的最好的事情就是监控,但是您仍然必须询问如果检测到恶意行为您将做什么。只要您拥有不受控制的访问权限,您锁定的任何人都可以使用不同的身份再次注册。我不知道您需要什么样的信息才能获得帐户,但例如,仅姓名和电子邮件地址不会对任何人构成太大障碍。

这是典型的 DRM 问题——如果任何人都可以看到该信息,那么任何人都可以用它做任何他们想做的事情。你可以让它变得困难,但最终如果有人真的下定决心,你就无法阻止他们,并且你可能会干扰合法用户并损害你的业务。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何保护/监控您的网站免遭恶意用户抓取 的相关文章

  • Scrapy中如何控制yield的顺序

    帮助 阅读下面的scrapy代码和爬虫的结果 我想从中抓取一些数据http china fathom info data data json http china fathom info data data json 并且仅Scrapy被允
  • Symfony 2 功能测试外部 URL

    无论我做什么 我总能得到一个 Symfony Component HttpKernel Exception NotFoundHttpException 否 已找到 的路线 in crawler gt text 当我尝试使用以下命令请求外部
  • Spark流吞吐量监控

    有没有办法监控 Spark 集群的输入和输出吞吐量 以确保集群不会被传入数据淹没和溢出 就我而言 我在 AWS EC2 上设置了 Spark 集群 所以我正在考虑使用AWS 云观察来监控网络输入 and 网络输出对于集群中的每个节点 但我的
  • 制作一个网络爬虫/蜘蛛

    我正在考虑制作一个网络爬虫 蜘蛛 但我需要有人为我指明正确的方向才能开始 基本上 我的蜘蛛将搜索音频文件并为其建立索引 我只是想知道是否有人对我应该如何做有任何想法 我听说用 PHP 完成它会非常慢 我知道 vb net 那么这能派上用场吗
  • HTMLAgilityPack 中的 XPath 选择无法按预期工作

    我正在用 C 编写简单的屏幕抓取程序 为此我需要选择放置在一个名为 aspnetForm 的单个表单内的所有输入 页面上有 2 个表单 我不希望来自另一个表单的输入 并且此表单中的所有输入都放置在不同的表 div 中 或者仅放置在该表单的第
  • Xpath 和通配符

    我尝试了几种组合但没有成功 该数据的完整 xpath 是 id detail row seek 37878 td问题是每个节点的数字部分 37878 都会发生变化 因此我无法使用 foreach 循环遍历节点 有没有办法使用通配符并将 xp
  • PhantomJS 无法打开 HTTPS 站点

    我使用以下基于 loadspeed js 示例的代码来打开一个 https 站点 该站点也需要 http 服务器身份验证 var page require webpage create system require system t add
  • 使用 HtmlAgilityPack 解析 dl

    这是我尝试使用 ASP Net C 中的 Html Agility Pack 解析的示例 HTML div class content div dl dt b a href 1 html title 1 1 a b dt dd First
  • Watir 更改 Mozilla Firefox 首选项

    我正在使用 Watir 运行 Ruby 脚本来自动执行一些操作 我正在尝试自动将一些文件保存到某个目录 因此 在我的 Mozilla 设置中 我将默认下载目录设置为桌面并选择自动保存文件 然而 当我开始运行脚本时 这些更改并未反映出来 似乎
  • curl 无法获取网页内容,为什么?

    我正在使用curl 脚本转到链接并获取其内容以进行进一步操作 以下是链接和curl脚本
  • Scrapy仅抓取网站的一部分

    您好 我有以下代码来扫描给定站点中的所有链接 from scrapy item import Field Item from scrapy contrib spiders import CrawlSpider Rule from scrap
  • 检测(在服务器端)Flex 客户端何时与 BlazeDS 目标断开连接

    我想知道是否可以轻松检测 在服务器端 Flex 客户端何时与 BlazeDS 目标断开连接 我的情况很简单 我想尝试使用它来计算每个客户端在每个会话中连接的时间 我还需要能够区分客户端 即 不仅仅是计算我在 ds console 中看到的当
  • 检测诚实的网络爬虫

    我想 在服务器端 检测哪些请求来自机器人 我现在并不关心恶意机器人 只关心那些表现良好的机器人 我见过一些方法 主要涉及将用户代理字符串与 bot 等关键字进行匹配 但这似乎很尴尬 不完整且无法维护 那么有人有更可靠的方法吗 如果没有 您是
  • BeautifulSoup - 抓取论坛页面

    我正在尝试抓取论坛讨论并将其导出为 csv 文件 其中包含 线程标题 用户 和 帖子 等行 其中后者是每个人的实际论坛帖子 我是 Python 和 BeautifulSoup 的初学者 所以我对此感到非常困难 我当前的问题是 csv 文件中
  • 有没有推荐的与 Lucene 或 Solr 一起使用的爬虫工具? [关闭]

    就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心 help reopen questi
  • 有没有办法以编程方式下载网页的部分内容,而不是整个 HTML 正文?

    我们只需要 nytimes com technology 上的 HTML 文档中的特定元素 该页面包含许多文章 但我们只想要文章的标题 该标题位于 如果我们使用 wget cURL 或任何其他工具或某些包 例如Python 中的请求 htt
  • java 7目录监控问题

    我刚刚看到 java 7 的一个很棒的功能 目录观察器 当目录中的内容发生更改时 它会告诉您 而无需轮询目录 1 但它表示 如果文件系统不支持注册更改事件 则会退回到轮询 所有典型的 Linux 和 Windows 文件系统 extX nt
  • 如何生成大型网站的图形站点地图[关闭]

    Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我想为我的网站生成图形站点地图 据我所知 有两个阶段 抓取网站并分析链接关系 提取树形结构 生成视觉上
  • 在 Windows 中使用 Nagios/Monit/Munin

    我正在构建一个 NET 3 5 Web 应用程序 在完成该项目时我正在考虑所有基本问题 例如监控 异常处理等 该应用程序在推出时的尺寸显然会很小 因为在站点大力推广之前它不会有高负载 代码行数 圈复杂度等会很高 并且该应用程序将具有商业规模
  • 如何从网页中嵌入的 Tableau 图表中抓取工具提示值

    我试图弄清楚是否有一种方法以及如何使用 python 从网页中的 Tableau 嵌入图形中抓取工具提示值 以下是当用户将鼠标悬停在条形上时带有工具提示的图表示例 我从要从中抓取的原始网页中获取了此网址 https covid19 colo

随机推荐