如何保护/监控您的网站免遭恶意用户抓取

2024-03-19

情况：

网站内容受用户名/密码保护（并非全部受控，因为他们可以是试用/测试用户）
由于用户名/密码限制，普通搜索引擎无法获取它
恶意用户仍然可以登录并将会话 cookie 传递给“wget -r”或其他东西。

问题是监控此类活动并对其做出响应的最佳解决方案是什么（考虑到网站政策不允许爬行/抓取）

我可以想到一些选择：

设置一些流量监控解决方案来限制给定用户/IP 的请求数量。
与第一点相关：自动阻止某些用户代理
（邪恶:)）设置一个隐藏链接，当访问该链接时，用户会注销并禁用他的帐户。（大概普通用户不会访问它，因为他不会看到它并单击它，但机器人会抓取所有链接。）

对于第一点，您知道已经实施的良好解决方案吗？有什么相关经验吗？一个问题是，对于非常活跃但人类的情况，可能会出现一些误报。用户。

对于第三点：你认为这真的很邪恶吗？或者您认为它可能存在任何问题吗？

也接受其他建议。

我不建议自动锁定，并不是因为它们一定是邪恶的，而是因为它们向恶意用户提供了他们触发传感器的即时反馈，并让他们知道不要对他们签署的下一个帐户做同样的事情跟上。

并且用户代理阻止可能不会有太大帮助，因为显然用户代理很容易伪造。

您能做的最好的事情就是监控，但是您仍然必须询问如果检测到恶意行为您将做什么。只要您拥有不受控制的访问权限，您锁定的任何人都可以使用不同的身份再次注册。我不知道您需要什么样的信息才能获得帐户，但例如，仅姓名和电子邮件地址不会对任何人构成太大障碍。

这是典型的 DRM 问题——如果任何人都可以看到该信息，那么任何人都可以用它做任何他们想做的事情。你可以让它变得困难，但最终如果有人真的下定决心，你就无法阻止他们，并且你可能会干扰合法用户并损害你的业务。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何保护/监控您的网站免遭恶意用户抓取的相关文章

Scrapy中如何控制yield的顺序

帮助阅读下面的scrapy代码和爬虫的结果我想从中抓取一些数据http china fathom info data data json http china fathom info data data json 并且仅Scrapy被允
Symfony 2 功能测试外部 URL

无论我做什么我总能得到一个 Symfony Component HttpKernel Exception NotFoundHttpException 否已找到的路线 in crawler gt text 当我尝试使用以下命令请求外部
Spark流吞吐量监控

有没有办法监控 Spark 集群的输入和输出吞吐量以确保集群不会被传入数据淹没和溢出就我而言我在 AWS EC2 上设置了 Spark 集群所以我正在考虑使用AWS 云观察来监控网络输入 and 网络输出对于集群中的每个节点但我的
制作一个网络爬虫/蜘蛛

我正在考虑制作一个网络爬虫蜘蛛但我需要有人为我指明正确的方向才能开始基本上我的蜘蛛将搜索音频文件并为其建立索引我只是想知道是否有人对我应该如何做有任何想法我听说用 PHP 完成它会非常慢我知道 vb net 那么这能派上用场吗
HTMLAgilityPack 中的 XPath 选择无法按预期工作

我正在用 C 编写简单的屏幕抓取程序为此我需要选择放置在一个名为 aspnetForm 的单个表单内的所有输入页面上有 2 个表单我不希望来自另一个表单的输入并且此表单中的所有输入都放置在不同的表 div 中或者仅放置在该表单的第
Xpath 和通配符

我尝试了几种组合但没有成功该数据的完整 xpath 是 id detail row seek 37878 td问题是每个节点的数字部分 37878 都会发生变化因此我无法使用 foreach 循环遍历节点有没有办法使用通配符并将 xp
PhantomJS 无法打开 HTTPS 站点

我使用以下基于 loadspeed js 示例的代码来打开一个 https 站点该站点也需要 http 服务器身份验证 var page require webpage create system require system t add
使用 HtmlAgilityPack 解析 dl

这是我尝试使用 ASP Net C 中的 Html Agility Pack 解析的示例 HTML div class content div dl dt b a href 1 html title 1 1 a b dt dd First
Watir 更改 Mozilla Firefox 首选项

我正在使用 Watir 运行 Ruby 脚本来自动执行一些操作我正在尝试自动将一些文件保存到某个目录因此在我的 Mozilla 设置中我将默认下载目录设置为桌面并选择自动保存文件然而当我开始运行脚本时这些更改并未反映出来似乎
curl 无法获取网页内容，为什么？

我正在使用curl 脚本转到链接并获取其内容以进行进一步操作以下是链接和curl脚本
Scrapy仅抓取网站的一部分

您好我有以下代码来扫描给定站点中的所有链接 from scrapy item import Field Item from scrapy contrib spiders import CrawlSpider Rule from scrap
检测（在服务器端）Flex 客户端何时与 BlazeDS 目标断开连接

我想知道是否可以轻松检测在服务器端 Flex 客户端何时与 BlazeDS 目标断开连接我的情况很简单我想尝试使用它来计算每个客户端在每个会话中连接的时间我还需要能够区分客户端即不仅仅是计算我在 ds console 中看到的当
检测诚实的网络爬虫

我想在服务器端检测哪些请求来自机器人我现在并不关心恶意机器人只关心那些表现良好的机器人我见过一些方法主要涉及将用户代理字符串与 bot 等关键字进行匹配但这似乎很尴尬不完整且无法维护那么有人有更可靠的方法吗如果没有您是
BeautifulSoup - 抓取论坛页面

我正在尝试抓取论坛讨论并将其导出为 csv 文件其中包含线程标题用户和帖子等行其中后者是每个人的实际论坛帖子我是 Python 和 BeautifulSoup 的初学者所以我对此感到非常困难我当前的问题是 csv 文件中
有没有推荐的与 Lucene 或 Solr 一起使用的爬虫工具？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
有没有办法以编程方式下载网页的部分内容，而不是整个 HTML 正文？

我们只需要 nytimes com technology 上的 HTML 文档中的特定元素该页面包含许多文章但我们只想要文章的标题该标题位于如果我们使用 wget cURL 或任何其他工具或某些包例如Python 中的请求 htt
java 7目录监控问题

我刚刚看到 java 7 的一个很棒的功能目录观察器当目录中的内容发生更改时它会告诉您而无需轮询目录 1 但它表示如果文件系统不支持注册更改事件则会退回到轮询所有典型的 Linux 和 Windows 文件系统 extX nt
如何生成大型网站的图形站点地图[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我想为我的网站生成图形站点地图据我所知有两个阶段抓取网站并分析链接关系提取树形结构生成视觉上
在 Windows 中使用 Nagios/Monit/Munin

我正在构建一个 NET 3 5 Web 应用程序在完成该项目时我正在考虑所有基本问题例如监控异常处理等该应用程序在推出时的尺寸显然会很小因为在站点大力推广之前它不会有高负载代码行数圈复杂度等会很高并且该应用程序将具有商业规模
如何从网页中嵌入的 Tableau 图表中抓取工具提示值

我试图弄清楚是否有一种方法以及如何使用 python 从网页中的 Tableau 嵌入图形中抓取工具提示值以下是当用户将鼠标悬停在条形上时带有工具提示的图表示例我从要从中抓取的原始网页中获取了此网址 https covid19 colo

随机推荐

检测 osx 何时睡眠/从睡眠中恢复

是否可以编写一个 python 程序我认为我将作为守护进程运行来检测 osx 何时进入睡眠状态以及何时从睡眠状态恢复如果听起来我没有研究过这一点我很抱歉我已经超出了我的舒适区不确定我是否需要从 python 委托给用 C 编写的
如何在Python中以相同比例在同一图形上绘制两个3D矩阵图

我有两个矩阵我希望在同一个图上的两个子图上有相应的两个 3D 图并且具有相同的 z 轴到目前为止这是我的代码 import numpy as np import matplotlib pyplot as plt from mpl t
奇怪的海湾合作委员会行为

给出以下 C 代码 struct vertex type float x y z vertex type vertex type float x float y float z x x y y z z typedef struct vert
如何将包安装到 conda 创建的特定 virtualenv 中 [重复]

这个问题在这里已经有答案了我想在 conda 创建 virtualenv 后安装 python 包但我收到以下错误有谁知道如何将软件包安装到 conda 创建的 virtualenv 中 Users jzhang anaconda l
Java中的ConcurrentHashMap？

有什么用ConcurrentHashMap在Java中它有什么好处它是如何工作的示例代码也很有用重点是提供一个实现HashMap那是线程安全的多个线程可以读取和写入它而不会接收到过期或损坏的数据 ConcurrentHashMa
基于声明的安全性时的 http 客户端标头授权

我正在从使用基于声明的安全性的 MVC 应用程序调用 REST api 我将如何设置身份验证标头我没有密码所以我想我不应该使用 Basic 如果使用 Bearer 如何获取令牌 Client DefaultRequestHeaders
向 Magento 的订阅模块添加自定义字段

Magento 中的新闻通讯订阅模块默认只有一个字段电子邮件在我向表单添加额外字段例如国家地区后如何让表单数据显示在 Magento 后端并作为电子邮件发送给预设收件人谢谢如果您想为 Magento 新闻通讯订阅者添加一些自
使用 matplotlib 绘制类似 Python 极地时钟的图

我正在尝试使用 Python 中的 matplotlib 以顺时针方式绘制数据其风格为这个答案 https stackoverflow com questions 25898523 how to plot points on a cloc
当 AutoGenerateColumns 为 nullable bool 时，WPF DataGrid 强制绑定 DataGridCheckBoxColumn

我们有很多DataGrid具有动态数据绑定所以我们总是使用AutoGenerateColumns True For bool列生成一个DataGridCheckBoxColumn但对于可为 null 的 bool bool 在 C 中生
C++ 中的 Utf-8：快速而肮脏的技巧

我知道有关于 utf 8 的各种问题主要是关于操作 utf 8 字符串之类对象的库然而我正在开发一个国际化项目一个网站我在其中编写了 c 后端不要问即使我们处理 utf 8 我们实际上也不需要这样的库大多数时候简单的
如何从 Google Places API 获取菜单和产品列表的数据？

在 Google 地图上企业可以将菜单中的产品详细信息或食品菜肴添加到其商店或餐厅地点我们如何获得这些数据在里面Google Place Api 地点详细信息 https developers google com places
无法创建新的 Spree 应用程序：“未定义方法‘raise_in_transactional_callbacks=’”

几个月前我就遇到过这个问题将其发布到 Spree 的 GitHub 页面上 https github com spree spree issues 5448 然后自己找出解决方案并将其发布在同一问题上两个月后我仍然收到来自具有相同错误消
防止伪元素触发悬停？

如果我有标记 div class a b div 其中 a 类有一个与之关联的悬停类并且 b 类有一个与之关联的伪元素就像这样 div width 100px height 100px a background red display
在 Swift 中使用字符分隔符查找并突出显示文本

我之前开发了一个 Android 应用程序作为用户的参考指南它使用 sqlite 数据库来存储信息数据库存储不带格式的 UTF 8 文本即粗体或下划线为了突出显示文本的哪些部分需要格式化我使用分隔符标记特别是将它们括起来因
Zipline 导入错误。没有名为 zipline.transforms 的模块

我无法导入 zipline transforms 模块 gt gt gt from zipline transforms import batch transform Traceback most recent call last File
Python - 从 Tkinter 回调返回

如何从作为 Tkinter 回调执行的函数中获取返回的对象 import Tkinter as Tk from functools import partial def square x return x x root Tk Tk var
Java中的AtomicLong有什么用？

有人可以解释一下 AtomicLong 的用途吗例如以下陈述有什么区别 private Long transactionId private AtomicLong transactionId 有重要的这两个对象之间的差异虽然最终结果是
用于创建微服务应用程序的 Maven 原型 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案是否有这样的 Maven Archetype 为微服务应用程序创建多模块 Maven 项目结构我想要一
了解 typeid().name() 的输出

我正在检查某些类型的变量并得到一些令人困惑的结果 include
如何保护/监控您的网站免遭恶意用户抓取

情况网站内容受用户名密码保护并非全部受控因为他们可以是试用测试用户由于用户名密码限制普通搜索引擎无法获取它恶意用户仍然可以登录并将会话 cookie 传递给 wget r 或其他东西问题是监控此类活动并对其做出响应的最佳

如何保护/监控您的网站免遭恶意用户抓取

如何保护/监控您的网站免遭恶意用户抓取 的相关文章

随机推荐

热门标签

如何保护/监控您的网站免遭恶意用户抓取的相关文章