【极验黑科技】文生图大模型在极验人机对抗领域的应用

2023-11-15

自极验于2013年开创性地提出新一代的智能验证码概念开始,就始终在人机对抗领域不停地升级迭代。极验全球首创的“行为式验证”在十多年来,为全球近40万的开发者使用。如小米、新浪微博、东方航空、国家工商局等企业携手极验验证码进行升级,使得现在传统的字符验证码逐步退出了历史舞台,每日极验的API调用量高达数10亿次,每一次API的响应,都是对机器黑产的对抗和用户体验的升级。

随着人机对抗的升级,极验也在不停地利用新技术创造更安全的验证服务和更极致的用户体验。早在16年,极验便将Neural style transfer 技术运用到人机对抗的实践中去,这是典型的将安全与体验兼得的验证方式,并取得令客户赞赏的效果。

Neural style transfer 原理图

将“语意理解”与“Neural style transfer”相结合而得出的新的验证过程

专利号:ZL 201830130077.X

随着大规模文生图模型已经成熟,极验也在技术前沿探索,并将新技术进一步应用到人机对抗领域,今天我们主要分享一下这方面的相关过程和进展,以及一些实验数据。

文生图模型原理

文生图模型是一种多模态深度学习模型,它可以从文本描述生成与描述相匹配的图像。其核心原理是将自然语言文本转换为图像空间,同时将视觉特征与语言信息相互联系起来,以实现自然语言文本与图像之间的映射。

文生图模型通过大量成对的文本描述和相应图像的数据集进行训练。在训练过程中,模型学习从文本中提取相关特征,并将它们映射到图像中相应的视觉特征。这个过程涉及到语义理解和图像合成。

一旦模型训练完成,它就可以用于从它以前没有见过的新文本描述中生成图像。为此,模型首先将文本描述编码为一个特征向量,然后使用生成器网络合成与该特征向量相对应的图像。

文生图模型可用于各种应用,例如为电子商务网站生成真实的产品图像,为残障人士创建视觉辅助工具,为虚拟和增强现实应用程序生成图像以及验证码图片素材的制作。

图片生成过程中存在的一些问题和解决办法

图片的生成过程,主要面临着图片的准确性、可控性、规模性三方面。

2.1 准确性

大部分开源预训练模型是基于英文构建的,翻译的过程中会产生歧义,从而产生图文不匹配的情况。

第一张图为某文生图模型demo展示的效果,原因是“起重机”被翻译成了“Crane”,而这个单词的另一个含义是“仙鹤”。

下面两张图是基于现有的提示词库生成九宫格图片遇到的一种特殊情况,第一张图的prompt为(electric, mouse)。这里的第一个问题是“鼠标”被翻译成了“老鼠”,而另一个问题是坐标为[1, 2]的图片出现了明显的图文不匹配,这个问题在第二张图(提示词为罐头)中同样存在。由此可见,在借助文生图模型生成素材的过程中仍然需要引入一定程度的人工校验,而这个问题在大规模应用中可能会被放大。

下面这张图,我们将模型更换为卡通风格,提示词依然是(electric, mouse)。这次很“幸运”,同时集齐了歧义和敏感两个要素。

2.2 可控性

敏感素材以及公平和偏见的问题,这类问题可以通过safety-checker解决一部分,但无法杜绝,可以考虑通过如下方式进行规避:

1)数据采集在训练模型之前,需要使用多样化的数据集来确保生成的图像不具有偏见或歧视。数据集应包括各种背景、文化和种族的人物和场景,以确保生成的图像不会出现偏见或歧视。

2)模型训练训练文本到图像的模型时,需要确保使用公正和公平的方法来训练模型。例如,可以使用一种叫做"公平性约束"的技术来确保生成的图像不包含歧视性特征。该方法通过约束模型在生成图像时不能出现歧视性特征,如年龄、种族、性别等,从而消除歧视。

3)监督和审核在模型训练和图像生成过程中,需要进行人工审核和监督,以确保生成的图像符合伦理和道德标准。审核人员应该接受适当的培训,以了解文化敏感性和歧视问题,并对可能引起争议的图像进行审查。

4)避免敏感主题:为了避免潜在的歧视问题,可以避免生成与种族、性别、宗教、政治或其他敏感主题相关的图像。

5)公开透明:需要公开透明地展示如何训练模型、使用数据集和进行审核,以便公众和业内人士能够了解这些技术的使用和潜在影响。

2.3 规模性

大批量素材生成涉及到计算资源投入产出比问题,以及后续gpu资源的调度和扩展。这里我们有三个诉求:

1)模型服务化,尤其是涉及到大模型,必然会存在gpu的调用,这部分资源在云上成本比较高。

2)在初期,为了把控一次性投入,希望既能使用到gpu资源又能按量付费,避免昂贵的月租,提高资源利用率。

3)模型服务代码量尽可能小,且便于横向扩展。

为此我们基于Ray和K8s构建了如下的模型服务:

通过上图所示架构,我们可以以最小的代码量来部署一个模型服务,这部分以后有机会可以展开说明。

文生图大模型的人机对抗的实践应用

以上图片均为文生图大模型AI自动化生成,并在线上得到应用的场景

结语

人机验证码领域的图片生成的投入,主要解决的是“模型破解”和“人工打码”,这两种破解方式往往又不是独立进行,在特定情况下会产生人工标记训练后进行模型训练后进行自动对抗。所以,对于线上图片的更新,最后落脚之处还是在于图片的更新速度、图片的抗模型训练能力。

目前,极验每日API调用量高达数10亿次,在图片对抗的积累上,已经形成高标准的服务方案。极验按照线上所有图库资源进行每小时5万张、200个类别的自动更新的速率进行自动化更新,同时针对于瞬时要求比较高的客户,可以单独进行10分钟1万张、50个类别的速率自动化更新。现在,文生图大模型的进度,将会进一步加快更新速率,真正做到“世界上没有两片相同的树叶”,让黑产对抗的成本得到指数级的提升,从而放弃针对极验客户的攻击。

那么,前面介绍了我们在文生图大模型的投入,效果如何呢?我们将在下一期的文章中介绍:

1、文生图大模型的实际对抗数据分享2、文生图大模型的验证防破解优势

我们下期再见~

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【极验黑科技】文生图大模型在极验人机对抗领域的应用 的相关文章

随机推荐

  • 算法:滑动窗口解决连续区间子数组问题

    文章目录 实现原理 实现思路 典型例题 长度最小的子数组 无重复字符的最小字串 最大连续1的个数III 将x减到0的最小操作 水果成篮 找到字符串中所有字母异位词 哈希表比较优化 对哈希表内元素比较的优化 总结 本篇积累的是滑动窗口的问题
  • 今天来尝试一下docker

    1 先在服务器上下载docker 这儿使用官方安装脚本自动安装 阿里 curl fsSL https get docker com bash s docker mirror aliyun 我这儿还查看了一下版本 这个就安装成功了 2 环境配
  • Python3.6+RobotFramework自动化测试框架环境搭建-学习笔记

    Python3 6 RobotFramework自动化测试框架环境搭建 学习笔记 一 Appium服务端 1 JDK安装 1 1 推荐JDK版本 1 2 下载地址 1 3 下载方法 1 4 安装方法 2 安卓SDK 2 1 下载方法 2 3
  • 【学习记录】STM32利用定时器中断实现定时闪烁指示灯

    任务 定时闪烁指示灯 任务目标 掌握 CubeMX 软件配置定时器实现定时功能的方法 任务内容 控制开发板上的指示灯LED每隔1s闪烁 任务实现 使用的STM32芯片是STM32F407ZET6 第一步 设置高速时钟 设置LED 第二步 配
  • java使用反射修改注解参数值内容

    方法一 该方法不太灵活 过程 使用反射获取指定method上方的指定注解 拿到该注解的String类型的参数值 使用反射修改该String对象内字符数组的地址 import java lang annotation import java
  • mysql查询json字段中value值,mysql查询字段不包含某个字符串

    工作中遇到问题 需要查询表中某个字段不包含某个指定字符串的问题 以及查询json数据中某个key对应的value值 问题1 查询 user id 不包含 字符的数据 数据如下 id user id 51 jingi ctfo com 52
  • 逻辑思维三大定律

    逻辑思维三大定律 同一律 矛盾律 排中律 同一律 A 是 A 前后思维中 概念要同一 白马非马论违反同一律 商家的买一赠一 前后两个一不是同一个概念 违反同一律 同一律是逻辑思维的基础 矛盾律 A 是 B A 不是B 这两句话矛盾 对同一事
  • c盘那些文件可以删除

    c盘那些文件可以删除 http www xitongzhijia net xtjc 20150507 47691 html
  • OSPF笔记(一):OSPF基本特点、自治系统、区域、RID冲突

    一 OSPF基本特点 1 1 支持无类域间路由 CIDR 1 2 无环路 1 区域内 100 无环 2 区域间 不一定无环 1 3 收敛速度快 1 4 使用组播收发协议数据 224 0 0 5 224 0 0 6 1 5 支持多条等价路由
  • MySQL数据库 学习笔记 零基础入门 面试 整理

    一 MySQL基础篇 1 数据库技术的基本概念和方法 1 1 数据库基本概念 1 数据 数据 Data 指对客观事物进行描述并可以鉴别的符号 这些符号是可识别的 抽象的 不仅仅指狭义上的数字 而是有多种表现形式 字母 文字 文本 图形 音频
  • 【笔试强训选择题】Day32.习题(错题)解析

    作者简介 大家好 我是未央 博客首页 未央 303 系列专栏 笔试强训选择题 每日一句 人的一生 可以有所作为的时机只有一次 那就是现在 文章目录 前言 一 Day32习题 错题 解析 总结 前言 今天是笔试强训第32天 一 Day32习题
  • React Native API

    Dimensions 面对现代手机五花八门的屏占比 不知道宽度的情况下可以使用 import Dimensions from react native const DimenStyle Dimensions get window 屏幕宽度
  • 深度学习研究思路

    研究思路 一 数字图像 基础研究 图像的文件格式 图片有常见的bmp jpg png 等 三种图像之间的差别 位图和矢量图区别 矢量图又叫向量图 是用一系列计算机指令来描述和记录一幅图 一幅图可以解为一系列由点 线 面等到组成的子图 它所记
  • Vue ECharts y轴设置固定分段 + makerline设置为不同的样式作为区分 - 附完整示例

    echarts 一个基于 JavaScript 的开源可视化图表库 官方文档 Apache ECharts Apache EChartsApache ECharts 一款基于JavaScript的数据可视化图表库 提供直观 生动 可交互 可
  • JS_随机选取指定数组中的颜色值

    思路 定义需要的颜色 生成已定数组长度范围内的随机数 随机数与i对比 let colorList 1882f8 f95757 FFBF11 11BBEC FB7C26 46BE1A let colorMath Math floor Math
  • 使用命令行编译和运行java程序

    前言 现在很多IDE都可以自动编译和运行java程序了 但是我觉得还是有必要学会用命令行编译和运行java程序 这样就能更好理解java程序运行的机制 为了不依赖IDE 我用记事本作为编辑器 1 安装JDK 安装过程我就不仔细讲了 网上很多
  • C++ 中 static 静态对象的使用总结

    背景 全局 静态数据区主要用于存放全局变量和静态变量 在程序启动时 全局 静态数据已经分配了存储空间 全局 静态数据区中的数据在程序结束后由操作系统释放 未初始化的静态变量会被程序自动初始化为 0 静态局部变量在程序执行到该对象的声明处时被
  • 回文串(algorithm)

    题目 回文子串的个数 中心扩展 给你一个字符串 s 请你统计并返回这个字符串中 回文子串 的数目 回文字符串 是正着读和倒过来读一样的字符串 子字符串 是字符串中的由连续字符组成的一个序列 具有不同开始位置或结束位置的子串 即使是由相同的字
  • Nacos简单使用及相关配置注意点

    1 Nacos安装 本文采用 docker 方式进行安装 docker 安装较为简单便捷 自己学习推荐采用此方式进行 docker 基本命令就不再赘述了 此处附上主要命令 此处nacos安装版本采用2 0 3 拉取 2 0 3 版本的 na
  • 【极验黑科技】文生图大模型在极验人机对抗领域的应用

    自极验于2013年开创性地提出新一代的智能验证码概念开始 就始终在人机对抗领域不停地升级迭代 极验全球首创的 行为式验证 在十多年来 为全球近40万的开发者使用 如小米 新浪微博 东方航空 国家工商局等企业携手极验验证码进行升级 使得现在传