以AI对抗AI,大模型安全的“进化论”

2023-11-15

点击关注

文丨刘雨琦,编|王一粟

“互联网时代,我们是更危险,还是更安全?”

2016年,互联网正值高速发展之际,电梯广告经常出现这几个大字,两行标语,从病毒木马到网络诈骗,对于安全的思考、安全防范技术的建立一直在与科技发展赛跑。同样,大模型时代发展的早期,也引发了许多安全考量。

英特网被发明的十年后,互联网防护技术和产业链才开始补齐,而参考了过去几十年的经验,在大模型诞生后不到半年的时间里,围绕着模型安全、数据安全、内容安全的讨论,就已经不绝于耳。

最近一周,在上海外滩大会、浦江创新论坛、国家网安周等场合,产学研界针对于大模型应用落地所带来的数据安全问题(包括数据投毒、信息泄露、版权风险等)、模型安全问题(模型本身的安全漏洞、恶意利用等)、内容安全问题(生成内容包含违规、违法、色情等敏感信息等)、AI 伦理问题等进行了一系列的讨论。

如何为大模型保驾护航?

国内一些安全厂商,如360、蚂蚁、深信服、奇安信、山石科技等都在积极研发大模型安全技术。

01 大模型需要“医生”和“保镖”

大模型作为新物种的诞生,在训练过程中要有安全监控,在大模型最后推向市场的时候,也需要一次“质检”,质检后流入市场,需要可控的使用方式,这都是解决安全问题的宏观思路。

无论是通用大模型还是面向垂直领域的行业大模型,目前来看,模型安全的保护主要分为三个部分:

一是训练阶段的数据问题:如果数据采集不当、存在偏见或标签错误、数据被投毒,都有可能导致大模型产生错误输出、存在歧视或其他负面影响,同时数据在应用的过程中,也要面临数据泄露、隐私曝光等风险;

二是模型本身的可控问题:模型的可靠性、稳定性、鲁棒性等都需要进行检验,例如此前有用户构造针对性语句对模型进行诱导,大模型可能生产带有欺诈、歧视、政治倾向等风险内容;

三是大模型在实际场景中应用的安全问题:在实际的使用过程中,不同用户群体的交互和应用都需要谨慎评估,尤其是金融、医疗等领域对模型输出的正确性要求极高,如果应用不当,一石就容易激起千层浪。

多位业内人士向光锥智能表示:“模型安全需要一体化的技术防护体系,单独某一环节的把控解决不了根本问题。”

参考互联网安全的发展路径,诞生了诸多“病毒查杀”软件公司,一般检测、定位问题往往是第一步。

光锥智能了解到,蚂蚁的“蚁天鉴”,包含了大模型安全检测平台“蚁鉴2.0”、大模型风险防御平台“天鉴”,覆盖了从检测到治理到防御的全链条。蚁鉴2.0可对大模型进行多维度的安全扫描,检查存在的数据安全隐患、内容风险点等问题。相当于站在“黑产”角度,通过智能攻击对抗技术,自动生成数百万的诱导性问题,对生成式大模型进行诱导式问答,找出大模型的弱点和漏洞。

从技术的角度来看,蚁鉴采用了最新的“对抗智能”技术路线,使用智能对抗技术不断向大模型“投射问题”,观察模型生成的回答,判断是否存在风险。通过持续“拷问”,就像医生多次询问病人症状,平台可以盘查解析大模型的健康状况。

通过生成对抗样本,开发检测对抗样本的算法系统,来提升大模型安全性,已经成为一种主流技术趋势。在行业中,已有OpenAI、谷歌、微软、英伟达等一众巨头公司将对抗智能技术运用到其产品和服务中。

比如,在这种技术思路下,多伦多大学研发的 CleverHans 系统,就像一个专门设计来考验防盗系统的“小偷”,它会故意添加一些小干扰,来试图欺骗 AI 安防系统。在正常情况下,AI 系统可以准确识别“小猫”的图片,但 CleverHan 系统偏要在“小猫”图片上轻微修改几个像素点,给 AI 营造一种这是一张小狗图片的假象。假如,AI 系统被愚弄过去,那就代表其存在安全漏洞。

相比检测“诊断”,“防治”也非常重要。蚂蚁天鉴就像一个智能盾牌,可以防患于未然。通过智能分析用户提问意图来进行防御,天鉴可以拦截某些试图诱导模型生成敏感内容的恶意问题,确保外部恶意诱导无法传入大模型。同时,对模型输出内容实施二次过滤,自动识别风险信息并进行干预,确保大模型输出的内容符合规范。

更重要的是,数据问题是模型安全的源头,中国信通院云计算与大数据研究所主任石霖曾在一场学术交流会上分享道:“现在有非常多安全厂商采取了安全举措,包括对训练数据做一些清洗,对输入输出内容做过滤,另外还有监测和鉴别等安全防控措施。”

这需要防御平台作用在数据源头,针对数据源头有毒、模型深度黑盒不可控等问题。蚂蚁集团大安全机器智能部内容算法总监祝慧佳介绍,目前,天鉴正在尝试通过数据去毒、对齐训练、可解释性研究等手段保障模型安全。

02 用魔法打败魔法,以AI对抗AI

数字世界里和人眼世界里的内容特征是不一样的。

随着大模型时代的到来,其强大能力也为安全防护技术的变革提供了新的思路。“用 AI 的力量来对抗 AI ”已经成为一个热点方向。

事实上,对抗攻防思路并不是模型安全的专属。早在上个十年,面对种种安全威胁,人工智能领域就逐步形成了“以攻测防——以攻促防——攻防一体化”的安全理念,通过模拟各类攻击场景,不断探索模型和系统的弱点,以此推动算法和工程端的防御能力加强。

只不过,以往安全防护主要依赖机器学习算法模型,这需要大量专业数据知识积累,且面临知识盲区和小样本冷启动不及时的问题。利用大模型技术,可以实现更智能化的安全防控。

这体现在几个方面。一是大模型能够提供智能安全“参谋”。基于海量文本进行预训练的大模型,可以成为优秀的“参谋”,对症提出适当的分析和防御策略。比如,通过简单的自然语言描述,可以快速分析安全局势,提出应对措施建议,辅助安全团队规划解决方案。这类似于一个智能安全“小助手”。

从产业界的现状来看,AI 安全与否如何评测,目前尚缺乏一套易用和标准化的评测工具和规则。

这也是大模型防御中能够补充的另一方面,通过大模型技术学习风险知识和标准规则来提升 AI 对于风险的认知理解能力,以实现用大模型对抗大模型来进行极速防御和快速冷启动的目的。

大模型安全既要“快“也要“慢”,这两个逻辑并不矛盾。在大模型安全防御方面要“快”,要能快速检测、查杀病毒,确保服务无毒害,这其中就包括了“数据去毒”、“安全护栏”、“AIGC风险检测”几个关键防御部分;而在大模型安全可信方面要“慢”,要能长远的、体系的保证整个系统环境的可控、可信,这其中就包括了“安全测评”、“解构可控”、“人类社会共治”等方面。

以文本安全为例,大模型可以基于安全标准规则、风险领域知识和历史风险样本,进行训练,提升模型对于风险标准和内容的理解力,从而实现对风险检测能力的提升。也采用大模型生成能力结合安全知识图谱,来构造攻击样本持续迭代优化检测模型。

一位安全专家表示:“相比人工收集的有限样本,大模型生成的海量多样化样本,将使安全检测模型'见多识广',更快适应新的威胁方式。”

这项技术,也被蚂蚁应用在了AIGC内容检测中。祝慧佳提及道:“AIGC深度伪造检测,也是采用以攻测防,以攻促防的思路,通过不同方式、不同风格、不同生成模型来进行生成,建立近千万的深度伪造数据,训练模型快速分辨内容是机器生成还是人工生成,从而实现泛化性和鲁棒性更好的检测模型。”

针对AIGC在运用过程中引发的问题,国际上也已经有头部公司开始着手布局。

OpenAI此前表示,考虑在ChatGPT中添加数字水印技术,以降低模型被滥用带来的负面影响;谷歌在今年的开发者大会中表示,将确保公司的每一张 AI 生成图片都内嵌水印;今年1月初,英伟达也发布了一款名为FakeCatcher的软件,以查出视频中的人脸是否为深度伪造。

回顾互联网发展史,混乱和高速发展往往是一对“孪生兄弟”,而正是在网络安全产业化趋于成熟后,互联网才真正迎来了百花齐放的应用落地。

同样,模型安全并不只是某一家安全厂商的任务,而是当安全科技形成了可信围栏后,大模型技术才真的能“飞入寻常百姓家”。

“大模型是非常复杂的问题,伦理、数据、训练等领域的复杂度都是前所未有的,是一个新领域,也是摆在所有人面前的一个命题。蚂蚁'蚁天鉴'在大模型安全视角上做了一些探索,但目前还有很多问题待研究解决,比如回答的内容真实性和准确性等难题,它还需要不断迭代,不断完善,需要全社会共同协作努力。”祝慧佳最后说道。

欢迎关注光锥智能,获取更多科技前沿知识!

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

以AI对抗AI,大模型安全的“进化论” 的相关文章

  • 【路径规划】基于A*算法路径规划研究(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
  • 蒙特卡洛在发电系统中的应用(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
  • 什么是充放电振子理论?

    CHAT回复 充放电振子模型 Charging Reversal Oscillator Model 是一种解释ENSO现象的理论模型 这个模型把ENSO现象比喻成一个 热力学振荡系统 在这个模型中 ENSO现象由三个组成部分 充电 Char
  • 面对AI革新时,Soul App等社交应用的“出圈”解法是什么?

    2023年初 ChatGPT掀开海内外互联网 AI革新 的序幕 公众在惊讶于ChatGPT对于海量信息富有逻辑的整合归纳 帮助大家提升工作及学习效率之余 更为期待的莫过于有一天人工智能的 意识觉醒 十余年前由斯派克 琼斯 Spike Jon
  • 扬帆证券:三只松鼠去年扣非净利预增超1.4倍

    在 高端性价比 战略驱动下 三只松鼠 300783 重拾增势 1月15日晚间 三只松鼠发布成绩预告 预计2023年度净赢利为2亿元至2 2亿元 同比增加54 97 至70 47 扣非后净赢利为1亿元至1 1亿元 同比增速达146 9 至17
  • 打造完美人像,PixCake像素蛋糕助您一键修图

    您是否曾经为自己的人像照片需要进行繁琐的修图而感到困扰 是否曾经想要打造出完美的自拍照 却不知道该如何下手 现在 我们为您推荐一款强大的人像处理技术修图软件 PixCake像素蛋糕 PixCake像素蛋糕是一款基于AI人像处理技术的修图软件
  • 明日 15:00 | NeurIPS 2023 Spotlight 论文

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入 哔哩哔哩直播通道 扫码关注AITIME哔哩哔哩官方账号预约直播 1月17日 15 00 16 00 讲者介绍 黄若孜 腾讯AI LAB游戏AI研究员 2020年复旦大学硕士毕业后
  • 2023最新pytorch安装(超详细版)

    前言 一 判断是否有Nvidia 英伟达显卡 二 CPU版 2 1 安装Anaconda 2 2 创建虚拟环境 2 3安装pytorch 2 4 验证pytorch是否安装成功 三 GPU版 3 1 安装Anaconda 3 2 创建虚拟环
  • 回望计算机视觉会议ICCV的31年

    作者 原野寻踪 编辑 汽车人 原文链接 https zhuanlan zhihu com p 670393313 点击下方 卡片 关注 自动驾驶之心 公众号 ADAS巨卷干货 即可获取 点击进入 自动驾驶之心 全栈算法 技术交流群 本文只做
  • CorelDRAW2024官方中文版重磅发布更新

    35年专注于矢量设计始于1988年并不断推陈出新 致力为全球设计工作者提供更高效的设计工具 CorelDRAW 滋养并见证了一代设计师的成长 在最短的时间内交付作品 CorelDRAW的智能高效会让你一见钟情 CorelDRAW 全称 Co
  • 蒙特卡洛在发电系统中的应用(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
  • 3D点云检测神技 | UFO来了!让PointPillars、PV-RCNN统统涨点!

    作者 AI驾驶员 编辑 智驾实验室 点击下方 卡片 关注 自动驾驶之心 公众号 ADAS巨卷干货 即可获取 点击进入 自动驾驶之心 3D目标检测 技术交流群 本文只做学术分享 如有侵权 联系删文 在这篇论文中提出了一个关于在3D点云中检测未
  • 考虑光伏出力利用率的电动汽车充电站能量调度策略研究(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码 数据
  • 【网络安全】——区块链安全和共识机制

    区块链安全和共识机制 摘要 区块链技术作为一种分布式去中心化的技术 在无需第三方的情况下 使得未建立信任的交易双方可以达成交易 因此 区块链技术近年来也在金融 医疗 能源等多个行业得到了快速发展 然而 区块链为无信任的网络提供保障的同时 也
  • 全网最全(黑客)网络安全自学路线!熬夜两周整理(巨详细)

    学网络安全有什么好处 1 可以学习计算机方面的知识 在正式学习网络安全之前是一定要学习计算机基础知识的 只要把网络安全认真的学透了 那么计算机基础知识是没有任何问题的 操作系统 网络架构 网站容器 数据库 前端后端等等 可以说不想成为计算机
  • 考虑光伏出力利用率的电动汽车充电站能量调度策略研究(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码 数据
  • 为什么这么多人自学黑客,但没过多久就放弃了(掌握正确的网络安全学习路线很重要)

    网络安全是一个 不断发展和演变 的领域 以下是一个 网络安全学习路线规划 旨在帮助初学者快速入门和提高自己的技能 基础知识 网络安全的 基础知识 包括 网络结构 操作系统 编程语言 等方面的知识 学习这些基础知识对理解网络安全的原理和技术至
  • 【方法】如何把Excel“只读方式”变成可直接编辑?

    Excel在 只读方式 下 编辑后是无法直接保存原文件的 那如何可以直接编辑原文件呢 下面来一起看看看吧 如果Excel设置的是无密码的 只读方式 那在打开Excel后 会出现对话框 提示 是否以只读方式打开 如果想直接编辑文件 选择 否
  • 【安全-SSH】SSH安全设置

    今天发现自己的公有云服务器被攻击了 在这里插入图片描述 https img blog csdnimg cn direct cafdca04646f4b8b838400ec79ac282f png 然后查看了登录日志 如上图 ls sh va
  • 网络安全行业热门认证证书合集

    网络安全认证证书 就和学历一样是敲门砖 拿到了可以用不到 但不能没有 技术大牛可以没有证书 但普通人不能没有 1 初级入门 就像学历在职场上展示一个人的基本素养一样 网络安全认证证书可以展示一个人在网络安全领域具备的基本知识和技能 它为初学

随机推荐

  • python代码:基于DDPG(深度确定性梯度策略)算法的售电公司竞价策略研究

    python代码 基于DDPG 深度确定性梯度策略 算法的售电公司竞价策略研究 关键词 DDPG 算法 深度强化学习 电力市场 发电商 竞价 说明文档 完美复现英文文档 可找我看文档 主要内容 代码主要研究的是多个售电公司的竞标以及报价策略
  • 大数据平台测试-git常用操作(白盒测试基础)

    一 前言 学习Git是非常有价值和重要的 无论是一个个人开发者还是在团队中进行协作开发 以下是一些学习Git的原因 版本控制 Git是目前最流行的分布式版本控制系统 可以帮助你跟踪 管理和控制代码的版本 你可以轻松地回退到先前的版本 比较不
  • Python数据处理之导入导出excel数据

    Python的一大应用就是数据分析了 而数据分析中 经常碰到需要处理Excel数据的情况 这里做一个Python处理Excel数据的总结 基本受用大部分情况 相信以后用Python处理Excel数据不再是难事儿 xlwt库将数据导入Exce
  • React实现页面之间的跳转

    目录 1 需求说明 2 技术实现 3 代码展示 4 效果展示 5 参考文献 1 需求说明 目前在学习过程中需要结合自己之前复现的论文算法弄一个人工智能安全平台系统 其中需要做一个前端展示我们的模块 我们点击模块就可以跳转到相应的界面 因为之
  • CGAL 安装配置(Windows+VS2017 64位)

    参照官网安装步骤 1 使用vcpkg安装 会自动安装cgal所需的包 假设已安装cmake 用来编译 和 qt cgal的界面包 具体步骤如下 下载安装vcpkg C dev gt git clone https github com mi
  • 大模型靠“深呼吸”数学再涨8分!谷歌DeepMind发现AI自己设计提示词效果胜人类...

    梦晨 发自 凹非寺量子位 公众号 QbitAI 提示词中加上 深呼吸 AI大模型数学成绩就能再涨8 4分 谷歌DeepMind团队最新发现 用这个新 咒语 Take a deep breath 结合大家已经熟悉的 一步一步地想 Let s
  • spark报错:CREATE TEMPORARY TABLE

    异常信息 2022 02 09 03 14 01 INFO Error in query 2022 02 09 03 14 01 INFO CREATE TEMPORARY TABLE is not supported yet Please
  • 联想拯救者R7000p 2021风扇异响解决办法

    联想拯救者R7000p 2021风扇异响解决办法 23年了 电脑用了2年 F1键下面的风扇跟拖拉机一样 在没有开任何软件下 都一直再高速转 在网上搜了下 看到19款 21款的拯救者都有这个问题 解决办法呢 网上看到的有 更新BIOS 去官网
  • 设计模式(Design Patterns)

    原文地址 http blog csdn net zhangerqing article details 8194653 设计模式 Design Patterns 可复用面向对象软件的基础 设计模式 Design pattern 是一套被反复
  • 机器学习算法+代码

    机器学习 一 概述 1 机器学习研究方向 传统预测 图像识别 自然语言处理 2 数据集构成 数据集 特征值 目标值 监督学习 目标值为类别 属于分类问题 目标值为连续数据 属于回归问题 无监督学习 无目标值 3 机器学习流程 获取数据 数据
  • Python,OpenCV骨架化图像并显示(skeletonize)

    Python OpenCV骨架化图像并显示 skeletonize 1 效果图 2 源码 参考 1 效果图 自己画一张图 原图 VS 骨架效果图如下 opencv logo原图 VS 骨架化效果图如下 2 源码 图像骨架化
  • 统一登录门户系统

    随着等保2 0和密评工作的深入推进 各政企单位的应用系统建设会向着更安全 更标准方向发展 为了推进整合信息共享 破除各系统之间的壁垒 首先要建设的就是统一登录门户系统 常见的统一登录要求 还是基于一个统一的入口 由统一登录入口完成登录后 可
  • kafka java 性能测试_针对kafka_2.13版本测试过程中的一些坑

    声明 这是在windows10上进行kafka 2 13demo搭建时的过程记录 提供给同学们参考 1 jdk先要装一下 自己安装的kafka最好检查一下配置文件中的参数 server properties 1 zookeeper conn
  • Java Pattern.matcher()方法具有什么功能呢?

    转自 Java Pattern matcher 方法具有什么功能呢 下文笔者讲述Pattern matcher 方法的功能简介说明 如下所示 Pattern matcher 方法的功能 用于匹配字符串或返回Matcher实例 Pattern
  • VM安装mac问题

    安装VM以及mac虚拟机 http tieba baidu com p 2847457021 遇见问题 您的 mac os 客户机正在使用cd dvd 此操作无法继续 请忽略此消息 并从客户机内弹 首先 需要下载安装darwin6 iso才
  • 自动化测试岗位建议熟读!!!Python+Selenium代码编写方法大全

    整理过的自动化测试selenium工具代码常用方法大全 对于常使用selenium工具的朋友一定经常会使用 建议熟读熟练 当然收藏之后复制粘贴也可以 这些整理过的web自动化测试进阶资料 有需要的可以进入群聊免费领取点击并输入暗号 CSDN
  • ganymed-ssh2实现java ssh协议采集

    我的博客第一篇讲的就是用Maverick组件实现java ssh协议采集 可惜Maverick是个商业软件 不开放源码且只有45天的试用期 实际上在网上也能搜到不少实现java ssh的开源组件 例如orion ssh2 trilead s
  • Vue路由组件独有的两个生命周期钩子

    1 作用 用于捕获路由组件的激活状态 2 具体名字 2 1 activated路由组件被激活是触发 activated this timer setInterval gt console log this opacity 0 01 if t
  • Elastic Search:(一)快速入门

    目录 1 快速入门 1 1 核心概念介绍 1 2 RESTful风格介绍 1 2 1 概念 1 2 2 方法 1 3 索引 1 3 1 新增索引 PUT 1 3 2 获取索引 GET 1 3 3 删除索引 DELETE 1 3 4 判断索引
  • 以AI对抗AI,大模型安全的“进化论”

    点击关注 文丨刘雨琦 编 王一粟 互联网时代 我们是更危险 还是更安全 2016年 互联网正值高速发展之际 电梯广告经常出现这几个大字 两行标语 从病毒木马到网络诈骗 对于安全的思考 安全防范技术的建立一直在与科技发展赛跑 同样 大模型时代