碎片笔记

2023-11-17

前言：与传统的AI攻防（后门攻击、对抗样本、投毒攻击等）不同，如今的大模型攻防涉及以下多个方面的内容：

在这里插入图片描述

一、大模型的可信问题

1.1 虚假内容生成

大模型可能会进行虚假内容的生成和传播，这种现象称为语言模型的幻觉问题，它是指模型产生内容与真实世界不符或者是毫无意义的情况。这种情况主要是由于语言模型缺乏真实世界的知识和语言的含义，导致模型难以理解和表达现实世界的概念和信息。这种情况在现代自然语言处理中普遍存在，尤其是在开放式生成领域的问题中。其危害是诱导和操控用户的观点和行为。

语言模型的幻觉问题可以分为两类：内在幻觉和外在幻觉（intrinsic hallucination and extrinsic hallucination）。内在幻觉指的是输出内容和源输入内容不符，例如输出了错误的年份信息、人名信息等；外在幻觉指的是通过源信息无法判别是否正确的信息，既没有办法支持也没有办法否认。但外部幻觉有时候是有益的，因为它基于外部的正确知识，能够丰富生成结果的信息量。但大多数情况下仍需谨慎对待外部幻觉，因为从事实安全的角度来说增加了信息的不确定性。

产生原因：（1）训练数据的不规整；（2）暴露偏差问题：训练与推理过程的解码差异，即训练时解码器基于事实来进行训练，但推理时解码器只能从自己的推理历史中来进一步生成，因此随着生成序列变长，幻觉更严重。

解决措施：
（1）选取高质量数据集进行训练，清理数据集中的噪声。
（2）通过改进编码器结构，优化特征提取结果，减轻幻觉。
（3）对大模型进行可信输出度量。类似于一般模型的置信度，大模型可在训练过程中添加对输出内容的可行性评估，将置信度同时提供给用户作为参考。
（4）使用可控文本生成方法，控制幻觉程度，以满足不同现实应用的需求。在对话和抽象摘要任务中，幻觉问题不一定全都是负面问题。
（5）减少生成长句的自相矛盾问题等。

值得一提的是，如今在视觉-语言跨模态生成（Vision-Language Generation）领域，对幻觉问题的研究还处于非常早期的阶段，目前主要针对图像描述场景开展相关研究，如下图中生成文本中的物体并未在输入图像中出现。

图1.1图像描述憧场景下的幻觉问题
首先，在视觉叙事、视觉常识推理、视频字幕等许多任务中，关于幻觉现象的产生缺乏经验和理论分析。其次，需要更有效的评估指标。虽然CHAIR可以自动评估图像字幕中对象幻觉的程度，但它需要一个预定义的对象类别列表，不能很好地泛化。此外，对于开放式视觉问答等其他任务中的幻觉问题，目前没有自动度量方法。最后，如何基于现有内容完成文本受控生成是减轻视觉-语言幻觉的一个重要研究方向。

参考文献

Survey of Hallucination in Natural Language Generation (ACM Computing Surveys, 2023)
Object Hallucination in Image Captioning (EMNLP, 2018) UC Berkeley & Boston University
代码：https://github.com/LisaAnne/Hallucination
On Hallucination and Predictive Uncertainty in Conditional Language Generation （EACL, 2021) University of California, Santa Barbara
Let there be a clock on the beach:Reducing Object Hallucination in Image Captioning (WACV, 2022) Computer Vision Center, UAB, Spain
代码：https://github.com/furkanbiten/object-bias/tree/main
Plausible May Not Be Faithful: Probing Object Hallucination in Vision-Language Pre-training (EACL, 2023) The Hong Kong University of Science and Technology
代码：https://github.com/wenliangdai/VLP-Object-Hallucination
Deconfounded Image Captioning: A Causal Retrospect (TPAMI, 2021)

1.2 隐私泄露

攻击：大模型导致的隐私泄露分为两种：

（1）显式隐私泄露：大模型将用户的指令作为训练数据，不经意间会将训练数据转换为生成内容，而这些训练数据可能包含用户敏感信息。大模型会将对话框的内容存储，包括而不限于用户个人信息如姓名，电子邮箱账户等。

（2）隐式隐私泄露：通过对对话框内容的收集，大模型能够推断出潜在的敏感信息如用户的偏好、兴趣、行为等，基于此进行精准的广告推荐。

防御：对输入输出数据进行隐私保护

二、大模型的安全问题

ChatGPT等生成式大模型本质上是基于深度学习的一个大型模型，也面临着人工智能安全方面的诸多威胁，包括模型窃取，以及各种传统攻击（对抗样本攻击，后门攻击，prompt攻击，数据投毒等）来引起输出的错误。

2.1 模型窃取攻击

攻击：模型窃取指的是攻击者依靠有限次数的模型询问，从而得到一个和目标模型的功能和效果一致的本地模型。攻击者尝试通过分析模型的输入输出和内部结构来还原模型的设计和参数。这可能导致模型的知识产权泄露，带来安全风险。

防御：为防止模型窃取，可采取如下技术保护模型参数：
（1）模型加密：对模型的参数进行加密。
（2）模型水印：对大模型进行溯源和验证，以确保其来源和合法性。
（3）模型集成：通过将多个模型集成在一起，可以提高模型的鲁棒性和安全性。集成学习技术可以通过组合多个模型的预测结果来提高模型的性能和安全性。
（4）模型蒸馏：降低模型规模，小模型对于噪音和扰动的容忍能力更强。
（5）访问控制：确保大模型在部署和使用过程中的安全性，包括访问控制、身份认证、权限管理和数据保护等方面。这有助于防止未经授权的访问和滥用。

2.2 数据窃取攻击

攻击：大模型通常需要处理大量的敏感数据，攻击者可能试图通过访问模型或截获模型的输入输出来获取训练过程中使用过的数据的分布，从而获取敏感信息[1]。
防御：（1）设立相应机制判断用户是否在进行以窃取为目的的查询。（2）对用户敏感信息进行加密上传。

2.3 Prompt提示词攻击

Prompt的构建使得预训练大模型能够输出更加符合人类语言和理解的结果，但是不同的prompt的模板依旧有可能会导致一些安全问题和隐私问题的出现。提示词作为人和大语言模型交互的媒介，被不断提起。提示词攻击是一种新型的攻击方式，包括提示词注入、提示词泄露和提示词越狱。这些攻击方式可能会导致模型生成不适当的内容，泄露敏感信息等。

提示词注入：将恶意或非预期内容添加到提示中，以劫持语言模型的输出。提示泄露和越狱实际上是这种攻击的子集；
提示词泄露：从LLM的响应中提取敏感或保密信息；
提示词越狱：绕过安全和审查功能。

「Prompt提示词攻击」相关介绍详见博客：大模型攻防｜Prompt 提示词攻击__Meilinger_的博客-CSDN博客

2.4 对抗样本攻击

攻击者通过对输入样本进行微小的修改，使其能够欺骗模型，导致错误的预测结果。这可能会对模型的可靠性和安全性产生负面影响。

2.5 后门攻击

攻击者在模型中插入后门，使其在特定条件下产生错误的输出结果或泄露敏感信息。这可能导致模型被滥用或被攻击者控制。

2.6 数据投毒

……

三、基于大模型的隐蔽通信

由于训练数据的规模庞大，大语言模型在隐蔽通信中具有天然优势——其能够更加合理地模拟真实数据分布，一定程度上提升生成载密文本的统计不可感知性。攻击者通过使用大模型生成流畅的载密文本，在公共信道中进行传输。目前，跨模态隐写逐渐引起研究人员关注，结合大模型完成跨模态隐写值得尝试。

文本隐写的发展脉络如下：
在这里插入图片描述

经调研，目前并没有针对大模型文本隐写的相关研究工作，此外，针对生成式大模型隐写的隐写分析算法也有待提出。

参考资料

四、大模型的产权问题

问题：大模型生成作品的版权归属如今尚不明朗。

措施：
（1）在大模型的训练过程中，除原始输入本身，还需要将数据来源以及产权信息作为训练数据。这将使得在使用大模型进行创作任务时，能够准确查询是否涉及到某些产权，而需要引用和付费等。这一功能的实现将能够极大提升数据价值，避免产权纠纷，也能够让ChatGPT更好地辅助科研和创作。
（2）使用区块链技术对数据源版权进行记录保护，区块链技术的使用也方便于之后产权纠纷处理中的溯源分析。
（3）使用电子水印技术保护数据源的版权和实用模型的版权。

五、大模型的伦理问题

5.1 意识形态

5.2 偏见歧视

5.3 政治斗争

5.4 就业公平

5.5 信息茧房

针对大模型存在的伦理问题，需要建立各类信息的检测机制，设立实时监管系统，对大模型的违规行为进行记录。

后记：以上是大模型攻防的一些常见内容，个人感觉大模型攻防与传统AI攻防的主要区别在于程度的差异——大模型由于其广泛被用于各个场景，对人类社会的影响自然要大于普通模型，也正因此，大模型的攻防研究颇为关键，亟待开展。