Aligning Large Language Models with Human: A Survey

2023-11-19

本文也是LLM相关的综述文章，针对《Aligning Large Language Models with Human: A Survey》的翻译。

对齐人类与大语言模型：综述

摘要
1 引言
2 对齐数据收集
3 对齐训练
4 对齐评估
5 挑战与未来方向
6 结论

摘要

在大量文本语料库上训练的大型语言模型（LLM）已成为一系列自然语言处理（NLP）任务的领先解决方案。尽管这些模型具有显著的性能，但它们容易受到某些限制，如误解人类指令、生成潜在的偏见内容或事实上不正确（产生幻觉）的信息。因此，将LLM与人类期望相结合已成为研究界关注的一个活跃领域。本调查全面概述了这些对齐技术，包括以下方面。（1）数据收集：有效收集LLM对齐的高质量指令的方法，包括使用NLP基准、人工注释和利用强大的LLM。（2）训练方法：详细审查LLM调整所采用的主流训练方法。我们的探索包括监督微调，在线和离线人类偏好训练，以及参数有效的训练机制。（3）模型评估：评估这些与人类一致的LLM有效性的方法，为其评估提供了多方面的方法。最后，我们整理和提炼了我们的发现，为该领域未来的几个有前景的研究途径提供了线索。因此，对于任何致力于理解和推进LLM调整以更好地适应以人为本的任务和期望的人来说，这项调查都是一项宝贵的资源。收集最新论文的相关GitHub链接可在https://github.com/GaryYufei/AlignLLMHhumanSurvey。

1 引言

在这里插入图片描述

2 对齐数据收集

2.1 来自人类的指令

2.1.1 NLP基准

2.1.2 人工构造指令

2.2 来自强大LLM的指令

2.2.1 自指令

2.2.2 多轮指令

2.2.3 多语言指令

2.3 指令数据管理

3 对齐训练

3.1 在线人类偏好训练

3.2 离线人类偏好训练

3.2.1 基于排序的方法

3.2.2 基于语言的方法

3.3 参数有效训练

4 对齐评估

4.1 评估基准

4.1.1 封闭式基准

4.1.2 开放式基准

4.2 评价范式

4.2.1 基于人类的评估

4.2.2 基于LLM的评估

5 挑战与未来方向

LLM对齐的发展仍处于初级阶段，因此还有很大的改进空间。在本节中，我们在表1中总结了将LLM与人类相结合的现有重要研究工作。下面，我们将讨论其中的一些挑战以及相应的未来研究方向。
在这里插入图片描述

6 结论

本次综述对LLM对齐技术的最新进展进行了最新综述。我们将这些研究工作总结为对齐指令收集、对齐训练和对齐评估。最后，我们指出了LLM对齐的几个有前景的未来方向。我们希望这项调查能够提供有见地的视角，并激励进一步研究如何改善LLM的一致性。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

综述文章

LLM

语言模型

人工智能

自然语言处理

Aligning Large Language Models with Human: A Survey 的相关文章

毕业设计-基于深度学习的细菌微生物目标检测系统系统 YOLO python 目标检测人工智能卷积神经网络机器学习

目录前言设计思路一课题背景与意义二算法理论原理 2 1 CBAM模块 2 2 损失函数三检测的实现 3 1 数据集 3 2 实验环境搭建 3 3 实验及结果分析实现效果图样例最后前言大四是整个大学期间最忙碌的时光一
【信道估计】【MIMO】【FBMC】未来移动通信的滤波器组多载波调制方案（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
用通俗易懂的方式讲解：如何用大语言模型构建一个知识问答系统

传统搜索系统基于关键字匹配在面向游戏攻略技术图谱知识库等业务场景时缺少对用户问题理解和答案二次处理能力本文探索使用大语言模型 Large Language Model LLM 通过其对自然语言理解和生成的能力揣摩用户意图并对
【信道估计】【MIMO】【FBMC】未来移动通信的滤波器组多载波调制方案（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
【多源数据融合】基于Dempster-Shafer理论的信念对数相似度测量及其在多源数据融合中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
什么是充放电振子理论？

CHAT回复充放电振子模型 Charging Reversal Oscillator Model 是一种解释ENSO现象的理论模型这个模型把ENSO现象比喻成一个热力学振荡系统在这个模型中 ENSO现象由三个组成部分充电 Char
用CHAT分析高校体育智慧教学体系构建与探索研究现状

CHAT回复现阶段高校体育智慧教学体系的构建与探索研究还处于初级阶段但全球数字化转型大潮的推动下一些较为前沿的研究和实践已经开始出现 1 教学平台的建设很多高校已经开始尝试使用在线教育平台进行体育教学把传统的面对面授课模式转变为
打造完美人像，PixCake像素蛋糕助您一键修图

您是否曾经为自己的人像照片需要进行繁琐的修图而感到困扰是否曾经想要打造出完美的自拍照却不知道该如何下手现在我们为您推荐一款强大的人像处理技术修图软件 PixCake像素蛋糕 PixCake像素蛋糕是一款基于AI人像处理技术的修图软件
明日 15:00 | NeurIPS 2023 Spotlight 论文

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入哔哩哔哩直播通道扫码关注AITIME哔哩哔哩官方账号预约直播 1月17日 15 00 16 00 讲者介绍黄若孜腾讯AI LAB游戏AI研究员 2020年复旦大学硕士毕业后
基于opencv的大米计数统计（详细处理流程＋代码）

在我每周的标准作业清单中有一项是编写计算机视觉算法来计算该图像中米粒的数量因此当我的一个好朋友M给我发了一张纸上的扁豆照片显然是受到上述转发的启发请我帮他数一下谷物的数量时它勾起了我怀旧的回忆因此我在我的旧硬盘上寻找很久以前
【毕业设计选题】复杂背景下的无人机(UVA)夜间目标检测系统 python 人工智能深度学习

前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有不少课题是研究生级别难度的对本科同学来说是充满挑战为帮助大家顺利通过和节省时间
性能大减80%，英伟达芯片在华“遇冷”，我方霸气回应：不强求

中国这么大一块市场谁看了不眼馋在科技实力大于一切的今天高端芯片的重要性不言而喻作为半导体产业发展过程中不可或缺的一环芯片技术也一直是我国技术发展的一大心病在美西方等国的联手压制下我国芯片技术发展处处受阻至今也未能在高端芯片
强烈推荐收藏！LlamaIndex 官方发布高清大图，纵览高级 RAG技术

近日 Llamaindex 官方博客重磅发布了一篇博文 A Cheat Sheet and Some Recipes For Building Advanced RAG 通过一张图给开发者总结了当下主流的高级RAG技术帮助应对复杂的生产场
如何快速申请GPT账号？

详情点击链接如何快速申请GPT账号一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Gemini以及大模型
机器学习算法实战案例：Informer实现多变量负荷预测

文章目录机器学习算法实战案例系列答疑技术交流 1 实验数据集 2 如何运行自己的数据集 3 报错分析机器学习算法实战案例系
【固定翼飞机】基于最优控制的固定翼飞机着陆控制器设计研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 有无策略奖励 2 2 训练结果1
国产化率100%，北斗导航单日定位4500亿次，外媒：GPS将被淘汰

追赶30年的技术差距国产卫星导航系统北斗开始扬眉吐气数据显示北斗导航目前单日定位量达4500亿次已经获得100多个国家的合作意向甚至国际民航也摒弃以往独宠 GPS的惯例将北斗纳入参考标准对此有媒体直言 GPS多年来的技
对中国手机作恶的谷歌，印度CEO先后向三星和苹果低头求饶

日前苹果与谷歌宣布合作发布了 Find My Device Network 的草案旨在规范蓝牙追踪器的使用在以往苹果和谷歌的生态形成鲜明的壁垒各走各路如今双方竟然达成合作发生了什么事首先是谷歌安卓系统的市场份额显著下滑数年来

随机推荐

线上系统性能太差，我手写了字符串切割函数，性能提升10倍以上

V xin ruyuanhadeng获得600 页原创精品文章汇总PDF 目录工作中常用的 split 切割字符串效率高吗 JDK 提供字符串切割工具类 StringTokenizer 手把手带你实现一个更高效的字符串切割工具类总结今
好的习惯

从网上看到的一篇外文文章的翻译感觉挺不错分享一下第三章习惯一积极主动个人愿景的原则人性本质是主动而非被动的不仅能消极选择反应更能主动创造有利环境采取主动并不表示要强求惹人厌或具侵略性只是不逃避为自己开创前途的责任最
Windows环境下Apache与Tomcat共存

准备工作 1 Apache 2 2 4 下载地址 http cztele1 skycn com down apache 2 2 4 win32 x86 no ssl zip 2 Tomcat 6 0 16 下载地址 http apache
计算机网络安全技术学习总结

计算机网络安全C 1 绪论网络安全的定义模型攻击手段攻击方式安全服务安全机制特定安全机制普遍的安全机制认识Internet上的严峻的安全形势并深入分析其根源造成Internet安全问题的主要原因 1系统脆弱性 2自然灾害
尚硅谷CSS选择器练习之餐厅练习

此笔记来自于跟尚硅谷老师学习此篇是对CSS选择器的总结以及视频中的P37的餐厅练习自己做的答案自己所写用于自我复习 P37尚硅谷餐厅练习 https flukeout github io 目录 css选择器 1 Select the
解决 kali换源之后签名无效

报错问题 apt get update 报错更新扩展知识 kali更新源终端输入 vi etc apt sources list 中科大 deb http mirrors ustc edu cn kali kali rolling ma
C语言函数大全-- s 开头的函数（4）

s 开头的函数 4 1 strdup 1 1 函数说明 1 2 演示示例 1 3 运行结果 2 stricmp 2 1 函数说明 2 2 演示示例 2 3 运行结果 3 strerror 3 1 函数说明 3 2 演示示例 3 3 运行结果
时间序列之协整检验(3)

协整检验 1 协整检验 cointegration test 2 常用的协整检验 3 研究变量之间的协整关系对研究经济问题的定量分析有着重要的意义 5 用Eviews代码进行协整检验 4 用Python代码进行协整检验 1 协整检验 co
使用扩展卡尔曼滤波（EKF）融合激光雷达和雷达数据（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现 1 概述大多数自动驾驶汽车都配备了激光雷达和雷达
Linus谈优秀程序员的三种品质

转自 http blog dyngr com blog 2013 09 26 junio c hamano interview 引言今天我们的嘉宾是分布式版本管理系统Git的主要维护者同时也是入门Git 一书的作者滨野纯先生而这
某网页挂马分析

前记这是很早之前分析的网页挂马案例我当时分析的也很细致最近在整理文档时发现了它这篇文章正好能展示出病毒从网页挂马到本机运行的完整流程感觉还是有分享的价值的 20XX年X月XX日 XXX发现 XXX网 http www XXXXX
MySQL is running but PID file could not be found问题处理

Linux中启动mysql时出现MySQL is running but PID file could not be found错误处理方法查询到mysql中data目录下的mysql bin index文件 find name mys
Spring boot运行原理-自定义自动配置类

在前面SpringBoot的文章中介绍了SpringBoot的基本配置今天我们将给大家讲一讲SpringBoot的运行原理然后根据原理我们自定义一个starter pom 本章对于后续继续学习SpringBoot至关重要了解Sprin
文件共享服务器onedrive,如何共享OneDrive文件和文件夹

仅有一点额外的存储空间就意味着要购买更大的硬盘或在库存中添加外部硬盘的日子已经一去不复返了如今云存储已成为必经之路它似乎不安全但它以更快的速度更安全的方式发展并且总体而言逐年提高而且价格相对较低出色的云存储服务的一个很好的
《数据结构与算法》期末考试

数据结构与算法期末考试判断题单选题填空题函数题主观题判断题已知一棵二叉树的先序遍历结果是ABC 则CAB不可能是中序遍历结果 T 所谓循环队列是指用单向循环链表或者循环数组表示的队列 F 只有当局部最优跟全局最优解一致的
odoo 学习 - 权限编辑

权限编辑编辑security ir model access csv id name model id id group id id perm read perm write perm create perm unlink access
常用电子元器件简介

一电阻器电阻器一般情况下也称电阻是一种阻碍电流在电路中流动的线性元件也是组成电子电路的主要元件之一 1 电阻器的作用及电路图形符号 1 电阻器的作用电阻器主要用于控制电路中的电压和电流除了具有降压分压限流和分流作用外还具
VS2019实用调试技巧

VS2019实用调试技巧 1 debug和release的区别 2 调试 1 调试最常使用的几个快捷键 2 用监视窗口查看临时变量的值 3 查看内存信息 4 查看调用堆栈 5 查看汇编信息 6 查看寄存器信息 3 如何写出易于调试好的代码
maven学习总结系列

maven学习总结系列最近工作中需要一些maven的知识也是想正规的学习下maven的知识点所以才有了这次的总结希望自己的总结能够帮助到大家另外我只会根据我工作中需要到的知识点进行总结不需要的或者我觉得没啥用的我就不写了
Aligning Large Language Models with Human: A Survey

本文也是LLM相关的综述文章针对 Aligning Large Language Models with Human A Survey 的翻译对齐人类与大语言模型综述摘要 1 引言 2 对齐数据收集 2 1 来自人类的指令 2 1

热门标签