Aligning Large Language Models with Human: A Survey

2023-11-19

本文也是LLM相关的综述文章,针对《Aligning Large Language Models with Human: A Survey》的翻译。

摘要

在大量文本语料库上训练的大型语言模型(LLM)已成为一系列自然语言处理(NLP)任务的领先解决方案。尽管这些模型具有显著的性能,但它们容易受到某些限制,如误解人类指令、生成潜在的偏见内容或事实上不正确(产生幻觉)的信息。因此,将LLM与人类期望相结合已成为研究界关注的一个活跃领域。本调查全面概述了这些对齐技术,包括以下方面。(1) 数据收集:有效收集LLM对齐的高质量指令的方法,包括使用NLP基准、人工注释和利用强大的LLM。(2) 训练方法:详细审查LLM调整所采用的主流训练方法。我们的探索包括监督微调,在线和离线人类偏好训练,以及参数有效的训练机制。(3) 模型评估:评估这些与人类一致的LLM有效性的方法,为其评估提供了多方面的方法。最后,我们整理和提炼了我们的发现,为该领域未来的几个有前景的研究途径提供了线索。因此,对于任何致力于理解和推进LLM调整以更好地适应以人为本的任务和期望的人来说,这项调查都是一项宝贵的资源。收集最新论文的相关GitHub链接可在https://github.com/GaryYufei/AlignLLMHhumanSurvey

1 引言

在这里插入图片描述

2 对齐数据收集

2.1 来自人类的指令

2.1.1 NLP基准

2.1.2 人工构造指令

2.2 来自强大LLM的指令

2.2.1 自指令

2.2.2 多轮指令

2.2.3 多语言指令

2.3 指令数据管理

3 对齐训练

3.1 在线人类偏好训练

3.2 离线人类偏好训练

3.2.1 基于排序的方法

3.2.2 基于语言的方法

3.3 参数有效训练

4 对齐评估

4.1 评估基准

4.1.1 封闭式基准

4.1.2 开放式基准

4.2 评价范式

4.2.1 基于人类的评估

4.2.2 基于LLM的评估

5 挑战与未来方向

LLM对齐的发展仍处于初级阶段,因此还有很大的改进空间。在本节中,我们在表1中总结了将LLM与人类相结合的现有重要研究工作。下面,我们将讨论其中的一些挑战以及相应的未来研究方向。
在这里插入图片描述

6 结论

本次综述对LLM对齐技术的最新进展进行了最新综述。我们将这些研究工作总结为对齐指令收集、对齐训练和对齐评估。最后,我们指出了LLM对齐的几个有前景的未来方向。我们希望这项调查能够提供有见地的视角,并激励进一步研究如何改善LLM的一致性。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Aligning Large Language Models with Human: A Survey 的相关文章

随机推荐

  • 线上系统性能太差,我手写了字符串切割函数,性能提升10倍以上

    V xin ruyuanhadeng获得600 页原创精品文章汇总PDF 目录 工作中常用的 split 切割字符串效率高吗 JDK 提供字符串切割工具类 StringTokenizer 手把手带你实现一个更高效的字符串切割工具类 总结 今
  • 好的习惯

    从网上看到的一篇外文文章的翻译 感觉挺不错 分享一下 第三章 习惯一 积极主动 个人愿景的原则 人性本质是主动而非被动的 不仅能消极选择反应 更能主动创造有利环境 采取主动并不表示要强求 惹人厌或具侵略性 只是不逃避为自己开创前途的责任 最
  • Windows环境下Apache与Tomcat共存

    准备工作 1 Apache 2 2 4 下载地址 http cztele1 skycn com down apache 2 2 4 win32 x86 no ssl zip 2 Tomcat 6 0 16 下载地址 http apache
  • 计算机网络安全技术学习总结

    计算机网络安全C 1 绪论 网络安全的定义 模型 攻击手段 攻击方式 安全服务 安全机制 特定安全机制 普遍的安全机制 认识Internet上的严峻的安全形势并深入分析其根源 造成Internet安全问题的主要原因 1系统脆弱性 2自然灾害
  • 尚硅谷CSS选择器练习之餐厅练习

    此笔记来自于跟尚硅谷老师学习 此篇是对CSS选择器的总结以及视频中的P37的餐厅练习自己做的答案 自己所写 用于自我复习 P37尚硅谷 餐厅练习 https flukeout github io 目录 css选择器 1 Select the
  • 解决 kali换源之后签名无效

    报错问题 apt get update 报错 更新扩展知识 kali更新源 终端输入 vi etc apt sources list 中科大 deb http mirrors ustc edu cn kali kali rolling ma
  • C语言函数大全-- s 开头的函数(4)

    s 开头的函数 4 1 strdup 1 1 函数说明 1 2 演示示例 1 3 运行结果 2 stricmp 2 1 函数说明 2 2 演示示例 2 3 运行结果 3 strerror 3 1 函数说明 3 2 演示示例 3 3 运行结果
  • 时间序列之协整检验(3)

    协整检验 1 协整检验 cointegration test 2 常用的协整检验 3 研究变量之间的协整关系 对研究经济问题的定量分析有着重要的意义 5 用Eviews代码进行协整检验 4 用Python代码进行协整检验 1 协整检验 co
  • 使用扩展卡尔曼滤波(EKF)融合激光雷达和雷达数据(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现 1 概述 大多数自动驾驶汽车都配备了激光雷达和雷达
  • Linus谈优秀程序员的三种品质

    转自 http blog dyngr com blog 2013 09 26 junio c hamano interview 引言 今天我们的嘉宾 是分布式版本管理系统Git的主要维护者 同时也是 入门Git 一书的作者 滨野纯先生 而这
  • 某网页挂马分析

    前记 这是很早之前分析的网页挂马案例 我当时分析的也很细致 最近在整理文档时发现了它 这篇文章正好能展示出病毒从网页挂马到本机运行的完整流程 感觉还是有分享的价值的 20XX年X月XX日 XXX发现 XXX网 http www XXXXX
  • MySQL is running but PID file could not be found问题处理

    Linux中启动mysql时出现MySQL is running but PID file could not be found错误 处理方法 查询到mysql中data目录下的mysql bin index文件 find name mys
  • Spring boot运行原理-自定义自动配置类

    在前面SpringBoot的文章中介绍了SpringBoot的基本配置 今天我们将给大家讲一讲SpringBoot的运行原理 然后根据原理我们自定义一个starter pom 本章对于后续继续学习SpringBoot至关重要 了解Sprin
  • 文件共享服务器onedrive,如何共享OneDrive文件和文件夹

    仅有一点额外的存储空间就意味着要购买更大的硬盘或在库存中添加外部硬盘的日子已经一去不复返了 如今 云存储已成为必经之路 它似乎不安全 但它以更快的速度 更安全的方式发展 并且总体而言 逐年提高 而且价格相对较低 出色的云存储服务的一个很好的
  • 《数据结构与算法》期末考试

    数据结构与算法 期末考试 判断题 单选题 填空题 函数题 主观题 判断题 已知一棵二叉树的先序遍历结果是ABC 则CAB不可能是中序遍历结果 T 所谓 循环队列 是指用单向循环链表或者循环数组表示的队列 F 只有当局部最优跟全局最优解一致的
  • odoo 学习 - 权限编辑

    权限编辑 编辑security ir model access csv id name model id id group id id perm read perm write perm create perm unlink access
  • 常用电子元器件简介

    一 电阻器 电阻器 一般情况下也称电阻 是一种阻碍电流在电路中流动的线性元件 也是组成电子电路的主要元件之一 1 电阻器的作用及电路图形符号 1 电阻器的作用 电阻器主要用于控制电路中的电压和电流 除了具有降压 分压 限流和分流作用外 还具
  • VS2019实用调试技巧

    VS2019实用调试技巧 1 debug和release的区别 2 调试 1 调试最常使用的几个快捷键 2 用监视窗口查看临时变量的值 3 查看内存信息 4 查看调用堆栈 5 查看汇编信息 6 查看寄存器信息 3 如何写出易于调试 好的代码
  • maven学习总结系列

    maven学习总结系列 最近工作中需要一些maven的知识 也是想正规的学习下maven的知识点 所以才有了这次的总结 希望自己的总结能够帮助到大家 另外 我只会根据我工作中需要到的知识点进行总结 不需要的 或者我觉得没啥用的 我就不写了
  • Aligning Large Language Models with Human: A Survey

    本文也是LLM相关的综述文章 针对 Aligning Large Language Models with Human A Survey 的翻译 对齐人类与大语言模型 综述 摘要 1 引言 2 对齐数据收集 2 1 来自人类的指令 2 1