2023 年十篇值得关注的 AI 研究论文
源文:Ten Noteworthy AI Research Papers of 2023
1)Pythia——从大规模训练运行中获得的见解
借助Pythia:一套用于分析跨训练和扩展的大型语言模型的套件,研究人员最初发布了 8 个 LLM,范围从 70M 到 12B 个参数(权重和数据都公开发布,这种情况很少见)。
但在我看来,这篇论文的突出特点是他们还发布了训练细节、分析和见解(其中一些显示在下面的带注释的图中)。
以下是 Pythia 论文讨论的一些问题:
对重复数据进行预训练(即训练 >1 个时期)会有什么不同吗?事实证明,重复数据删除不会提高或损害性能。
训练顺序会影响记忆吗?不幸的是,事实证明它不会。“不幸的是”,因为如果这是真的,我们可以通过重新排序训练数据来缓解不良的逐字记忆问题。
预训练词频是否会影响任务性能?是的,出现频率较高的词条的少样本准确率往往更高。
增加批次大小是否会影响训练效率和模型收敛?将批次大小加倍会使训练时间减半,但不会影响收敛。
如今,仅仅六个月过去了,这些 LLM 绝对算不上开创性。但是,我之所以包括这篇论文,是因为它不仅试图回答有关训练设置的有趣问题,而且在细节和透明度方面也是一个积极的例子。此外,<1B 范围内的小型 LLM 是小型研究和修补的好模板,或者是预训练实验的起点(这是它们的GitHub 存储库的链接)。
我对 2024 年的愿望是,我们在来年看到更多这样的研究和写得好的论文!
2)Llama 2:开放基础和精细调整的聊天模型
Llama 2:开放基础和微调聊天模型是 Meta 广受欢迎的第一篇 Llama 论文的后续论文。
Llama 2 模型的参数范围从 7B 到 70B,这是本文入选此列表的原因之一:这些模型仍然是功能最强大且使用最广泛的公开模型之一。值得注意的是,Llama 2 许可证还允许在商业应用中使用(有关详细信息,请参阅访问请求页面)。
来自 Llama 2 论文( https://arxiv.org/abs/2307.09288 )的注释图展示了从监督微调模型(SFT-1)的第一次迭代到最终的 RLHF 微调聊天模型(RLHF-v5)的性能进展。
尽管 Mistral-8x7B(稍后会介绍)、DeepSeek-67B 和 YI-34B 等模型在公共基准测试中胜过更大的 Llama-2-70B 模型,但在公开可用的 LLM 和在其基础上开发方法方面,Llama 2 仍然是一种常见且流行的选择。
此外,尽管一些基准测试表明可能存在更好的模型,但今年面临的更大挑战之一是基准测试的可信度。例如,我们如何知道这些模型没有在上述基准测试上进行训练,并且分数没有被夸大?在经典机器学习中,当有人提出一种新的梯度提升模型时,重现结果并进行检查相对容易。如今,考虑到训练 LLM 的成本和复杂性(以及大多数研究人员要么不披露架构,要么不披露训练数据细节),我们无法判断。
总而言之,尽管其他所有大公司现在都在推出自己专有的大型语言模型(谷歌的 Bard 和 Gemini、亚马逊的 Q、Twitter/X 的 Grok 以及 OpenAI 的 ChatGPT),但看到 Meta 加倍投入开源仍然令人耳目一新。
3)QLoRA:量化 LLM 的有效微调
QLoRA:量化 LLM 的高效微调是今年 LLM 研究和微调社区中最受欢迎的技术之一,因为它使已经很流行的 LoRA(低秩自适应)技术更加节省内存。简而言之,这意味着您可以将更大的模型安装到更小的 GPU 上。
常规 LoRA 的简短视觉摘要
QLoRA 代表量化 LoRA(低秩自适应)。标准 LoRA 方法通过向模型层的权重添加低秩矩阵来修改预训练的 LLM。这些矩阵较小,因此在微调期间更新所需的资源较少。
在 QLoRA 中,这些低秩矩阵被量化,这意味着它们的数值精度会降低。这是通过将这些矩阵中连续的值范围映射到一组有限的离散级别来实现的。这个过程减少了模型的内存占用和计算需求,因为对低精度数字的运算占用的内存较少
在众多有效的 LLM 微调方法中,LoRA 是最受欢迎且应用最广泛的方法之一。注释图来自出色的《从缩小到扩大:参数高效微调指南》调查。
根据QLoRA 论文,QLoRA 将 65B Llama 模型的内存需求降低到适合单个 48 GB GPU(如 A100)。通过量化 4 位训练 65B Llama 获得的 65B Guanaco 模型保持了完整的 16 位微调任务性能,仅经过 24 小时的微调就达到了 ChatGPT 性能的 99.3%。
今年我还进行了许多 QLoRA 实验,发现 QLoRA 是一款方便的工具,可在微调期间减少 GPU 内存需求。不过,这有代价:额外的量化步骤会导致额外的计算开销,这意味着训练速度会比常规 LoRA 慢一点。
摘录自我之前写过的 LoRA 和 QLoRA 实验
由于研究人员和从业者都致力于创建自定义 LLM,因此 LLM 微调仍然与以往一样重要。我很欣赏 QLoRA 等技术,它们通过降低 GPU 内存需求门槛,使这个过程更容易实现。
4)BloombergGPT:面向金融的大型语言模型
纵观今年发表的所有论文,《BloombergGPT:一种大型金融语言模型》进入前十名单似乎有点奇怪,因为它并没有带来突破性的新见解、方法或开源模型。
我之所以将其纳入,是因为这是一个有趣的案例研究,其中有人在特定领域的数据集上对一个相对较大的 LLM 进行了预训练。此外,描述非常详尽,这种情况正变得越来越罕见。对于作者受雇于公司的论文尤其如此——今年的趋势之一是,大公司对架构或数据集细节越来越保密,以在这种竞争环境中保护商业机密(PS:我不会因此责怪他们)。
此外,BloombergGPT 让我想到了我们可以在特定领域的数据上预训练和微调模型的所有不同方法,如下图所示(请注意,BloombergGPT 论文中没有探讨这一点,但看看未来的研究会很有趣)。
预训练和微调 LLM 的不同方法。
简而言之,BloombergGPT 是一个拥有 500 亿个参数的金融语言模型,使用来自金融数据的 3630 亿个标记和来自一般公开数据集的 3450 亿个标记进行训练。相比之下,GPT-3 的规模是其 3.5 倍(1750 亿个参数),但训练的标记数量却是其 1.4 倍(4990 亿个)。
既然 GPT-3 大 3.5 倍,为什么作者要使用“仅”有 500 亿个参数的架构?这个问题比较容易回答。他们采用了 Chinchilla 缩放定律,并发现考虑到可用的财务数据规模,这是一个合适的规模。
是否值得从头开始在组合数据集上(预)训练 LLM?根据论文,该模型在目标领域表现非常好。但是,我们不知道它是否比 a) 在特定领域数据上进一步预训练预训练模型或 b) 在特定领域数据上微调预训练模型更好。
尽管上述有一些批评,但总的来说,这是一篇有趣的论文,可以作为特定领域 LLM 的一个有趣的案例研究和示例;此外,它为进一步研究预训练与微调留下了空间,以便将知识灌输到 LLM 中。
(PS:对于那些对与微调进行比较感到好奇的人,正如Rohan Paul与我分享的那样,“小型” AdaptLLM-7B模型在一个数据集上的表现优于 BloombergGPT,并且在其他三个金融数据集上的表现几乎与其相当。虽然 BloombergGPT 总体上看起来略胜一筹,但值得注意的是,训练 AdaptLLM-7B 的成本约为 100 美元,而 BloombergGPT 的投资则高达数百万美元。)
5)直接偏好优化:你的语言模型其实是一个奖励模型
在讨论“直接偏好优化:你的语言模型秘密是一个奖励模型”论文之前,让我们先回顾一下,讨论一下它旨在取代的方法,即从人类反馈中进行强化学习(RLHF)。
RLHF 是 ChatGPT 和 Llama 2 Chat 模型背后的主要技术。在 RLHF 中(我在另一篇文章中对此进行了更详细的描述),我们使用了一个多步骤程序:
监督微调:模型最初在包含指令和所需响应的数据集上进行训练。
奖励建模:人类评分者对模型的输出提供反馈。这种反馈用于创建奖励模型,该模型可以学习预测哪种输出是首选。
近端策略优化 (PPO):模型生成输出,奖励模型对每个输出进行评分。PPO 算法使用这些分数来调整模型的策略,以实现
生成更高质量的输出。(这是一种用于微调模型策略的强化学习算法。
监督指令微调步骤数据集中的两个训练示例。请注意,“输入”是可选的。
虽然 RLHF 很流行而且有效,但正如我们在 ChatGPT 和 Llama 2 中看到的那样,它的实现也相当复杂而且繁琐。
直接偏好优化 (DPO) 论文介绍了一种算法,该算法可以优化语言模型以符合人类偏好,而无需明确的奖励建模或强化学习。相反,DPO 使用简单的分类目标。
来自 DPO 论文的注释图,https://arxiv.org/abs/2305.18290
在 DPO 中,我们仍然保留了监督微调步骤(上面的步骤 1),但我们用单个步骤替换步骤 2 和 3,以进一步根据偏好数据微调模型。换句话说,DPO 完全跳过了 RLHF 所需的奖励模型创建,这大大简化了微调过程。
效果如何?直到最近,还没有很多模型使用 DPO 进行训练。(这是有道理的,因为 DPO 也是一种相对较新的方法。)但是,最近的一个例子是Zephyr:LM 对齐的直接提炼中描述的 Zephyr 7B 模型。Zephyr-7B 基于使用 DPO 进行微调的 Mistral-7B 基础 LLM。(稍后会有更多关于 Mistral 的内容。)
如下面的性能表所示,7B 参数的 Zephyr 模型在发布时的表现优于其规模级别的所有其他模型。更令人印象深刻的是,Zephyr-7B 甚至在对话式MT-Bench基准测试中超越了 10 倍大、70B 参数的 Llama 2 聊天模型。
Zephyr 模型(DPO 微调的 LLM)的注释基准来自https://arxiv.org/abs/2310.16944
总而言之,DPO 论文的吸引力在于其方法的简单性。使用 RLHF 训练的聊天模型稀缺(Llama 2 是一个显著的例外),这很可能归因于 RLHF 方法的复杂性。鉴于此,我认为可以合理地预期未来一年 DPO 模型的采用率将会增加。
6)米斯特拉尔 7B
我必须承认,Mistral 7B 论文由于篇幅太短,并不是我最喜欢的论文之一。但是,它提出的模型却很有影响力。
我决定将这篇论文列入此列表,因为 Mistral 7B 模型不仅在发布时非常受欢迎,而且还作为基础模型,从而导致了另外两个著名模型的开发:Zephyr 7B 和最新的 Mistral Mixture of Experts (MoE) 方法。这些模型很好地体现了我预测的 2024 年上半年小型 LLM 的趋势。
在我们讨论 Zephyr 7B 和 Mistral MoE 型号之前,让我们先简单谈谈 Mistral 7B 本身。
简而言之,Mistral 7B 论文介绍了一种紧凑但功能强大的语言模型,尽管其规模相对较小,只有 70 亿个标记,但在各种基准测试中,其表现均优于其规模更大的同类模型,例如 13B Llama 2 模型。(除了规模大两倍的Qwen 14B之外,Mistral 7B 也是今年NeurIPS LLM 微调与效率挑战赛获胜解决方案中使用的基础模型。)
带注释的图表来自https://arxiv.org/abs/2310.06825,比较了 Mistral 7B 和 Llama 13B 的性能
它究竟为何如此优秀尚不清楚,但很可能是因为它的训练数据。Llama 2 和 Mistral 都没有披露训练数据,所以我们只能进行推测。
从架构上看,该模型与 Llama 2 共享组查询注意力机制。虽然与 Llama 2 非常相似,但 Mistral 架构的一个有趣补充是滑动窗口注意力,它可以节省内存并提高计算吞吐量,从而加快训练速度。(滑动窗口注意力机制之前由Child 等人于 2019 年和Beltagy 等人于 2020 年提出。)
Mistral 中使用的滑动窗口注意力机制本质上是一个固定大小的注意力块,它允许当前 token 只关注特定数量的先前 token(而不是所有先前的 token),如下图所示。
来自https://arxiv.org/abs/2310.06825的注释图解释了滑动窗口注意力。
在 7B Mistral 的具体案例中,注意力块大小为 4096 个 token,研究人员使用高达 100k 个 token 上下文大小来训练模型。举一个具体的例子,在常规自注意力中,第 50,000 个 token 处的模型可以关注之前的所有 49,999 个 token。在滑动窗口自注意力中,Mistral 模型只能关注 45,904 到 50,000 个 token(因为 50,000 - 4,096 = 45,904)。
然而,滑动窗口注意力主要用于提高计算性能。Mistral 的表现优于较大的 Llama 2 模型,这可能不是因为滑动窗口注意力,而是尽管有滑动窗口注意力。
Zephyr 和 Mixtral
Mistral 7B 之所以具有影响力,原因之一是它是 Zephyr 7B 的基础模型,正如前面 DPO 部分所述。Zephyr 7B 是第一个使用 DPO 训练的流行模型,其表现优于其他替代方案,这可能为 DPO 在未来几个月成为微调聊天模型的首选方法奠定了基础。
另一个值得关注的 Mistral 7B 衍生模型是最近发布的Mistral Mixture of Experts (MoE) 模型,也称为 Mixtral-8x7B。该模型在多个公开基准测试中达到或超过了更大的 Llama-2-70B 的性能。
OpenCompass 基准测试来自https://github.com/open-compass/MixtralKit 。蓝色框突出显示了每行中的最佳结果。
有关更多基准测试,另请参阅 Mixtral 官方博客文章公告。该团队还发布了使用 DPO 进行微调的 Mixtral-8x7B-Instruct 模型(但截至撰写本文时,还没有将其与 RLHF 微调模型 Llama-2-70-Chat 进行比较的基准测试)。
Mixtral 架构概述基于 Mistral 团队最初通过社交媒体上的磁力链接分享的 param.json 文件
据传,GPT-4 也是由 16 个子模块组成的 MoE。据传,这 16 个子模块中的每一个都有 1110 亿个参数(作为参考,GPT-3 有 1750 亿个参数)。如果您大约两个月前读过我的文章《2023 年的人工智能和开源》,我提到“看看 MoE 方法能否在 2024 年将开源模型提升到新的高度,将会很有趣”。看起来 Mixtral 很早就开启了这一趋势,我相信这只是一个开始。
专家组合 101
如果您不熟悉 MoE 模型,这里有一个简短的解释。
Switch Transformers 论文(https://arxiv.org/abs/2101.03961 )中的注释图解释了混合专家架构
上图显示了 Switch Transformer 背后的架构,每个 token 使用 1 个专家,总共 4 个专家。另一方面,Mixtral-8x-7B 由 8 个专家组成,每个 token 使用 2 个专家。
为什么要使用 MoE?综合起来,像 Mixtral 这样的 7B 模型中的 8 个专家仍然有约 56B 个参数。实际上,它少于 56B,因为 MoE 方法仅适用于 FFN(前馈网络,又称全连接)层,而不是自注意力权重矩阵。因此,它可能更接近 40-50B 个参数。
请注意,路由器会重新路由令牌,以便在前向传递中一次仅使用 <14B 参数(2x <7B,而不是全部 <56B),因此与传统的非 MoE 方法相比,训练(尤其是推理)会更快。
如果你想了解更多关于 MoE 的知识,以下是Sophia Yang推荐的阅读书单:
稀疏门控混合专家层(2017)
GShard:通过条件计算和自动分片扩展巨型模型(2020)
MegaBlocks:通过混合专家实现高效稀疏训练 (2022)
混合专家与指令调优的结合(2023)
此外,如果您有兴趣尝试 MoE LLM,还请查看OpenMoE存储库,该存储库于今年早些时候实施并共享了 MoE LLM。
其他规模较小但竞争力强的法学硕士项目
Mistral 7B、Zephyr 7B 和 Mixtral-8x7B 是 2023 年取得进展的绝佳例子,这些模型体积虽小但功能强大,具有公开可用的权重。另一个值得注意的模型是微软的 phi 系列,它在我最喜欢的论文列表中排名第二。
phi 的秘诀在于使用通过过滤网络数据获得的高质量数据(称为“教科书质量数据”)进行训练。
phi 模型将于 2023 年分阶段发布,包括 phi-1(13 亿个参数)、phi-1.5(13 亿个参数)和 phi-2(27 亿个参数)。phi-2 于两周前发布,据说其性能已与 Mistral 7B 相当甚至超过后者,尽管其尺寸只有后者的一半。
1.3B 参数 phi-1.5 模型与各种 7B 参数模型的比较(来自 phi-1.5 论文,https://arxiv.org/abs/2309.05463 )
有关 phi 模型的更多信息,我推荐以下资源:
你只需要教科书——phi-1 论文
您所需要的只是教科书 II:phi-1.5 技术报告
Phi-2:小型语言模型的惊人力量公告
7)Orca 2:教小型语言模型如何推理
Orca 2:教小型语言模型如何推理是一篇相对较新的论文,时间将证明它是否会对我们在未来几个月或几年内培训 LLM 的方式产生持久的影响。
我决定将它纳入其中,因为它结合了几个概念和想法。
一种方法是从 GPT-4 等大型、功能强大的模型中提取数据,以创建合成数据集来训练小型但功能强大的 LLM。这个想法在去年发表的 Self-Instruct 论文中有所描述。今年早些时候,Alpaca(基于 ChatGPT 输出进行微调的 Llama 模型)真正推广了这种方法。
这是如何工作的?简而言之,这是一个 4 步过程:
种子任务池包含一组人工编写的指令(本例中为 175 条)和示例指令;
使用预先训练的 LLM(如 GPT-3)来确定任务类别;
给定新指令,让预先训练的 LLM 生成响应;
将响应添加到任务池之前,收集、修剪和过滤响应。
基于 Self-Instruct 论文的注释图,https://arxiv.org/abs/2212.10560
另一个想法可能并不令人惊讶,但值得强调:高质量数据对于微调非常重要。例如,LIMA 论文提出了一个人工生成的高质量数据集,该数据集仅由 1k 个训练示例组成,可用于微调以超越在 50k 个 ChatGPT 生成的响应上微调的相同模型。
注释图来自 LIMA 论文,https://arxiv.org/abs/2305.11206
与之前严重依赖模仿学习来复制较大模型输出的研究不同,Orca 2 旨在向“小型”(即 7B 和 13B)LLM 传授各种推理技巧(如分步推理、回忆然后生成等),并帮助他们确定每项任务的最有效策略。这种方法使 Orca 2 的表现明显优于类似规模的模型,甚至取得了与 5-10 倍大模型相当的结果。
Orca 2 论文中评估的许多基准测试任务的子集,https://arxiv.org/abs/2311.11045
虽然我们还没有看到任何关于这方面的广泛研究,但 Orca 2 方法也可能能够解决使用合成数据的问题,该问题在《模仿专有 LLM 的虚假承诺》论文中被强调。在这里,研究人员使用 Alpaca 和 Self-Instruct 等示例,研究了微调较弱的语言模型以模仿更强大的专有模型(如 ChatGPT)。最初,模仿模型显示出令人鼓舞的结果,在遵循指令方面表现良好,并且与 ChatGPT 相比,获得了众包工作者的竞争性评分。然而,更多的后续评估显示,这些模仿模型似乎只在人类观察者眼中表现良好,但经常产生事实上不正确的反应。
8)ConvNets 在规模上与 Vision Transformers 匹敌
近年来,由于大型语言转换器或视觉转换器 (ViT) 性能良好,我几乎只研究它们。
在最后三篇论文中,我将话题从语言转到计算机视觉,我发现 transformer 对计算机视觉特别有吸引力的地方在于,预训练的 ViT 比卷积神经网络更容易微调。(我在今年早些时候的 CVPR 上总结了一次简短的实践演讲:https://magazine.sebastianraschka.com/p/accelerating-pytorch-model-training)。
令我惊讶的是,我偶然发现了《ConvNets Match Vision Transformers at Scale》这篇论文,该论文表明,当获得足够大的数据集时,卷积神经网络(CNN)实际上可以与 ViT 相媲美。
带注释的图片来自论文 《ConvNets Match Vision Transformers at Scale》(https://arxiv.org/abs/2310.16764 )
在这里,研究人员投入了高达 110k TPU 小时的计算预算,以对 ViT 和 CNN 进行公平比较。结果是,当使用与 ViT 通常使用的计算预算类似的计算预算对 CNN 进行预训练时,它们可以与 ViT 的性能相匹配。为此,他们使用来自 JFT 的 40 亿张带标签的图像进行了预训练,然后在 ImageNet 上对模型进行了微调。
9)细分一切
图像和视频中的对象识别和分割以及分类和生成模型是计算机视觉的主要研究领域。
简要强调一下这两个任务之间的区别:对象检测是关于预测边界框和相关标签;分割对每个像素进行分类以区分前景和背景对象。
物体检测(顶部)和分割(底部)。图片来自 YOLO 论文(https://arxiv.org/abs/1506.02640 )和 Mask R-CNN 论文(https://arxiv.org/abs/1703.06870v3 )
Meta 的Segment Anything论文是开源和图像分割研究的重要里程碑。该论文介绍了一种用于图像分割的新任务、模型和数据集。随附的图像数据集是迄今为止最大的分割数据集,在 1100 万张图像上包含超过 10 亿个掩码。
Segment Anything 模型 (SAM) 旨在实现高效的基于提示的图像分割。带注释的屏幕截图来自 Segment Anything 论文,https://arxiv.org/abs/2304.02643
然而,罕见且特别值得称赞的是,研究人员使用了获得许可且尊重隐私的图像,因此该模型可以开源而无需担心重大的版权问题。
任何事物分段模型 (SAM) 由三个主要组件组成,如上图所示。
任何事物的细分模型的三个主要组成部分,来自https://arxiv.org/abs/2304.02643
更详细地讲,这三个组成部分可以概括如下:
一种图像编码器,利用基于预训练视觉转换器 (ViT) 的掩蔽自动编码器,可以处理高分辨率输入。此编码器每幅图像运行一次,可在提示模型之前应用。
提示编码器可处理两种类型的提示:稀疏(点、框、文本)和密集(掩码)。点和框由位置编码与每种提示类型的学习嵌入相结合来表示。自由格式文本使用 CLIP 的现成文本编码器。密集提示(即掩码)使用卷积嵌入,并与图像嵌入逐元素求和。
掩码解码器将图像嵌入、提示嵌入和输出标记映射到掩码。这是一种解码器式转换器架构,可计算每个图像位置的掩码前景概率。
图像分割对于自动驾驶汽车、医学成像等许多应用都非常重要。在短短的 6 个月内,该论文已被引用超过 1500 次,并且已经有许多项目基于该论文构建。
10)调整你的潜在因素:高分辨率视频合成与潜在扩散模型
Emu Video:通过显式图像条件分解文本到视频的生成是 Meta 研究部门的另一个值得注意的计算机视觉项目。
Emu 是一个文本转视频模型,可以根据文本提示生成整个视频。
虽然它不是第一个令人印象深刻的文本到视频生成模型,但与以前的作品相比它非常有利。
通过https://arxiv.org/abs/2311.10709对 Emu 和其他文本转视频模型进行性能比较
正如作者所言,与之前的方法相比,Emu 架构设置相对简单。这里的主要思想之一是 Emu 将生成过程分解为两个步骤:首先,根据文本生成图像(使用扩散模型),然后根据文本和生成的图像创建视频(使用另一个扩散模型)。
2022 年是 DALL-E 2、Stable Diffusion 和 Midjourney 等文本转图像模型的重要一年。虽然文本转图像模型在 2023 年仍然非常受欢迎(尽管 LLM 全年获得了最多的关注),但我认为文本转视频模型在来年将在在线社区中变得更加流行。
由于我不是图像或视频设计师,所以目前我没有这些工具的用例;然而,文本到图像和文本到视频模型作为计算机视觉进展的一般衡量标准仍然很有趣。