人工智能-大语言模型-微调技术-LoRA及背后原理简介

1. 《LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS》

LORA: 大型语言模型的低秩适应

摘要：
随着大规模预训练模型的发展，全参数微调变得越来越不可行。本文提出了一种名为LoRA（低秩适应）的方法，通过在Transformer架构的每一层注入可训练的低秩分解矩阵，大幅减少了下游任务的可训练参数数量。与使用Adam微调GPT-3 175B相比，LoRA可以将可训练参数数量减少10000倍，GPU内存需求减少3倍。
在这里插入图片描述

创新点：

提出了LoRA方法，通过在预训练模型中注入低秩矩阵来适应下游任务。
与全参数微调相比，LoRA在保持模型质量的同时，大幅减少了参数数量和计算资源需求。

算法模型：

在预训练的权重矩阵中注入低秩分解矩阵，通过优化这些低秩矩阵来适应新任务。
保持预训练权重不变，只训练注入的低秩矩阵。

数学模型 :
$W_{0}x + \Delta W x = W_{0}x + BAx$

这里 $W_{0}, \Delta W$ 是同纬度的超大矩阵，通常10B以上的模型参数量，但是 $B, A$ 都是低秩，维度远远小于原始模型参数矩阵。

实验效果：

在RoBERTa、DeBERTa、GPT-2和GPT-3等模型上进行实验，LoRA在参数数量大幅减少的情况下，性能与全参数微调相当或更好。
在GPT-3 175B上，LoRA在WikiSQL、MNLI和SAMSum等任务上的表现优于或接近全参数微调。

推荐阅读指数：
★★★★★

推荐理由：
这篇文章提出了一种高效的大型语言模型适应方法，对于需要在资源有限的情况下部署大型模型的应用场景具有重要意义。LoRA方法的提出，为大型模型的实用化和优化提供了新的思路和工具。

2. 《MEASURING THE INTRINSIC DIMENSION OF OBJECTIVE LANDSCAPES》

测量目标景观的内在维度

摘要：
本文探讨了神经网络参数数量与问题难度之间的关系。作者通过在随机子空间中训练网络，逐渐增加子空间的维度，来测量目标景观的内在维度。研究表明，许多问题的内在维度比预期的要小，且对于给定数据集，不同模型尺寸的内在维度变化不大。这表明一旦参数空间足够大以解决问题，额外的参数直接增加了解的流形的维度。此外，文章还提出了一种简单的技术来获得解决方案的最小描述长度的上界，并提供了一种压缩网络的方法。

创新点：

提出了内在维度的概念，用于量化问题难度。
开发了一种在随机子空间中训练网络的方法来测量内在维度。
展示了即使是大型网络，也只需相对较少的参数即可达到接近最优的性能。

算法模型：

网络不是在其原始参数空间中训练，而是在一个较小的、随机定向的子空间中训练。
通过逐渐增加子空间的维度，记录解决方案首次出现的维度，定义为目标景观的内在维度。

实验效果：

在MNIST、CIFAR-10、ImageNet等数据集上的实验表明，许多问题的内在维度远小于参数总数。
例如，在MNIST数据集上，即使是一个全连接网络，也只需要大约750个参数即可达到接近最优模型90%的性能。

推荐阅读指数：
★★★★☆

推荐理由：
这篇文章为理解神经网络的优化问题提供了新的视角，特别是在参数数量与模型性能之间的关系方面。它的方法论和实验结果对于神经网络的设计和训练具有重要的指导意义。

3.《INTRINSIC DIMENSIONALITY EXPLAINS THE EFFECTIVENESS OF LANGUAGE MODEL FINE-TUNING》

内在维度性解释了语言模型微调的有效性

摘要：
尽管预训练的语言模型可以通过微调来达到各种语言理解任务的最新结果，但这一过程的动态，特别是在数据量较少的情况下，尚不清楚。本文通过内在维度的视角分析微调过程，提供了理论和实证直觉来解释这一现象。研究表明，常见的预训练模型具有非常低的内在维度，即存在一个低维重参数化，其微调效果与完整参数空间一样有效。

创新点：