Josiah02 发表于 4 天前

更精简的大型语言模型可实现手机和笔记本电脑上的高效本地使用

大型语言模型 (LLM) 越来越多地实现翻译、文本分类和客户服务等任务的自动化。但要利用 LLM 的功能,通常需要用户将请求发送到中央服务器 — 这个过程成本高昂、耗能大且通常速度缓慢。
现在,研究人员推出了一种压缩 LLM 大量数据的技术,该技术可以提高隐私性、节省能源并降低成本。他们的研究成果已发表在arXiv预印本服务器上。
普林斯顿大学和斯坦福工程学院的工程师开发的新算法通过减少冗余并降低 LLM 信息层的精度来实现。这种更精简的 LLM 可以在手机或笔记本电脑等设备上本地存储和访问,并且可以提供与未压缩版本几乎一样准确和细致的性能。
这项研究的共同作者、普林斯顿大学工程与应用科学学院院长兼电气与计算机工程系 Arthur LeGrand Doty 教授 Andrea Goldsmith 表示: “只要你可以降低使用人工智能模型的计算复杂性、存储和带宽要求,你就可以在无法处理此类计算和内存密集型任务的设备和系统上启用人工智能。”
“当你使用 ChatGPT 时,无论你发出什么请求,它都会发送到 OpenAI 的后端服务器,这些服务器会处理所有这些数据,而这非常昂贵,”合著者、斯坦福工程学博士生 Rajarshi Saha 说道。“因此,你希望能够使用消费者 GPU [图形处理单元] 进行这种 LLM 推理,而实现这一点的方法就是压缩这些 LLM。”Saha 的研究生工作由 Goldsmith 和合著者、斯坦福工程学助理教授 Mert Pilanci 共同指导。
研究人员将于 12 月在神经信息处理系统会议 (NeurIPS) 上展示他们的新算法CALDERA,即具有低秩自适应的校准感知低精度分解。Saha 和同事们开始这项压缩研究时使用的不是 LLM 本身,而是用于训练 LLM 和其他复杂 AI 模型(例如用于图像分类的模型)的大量信息。这项技术是新 LLM 压缩方法的前身,于 2023 年发布。
训练数据集和 AI 模型均由矩阵或用于存储数据的数字网格组成。在 LLM 中,这些被称为权重矩阵,是从大量文本中学习到的单词模式的数值表示。
“我们提出了一种通用算法来压缩大型数据集或大型矩阵,”Saha 说道。“然后我们意识到,如今,不仅数据集很大,而且部署的模型也越来越大。因此,我们也可以使用我们的算法来压缩这些模型。”
虽然该团队的算法并不是第一个压缩 LLM 的算法,但它的创新之处在于两个属性的创新组合,一个称为“低精度”,另一个称为“低秩”。由于数字计算机以比特(零和一)的形式存储和处理信息,“低精度”表示减少了比特的数量,加快了存储和处理速度,同时提高了能源效率。另一方面,“低秩”是指减少 LLM 权重矩阵中的冗余。
萨哈说:“将这两种特性结合起来使用,我们就能获得比单独使用任何一种技术所能达到的更高的压缩率。”
该团队使用 Meta AI 发布的开源 大型语言模型Llama 2 和 Llama 3 测试了他们的技术,发现他们的方法(低秩和低精度组件相互结合)可用于改进其他仅使用低精度的方法。改进最多可达 5%,这对于衡量预测单词序列的不确定性的指标来说意义重大。
他们使用几组 LLM 基准任务评估了压缩语言模型的性能。这些任务包括确定两个语句的逻辑顺序,或回答涉及物理推理的问题,例如如何将蛋清和蛋黄分开或如何泡一杯茶。
“我认为我们能够在这种压缩方案中获得如此出色的性能令人鼓舞,但也有点令人惊讶,”戈德史密斯说,他于 2020 年从斯坦福工程学院转到普林斯顿大学。“通过利用权重矩阵,而不是仅仅对表示权重矩阵的位使用通用压缩算法,我们能够做得更好。”
以这种方式使用压缩的 LLM 可能适用于不需要最高精度的情况。此外,在智能手机或笔记本电脑等边缘设备上微调压缩 LLM 的能力可以增强隐私,因为组织和个人可以根据自己的特定需求调整模型,而无需与第三方提供商共享敏感数据。这降低了在训练过程中数据泄露或未经授权访问机密信息的风险。为了实现这一点,LLM 必须首先压缩到足以适应消费级 GPU。
Saha 还警告称,在智能手机或笔记本电脑上运行 LLM 可能会在一段时间内占用设备内存。“如果你正在运行 LLM,而你的手机在一小时内就没电了,你可不会高兴的,”Saha 说。
他补充说,低精度计算有助于降低功耗。“但我不会说有一种技术可以解决所有问题。我们在本文中提出的是一种与先前研究中所提出的技术结合使用的技术。我认为这种结合将使我们能够更有效地在移动设备上使用 LLM,并获得更准确的结果。”

页: [1]
查看完整版本: 更精简的大型语言模型可实现手机和笔记本电脑上的高效本地使用