人工智能研究人员推出了一款能够生成多达 10,000 个单词的文本输出的 LLM

Josiah02 发表于 2024-8-19 07:45:23

清华大学的人工智能研究团队与智普人工智能的同事合作，开发了一种名为 LongWriter 的大型语言模型 (LLM)，他们声称该模型能够生成多达 10,000 个单词的文本输出。该团队撰写了一篇论文，描述了他们的努力和新的 LLM，该论文可在arXiv预印本服务器上找到。
随着 LLM 成为主流，许多人注意到它们无法生成非常长的答案，例如整本书或手稿——目前的限制似乎是大约 2,000 个字。研究人员认为这是因为它们都是在短文档上进行训练的。在他们的新研究中，他们发现如果对 LLM 进行轻微的改变，然后使用更长的文档进行训练，它们就能够生成更长的文档。
为了测试他们的想法，研究团队首先使用传统数据集训练了一个 90 亿参数的 LLM ，其中包括大多数长度少于 2,000 字的文档。正如预期的那样，当查询时，它无法创建长度超过 2,000 字的文本。
接下来，该团队使用一个名为 AgentWrite 的管道修改了传统的 LLM，以便在处理训练材料时将其分解为子任务。然后，他们组建了一个名为“LongWriter-6k”的数据集，该数据集包含 6,000 份书面文档，长度从 2,000 到 32,000 字不等。然后，他们使用新的数据集 LongWriter-6k 训练了修改后的 LLM，发现这样做可以将其生成的文档字数增加到大约 10,000 字。
玩
在审查法学硕士项目生成的新长篇文档时，该团队发现这些文档条理清晰，适用于各种情况。他们已将模型的开源代码发布在 GitHub 上，此举将使其他人能够借鉴中国团队所做的工作。他们还发布了一段视频，展示了 LongWriter 如何为在中国旅行的人制作一本 10,000 字的旅游指南。
研究人员承认，既然已经发现法学硕士学位可以生成完整的研究论文、书籍、手稿甚至电影剧本，那么必须考虑道德方面的考虑。
更多信息： Yushi Bai 等人，LongWriter：从长上下文 LLM 中释放 10,000 多个单词生成能力，arXiv (2024)。DOI ：10.48550/arxiv.2408.07055
Github: github.com/THUDM/LongWriter
期刊信息： arXiv

页: [1]

NewCET's Archiver

人工智能研究人员推出了一款能够生成多达 10,000 个单词的文本输出的 LLM