人工智能研究人员推出了一款能够生成多达 10,000 个单词的文本输出的 LLM
清华大学的人工智能研究团队与智普人工智能的同事合作,开发了一种名为 LongWriter 的大型语言模型 (LLM),他们声称该模型能够生成多达 10,000 个单词的文本输出。该团队撰写了一篇论文,描述了他们的努力和新的 LLM,该论文可在arXiv预印本服务器上找到。随着 LLM 成为主流,许多人注意到它们无法生成非常长的答案,例如整本书或手稿——目前的限制似乎是大约 2,000 个字。研究人员认为这是因为它们都是在短文档上进行训练的。在他们的新研究中,他们发现如果对 LLM 进行轻微的改变,然后使用更长的文档进行训练,它们就能够生成更长的文档。
为了测试他们的想法,研究团队首先使用传统数据集训练了一个 90 亿参数的 LLM ,其中包括大多数长度少于 2,000 字的文档。正如预期的那样,当查询时,它无法创建长度超过 2,000 字的文本。
接下来,该团队使用一个名为 AgentWrite 的管道修改了传统的 LLM,以便在处理训练材料时将其分解为子任务。然后,他们组建了一个名为“LongWriter-6k”的数据集,该数据集包含 6,000 份书面文档,长度从 2,000 到 32,000 字不等。然后,他们使用新的数据集 LongWriter-6k 训练了修改后的 LLM,发现这样做可以将其生成的文档字数增加到大约 10,000 字。
玩
在审查法学硕士项目生成的新长篇文档时,该团队发现这些文档条理清晰,适用于各种情况。他们已将模型的开源代码发布在 GitHub 上,此举将使其他人能够借鉴中国团队所做的工作。他们还发布了一段视频,展示了 LongWriter 如何为在中国旅行的人制作一本 10,000 字的旅游指南。
研究人员承认,既然已经发现法学硕士学位可以生成完整的研究论文、书籍、手稿甚至电影剧本,那么必须考虑道德方面的考虑。
更多信息: Yushi Bai 等人,LongWriter:从长上下文 LLM 中释放 10,000 多个单词生成能力,arXiv (2024)。DOI :10.48550/arxiv.2408.07055
Github: github.com/THUDM/LongWriter
期刊信息: arXiv
页:
[1]