Josiah02 发表于 2024-8-19 07:45:23

人工智能研究人员推出了一款能够生成多达 10,000 个单词的文本输出的 LLM

清华大学的人工智能研究团队与智普人工智能的同事合作,开发了一种名为 LongWriter 的大型语言模型 (LLM),他们声称该模型能够生成多达 10,000 个单词的文本输出。该团队撰写了一篇论文,描述了他们的努力和新的 LLM,该论文可在arXiv预印本服务器上找到。
随着 LLM 成为主流,许多人注意到它们无法生成非常长的答案,例如整本书或手稿——目前的限制似乎是大约 2,000 个字。研究人员认为这是因为它们都是在短文档上进行训练的。在他们的新研究中,他们发现如果对 LLM 进行轻微的改变,然后使用更长的文档进行训练,它们就能够生成更长的文档。
为了测试他们的想法,研究团队首先使用传统数据集训练了一个 90 亿参数的 LLM ,其中包括大多数长度少于 2,000 字的文档。正如预期的那样,当查询时,它无法创建长度超过 2,000 字的文本。
接下来,该团队使用一个名为 AgentWrite 的管道修改了传统的 LLM,以便在处理训练材料时将其分解为子任务。然后,他们组建了一个名为“LongWriter-6k”的数据集,该数据集包含 6,000 份书面文档,长度从 2,000 到 32,000 字不等。然后,他们使用新的数据集 LongWriter-6k 训练了修改后的 LLM,发现这样做可以将其生成的文档字数增加到大约 10,000 字。

在审查法学硕士项目生成的新长篇文档时,该团队发现这些文档条理清晰,适用于各种情况。他们已将模型的开源代码发布在 GitHub 上,此举将使其他人能够借鉴中国团队所做的工作。他们还发布了一段视频,展示了 LongWriter 如何为在中国旅行的人制作一本 10,000 字的旅游指南。
研究人员承认,既然已经发现法学硕士学位可以生成完整的研究论文、书籍、手稿甚至电影剧本,那么必须考虑道德方面的考虑。
更多信息: Yushi Bai 等人,LongWriter:从长上下文 LLM 中释放 10,000 多个单词生成能力,arXiv (2024)。DOI :10.48550/arxiv.2408.07055
Github: github.com/THUDM/LongWriter
期刊信息: arXiv

页: [1]
查看完整版本: 人工智能研究人员推出了一款能够生成多达 10,000 个单词的文本输出的 LLM