Josiah02 发表于 昨天 15:46

博尔赫斯 83 年前的短篇小说预示着互联网的黯淡未来

未来几十年互联网将会如何发展?
小说作家已经探索了一些可能性。
科幻小说作家尼尔·斯蒂芬森 (Neal Stephenson )在其 2019 年的小说《坠落》中设想了不久的将来互联网仍然存在的情景。但互联网已经被错误信息、虚假信息和广告污染,以至于基本上无法使用。
斯蒂芬森小说中的人物通过订阅“编辑流”来解决这个问题——人类选择的、可以被认为是可信的新闻和信息。
缺点是只有富人才能负担得起这种定制服务,而大多数人只能消费低质量、未经整理的在线内容。
某种程度上,这种情况已经发生了:许多新闻机构,例如《纽约时报》和《华尔街日报》,都已将其精选内容置于付费墙内。与此同时,虚假信息在 X 和 TikTok 等社交媒体平台上泛滥成灾。
斯蒂芬森作为预言家的记录令人印象深刻 - 他在 1992 年的小说“雪崩”中预言了元宇宙,而他 1995 年发布的“钻石时代”的一个关键情节元素是一个功能类似于聊天机器人的交互式入门书。
从表面上看,聊天机器人似乎为虚假信息泛滥提供了解决方案。通过分发事实内容,聊天机器人可以提供不会被付费墙封锁的替代高质量信息来源。
然而讽刺的是,这些聊天机器人的输出可能代表着对网络未来的最大危险——这一点阿根廷作家豪尔赫·路易斯·博尔赫斯几十年前就暗示过。
聊天机器人的兴起
如今,互联网上很大一部分内容仍然包含事实和表面上真实的内容,例如经过同行评审、事实核查或某种方式审查的文章和书籍。
大型语言模型 (LLM)(为 ChatGPT、Copilot 和 Gemini 等机器人提供动力的引擎)的开发人员已经利用了这一资源。
然而,要发挥其魔力,这些模型必须摄取大量高质量文本用于训练。大量的文字已经从网上资源中爬取并输入给刚刚起步的法学硕士。
问题在于,网络虽然庞大,但资源却是有限的。尚未被挖掘殆尽的高质量文本正变得越来越稀缺,导致了《纽约时报》所说的“内容危机”。
这迫使 OpenAI 等公司与出版商达成协议,以便为其贪婪的机器人获取更多原始材料。但根据一项预测,额外高质量训练数据的短缺可能最早在 2026 年就会出现。
随着聊天机器人的输出最终出现在网络上,这些第二代文本——充满了被称为“幻觉”的虚构信息,以及彻头彻尾的错误,比如建议在披萨上涂胶水——将进一步污染网络。
如果聊天机器人在网上与不良分子混在一起,它就会吸收他们令人反感的观点。微软在 2016 年就深刻体会到了这一点,当时它不得不停止使用 Tay,这个机器人开始重复种族主义和性别歧视的内容。
随着时间的推移,所有这些问题都可能使在线内容比现在更加不可信、更无用。此外,以低热量内容为食的法学硕士可能会产生更多有问题的成果,这些成果最终也会出现在网络上。
一个无限而无用的图书馆
不难想象,当机器人以其自身不完美的输出为食时,反馈循环会导致持续的退化过程。
2024 年 7 月发表在《自然》杂志上的一篇论文探讨了在递归生成的数据上训练人工智能模型的后果。它表明,“不可逆缺陷”可能导致以这种方式训练的系统“模型崩溃”——就像图像的副本和该副本的副本以及该副本的副本将失去对原始图像的保真度一样。
情况会变得多糟糕?
想想博尔赫斯 1941 年的短篇小说《巴别图书馆》。在计算机科学家蒂姆·伯纳斯-李创建网络架构的五十年前,博尔赫斯就已经设想过一个模拟的等价物。
在这本 3000 字的小说中,作者想象了一个由无数个六边形房间组成的世界。每个房间的书架上都摆放着统一的书卷,里面的居民直觉地知道,这些书卷里一定包含了字母表中所有可能的字母排列。
最初,这种认识激发了人们的喜悦:根据定义,一定存在详细描述人类未来和生命意义的书籍。
居民们寻找这样的书籍,却发现绝大多数书籍都只是一些毫无意义的字母组合。真相就在那里——但所有可以想象的谎言也在那里。所有这些都隐藏在大量难以想象的胡言乱语中。
即使经过几个世纪的搜寻,也只找到了一些有意义的碎片。即便如此,我们也无法确定这些连贯的文本是真相还是谎言。希望变成了绝望。
网络是否会变得如此污染,以至于只有富人才能负担得起准确可靠的信息?还是无数的聊天机器人会产生如此多的污染言论,以至于在网上寻找准确的信息就像大海捞针?
互联网经常被描述为人类最伟大的成就之一。但与任何其他资源一样,我们必须认真思考如何维护和管理互联网,否则我们最终会面临博尔赫斯想象中的反乌托邦景象。

页: [1]
查看完整版本: 博尔赫斯 83 年前的短篇小说预示着互联网的黯淡未来