为什么聊天机器人如此擅长模仿巴特·辛普森_综合_时光网

本周早些时候，《大西洋月刊》（The Atlantic）发表了亚历克斯·赖斯纳（Alex Reisner）的一项新调查，调查了未经许可用于训练生成式人工智能程序的数据。在这种情况下，苹果、Anthropic、meta和Nvidia等公司已经收集了数万部电影和电视节目中的对话，以开发大型语言模型（或llm）。

这些数据的来源很奇怪：对话不是取自剧本或书籍，而是取自从dvd、蓝光光盘和互联网流媒体中提取的字幕文件。Reisner写道：“虽然这看起来像是人工智能训练数据的奇怪来源，但字幕很有价值，因为它们是一种原始的书面对话形式。”“它们包含了口语对话的节奏和风格，并允许科技公司将生成式人工智能的曲目扩展到学术文本、新闻和小说之外，所有这些都被用来训练这些程序。”

有创造力的人类被窃取工作成果来训练可能取代他们的机器，这也许不再是一件令人震惊的事情。但由于这些科技公司的秘密性质，很难找到证据来证明究竟使用了哪些数据，以及用于什么目的。雷斯纳写道：“现在，至少，我们对谁被困在机器里有了更多的了解。”“世界会怎么判断他们的亏欠？”

A gif of blue folders and a strip of film

插图：Matteo Giuseppe Pani / The Atlantic

毫无疑问，好莱坞写作正在推动人工智能的发展

作者：Alex Reisner

自从生成人工智能聊天机器人出现在互联网上以来，好莱坞作家就一直在想，他们的作品是否被用来训练它们。这些聊天机器人对电影的引用非常流利，公司似乎正在用所有可用的资源来训练它们。一位编剧最近告诉我，他看到生成式人工智能模仿了《教父》和20世纪80年代的电视节目《Alf》，但他没有办法证明一个程序是根据这些材料训练的。

我现在可以绝对自信地说，许多人工智能系统已经接受了电视和电影作家作品的训练。不仅是《教父》和《阿尔夫》，还有53000多部其他电影和85000多集其他电视剧：所有这些电影中的对话都被包含在一个人工智能训练数据集中，该数据集已被苹果、Anthropic、meta、英伟达、Salesforce、彭博社和其他公司使用。我最近下载了这个数据集，我在关于各种大型语言模型（或llm）开发的论文中看到了它。它包括从1950年到2016年获得最佳影片提名的每部电影的剧本，《辛普森一家》至少616集，《宋飞正传》170集，《双峰》45集，以及《火线》、《黑道家族》和《绝命毒师》的每一集。它甚至包括金球奖和奥斯卡颁奖典礼直播中预先写好的“现场”对话。如果一个聊天机器人可以模仿犯罪节目中的暴徒或情景喜剧中的外星人，或者更紧迫的是，如果它可以拼凑出整个节目，否则可能需要一屋子的作家，这样的数据就是原因之一。

接下来要读什么？

“这是我在数据库里发现的本身我用来训练生成式人工智能”“诺贝尔获奖作家， 龙与地下城、基督教文学和情色文学都可以作为机器的数据点，”亚历克斯·赖斯纳（Alex Reisner）在早期的一项调查中写道 大西洋． 人工智能的指纹在选举中无处不在“但深度造假和虚假信息并不是主要问题，”Matteo Wong写道。

为什么聊天机器人如此擅长模仿巴特·辛普森

相关推荐