OpenAI、Google 和 Meta 正使用您的数据构建他们的 AI 系统

当白宫公布七家人工智能公司签署的自愿安全和社会承诺清单时，有一点明显缺失：与这些人工智能系统收集和用于训练这项强大技术的数据相关的任何内容。很可能包括你的。

人们对复杂的生成人工智能系统给公众带来的潜在危害有很多担忧。他们对我们的数据所做的事情就是其中之一。我们对这些模型从哪里获取所需的 PB 数据、如何使用这些数据以及在涉及敏感信息时采取了哪些保护措施（如果有）知之甚少。制造这些系统的公司并没有告诉我们太多信息，甚至可能不了解他们自己。

你可能对这一切都感到满意，或者认为生成式人工智能所能带来的好处远远超过了构建它所带来的坏处。但很多其他人则不然。

两周前，一条病毒推文指责谷歌从谷歌文档中获取数据来训练其人工智能工具。在后续报道中，其作者声称谷歌“多年来一直使用文档和电子邮件来训练他们的人工智能”。最初的推文有近千万次浏览，并被转发了数千次。事实上，这甚至可能不是真的，这几乎是题外话。（谷歌表示，除非获得用户许可，否则它不会使用其免费或企业 Workspace 产品（包括 Gmail 和 Docs）中的数据来训练其生成式 AI 模型，尽管它确实使用匿名方式训练了一些 Workspace AI 功能，例如拼写检查和智能撰写数据。）

“到目前为止，科技公司还没有在生成式人工智能方面做到他们现在正在做的事情，即获取每个人的信息并将其输入到产品中，从而导致人们的职业过时，并以以前难以想象的方式彻底破坏他们的隐私。 ”，Ryan Clarkson 说道，他的律师事务所负责针对OpenAI、微软和谷歌的集体诉讼。

谷歌总法律顾问哈莉玛·德莱恩·普拉多(Halimah DeLaine Prado)在一份声明中表示，该公司已明确表示其使用来自公共来源的数据，并补充说“美国法律支持利用公共信息创造新的有益用途，我们期待驳斥这些毫无根据的指控” ”。

然而，我们对自己的信息究竟拥有哪些权利，仍在通过诉讼、工人罢工、监管机构调查、行政命令以及可能的新法律来确定。这些公司将来可能会处理您的数据，但您能对这些公司已经获取、使用并从中获利的数据做些什么呢？答案可能不是很多。

生成型人工智能公司渴望获得您的数据。他们是这样得到的。

简而言之，生成式人工智能系统需要尽可能多的数据进行训练。他们获得的越多，就越能更好地模拟人类的声音、表情、说话和写作方式。互联网提供了大量数据，通过网络抓取工具和 API 相对容易获取这些数据。但这个吞噬过程并不区分受版权保护的作品或个人数据；如果它在那里，它就会接受它。

“在缺乏有意义的隐私法规的情况下，这意味着人们可以在整个互联网上广泛抓取，获取任何‘公开可用’的东西——即互联网的顶层，因为缺乏更好的术语——然后将其用于自己的领域。产品，”电子隐私信息中心人工智能和人权项目的负责人本·温特斯 (Ben Winters) 说，他是该项目关于生成性人工智能危害的报告的合著者。

这意味着，在您以及网站被抓取的几家公司不知情的情况下，某些初创公司可能正在获取并使用您的数据来支持您不知道的技术。这些数据可能在这些公司存在之前几年就已经发布在互联网上。它可能根本不是您发布的。或者您可能认为您向公司提供您的数据是出于您认为满意的一个目的，但现在您担心它被用于其他目的。许多公司的隐私政策不断更新和变化的内容可能会让他们做到这一点。他们经常谈论如何使用您的数据来改进现有产品或开发新产品。可以想象，这包括生成式人工智能系统。

无济于事的是，生成式人工智能公司在披露其数据来源时非常谨慎，通常只是简单地说它们是“公开的”。甚至Meta的第一个 LLaMA 模型的更详细的来源列表也提到了“ Common Crawl ”之类的东西，它是整个互联网的开源档案，以及 Github、Wikipedia 和 Stack Exchange 等网站，这些网站也是巨大的信息库。（Meta尚未透露用于刚刚发布的 Llama 2 的数据。）所有这些来源都可能包含个人信息。OpenAI承认它使用个人数据来训练其模型，但表示它“偶然”遇到了这些数据，并且只是使用它来使“我们的模型变得更好”，而不是建立人们的档案来向他们出售广告。

谷歌和 Meta 拥有大量个人用户数据，他们表示现在不使用它们来训练语言模型，但我们不能保证他们将来不会这样做，特别是如果这意味着获得竞争优势的话。我们知道，谷歌多年来一直扫描用户的电子邮件，以便定位广告（该公司表示不再这样做）。Meta在与第三方（包括剑桥分析公司）共享数据时遭遇重大丑闻，并被处以50 亿美元罚款，而剑桥分析公司后来滥用了这些数据。事实上，这些公司给了用户足够的理由，让他们不相信他们对数据隐私的保证或生产安全系统的承诺。

克拉克森说：“大型科技公司的自愿承诺需要一定程度的信任，但他们不值得，也没有赢得信任。”

版权、隐私法和“公开”数据

对于创作者（例如作家、音乐家和演员）来说，版权和肖像权是一个主要问题，原因很明显。生成式人工智能模型都经过了工作训练，未来可能会让他们失业。

这就是喜剧演员 Sarah Silverman在集体诉讼中起诉 OpenAI 和 Meta的原因。她声称，这两家公司通过使用包含她的书《The Bedwetter》中文本的数据集来训练她的书面作品。还有关于肖像权和开源计算机代码的使用的诉讼。

生成式人工智能的使用也是作家和演员罢工的原因之一，他们的工会WGA 和 SAG-AFTRA 担心工作室会根据艺术家的文字和图像训练人工智能模型并简单地生成新内容而不补偿人类最初的创造者。

但你，作为普通人，可能没有知识产权需要保护，或者至少你的生计可能不依赖于它。因此，您可能更多地担心 OpenAI 这样的公司在其系统收集、重新混合并吐出您的隐私时如何保护您的隐私。

监管机构、立法者和律师也对此感到好奇。隐私法比美国更严格的意大利甚至因隐私问题而暂时禁止 ChatGPT。其他欧洲国家正在考虑对 ChatGPT 进行自己的调查。美国联邦贸易委员会也将目光瞄准了 OpenAI，调查其是否可能违反消费者保护法。该机构还明确表示将密切关注生成式人工智能工具。

但联邦贸易委员会只能执行法律允许的范围。拜登总统鼓励国会通过人工智能相关法案，许多国会议员表示他们也想这样做。然而，国会行动缓慢是出了名的，在监管或保护消费者免受社交媒体平台影响方面几乎没有采取任何措施。立法者可能会从中吸取教训，并在人工智能方面更快地采取行动，否则他们可能会重蹈覆辙。事实上，在生成人工智能向公众介绍后不久，人们就有兴趣做一些事情，这是有希望的。

Winters 表示：“人们提出立法并表示想要针对 [AI] 采取行动的速度比解决其他问题快了 900 万倍。”

但也很难想象国会会对数据隐私采取行动。美国没有联邦消费者在线隐私法。13 岁以下的儿童确实得到了一些隐私保护，通过了自己的隐私法的州的居民也是如此。某些类型的数据也受到保护。这使得全国许多成年人几乎没有什么数据隐私权。

我们可能会通过法庭来弄清楚生成式人工智能如何符合我们已有的法律，这就是像克拉克森这样的人发挥作用的地方。

“这是通过这些诉讼让人们听到自己声音的机会，”他说。“我认为他们会要求就其中一些问题采取行动，而到目前为止我们还没有通过其他渠道取得太大进展。透明度、选择退出的能力、补偿、数据的道德来源——诸如此类。”

在某些情况下，克拉克森和克拉克森律师事务所的合伙人蒂姆·乔达诺（Tim Giordano）也正在处理这些案件，他们表示，现有法律没有明确涵盖人们使用生成人工智能的权利，但法官可以解释并适用于这些权利。在其他情况下，比如加州的隐私法，要求共享或出售人们数据的公司为他们提供选择退出和删除其信息的方式。

“目前这些模特无法删除他们了解到的有关我们的个人信息，因此我们认为这是侵犯隐私的明显例子，”佐丹奴说。

例如，ChatGPT 的选择退出和数据删除工具仅适用于使用 ChatGPT 服务的人收集的数据。它确实有办法让“某些司法管辖区”的人们现在选择不让 OpenAI 的模型处理他们的数据，但它也不能保证它会这样做，并且它要求您提供证据证明您的数据是在该司法管辖区处理的。第一名。

尽管 OpenAI最近改变了政策，并停止使用其客户提供的数据来训练模型，但另一组隐私问题却出现了，这些模型如何使用您在使用它们时提供的数据以及它们释放到野外的信息。OpenAI 首席执行官 Sam Altman 向 CNBC 表示：“客户显然希望我们不要训练他们的数据。”这表明人们对他们的数据被用来训练人工智能系统感到不满意，尽管只有一些人有机会选择脱离它，并且在有限的情况下。与此同时，OpenAI因 ChatGPT 的回应而被起诉诽谤，该回应谎称有人诈骗并窃取了非营利组织的资金。这不是唯一一次ChatGPT 响应对某人提出了虚假指控。

那么您目前可以对此做些什么呢？这就是这里的棘手之处。现在的许多隐私问题都是由于过去未能通过真正、有意义的隐私法造成的，这些法律本可以在这些数据集和技术存在之前保护您的数据。您始终可以尝试最大程度地减少现在发布的数据，但对于已经被抓取和使用的数据却无能为力。你需要一台时间机器来实现这一点，但即使是生成式人工智能也还无法发明时间机器。