《纽约时报》版权案新进展：法院勒令OpenAI提交2000万条ChatGPT对话记录

一名联邦地方法官已下令 OpenAI 向《纽约时报》及其他原告提供约两千万条经去标识化的 ChatGPT 对话记录。这一裁决使得这家 AI 开发公司在版权与数据治理争议中面临更严峻的挑战。

周三于纽约签发的该项命令，驳回了 OpenAI 拒绝提交用户聊天记录的申请，并要求该公司在保护框架下移交相关数据。此判决或将影响 OpenAI、Anthropic、Perplexity 等科技企业获取训练数据、内容授权及设定系统输出规则的运作模式。

美国地方法官 Ona T. Wang 在裁决书中指出，尽管法庭认可 OpenAI 对用户隐私的考量具有诚意，但隐私因素仅是比例分析中的一环。当证据具有明确相关性且调取负担较小时，隐私考量不应成为主导因素。

该命令源于《纽约时报》对 OpenAI 提起的诉讼。该报指控其新闻内容在未获授权的情况下被用于训练 AI 模型，案件最初于 2023 年 12 月提出。2024 年 1 月，OpenAI 反驳指控并提起反诉，称对方未能呈现完整事实。

法庭认定，调取两千万条聊天记录样本符合案件调查需求，有助于评估 ChatGPT 输出内容是否抄袭《纽约时报》受版权保护材料。过去一年间，双方争议持续升级：原告方要求广泛获取输出数据，OpenAI 则警告称过度披露将引发隐私与运营风险。

今年 6 月，法院要求 OpenAI 为诉讼保全大量 ChatGPT 用户数据，包括用户可能已删除的对话记录。至 10 月，针对两千万条日志样本的争议再度激化，法庭要求双方就分歧点提交说明文件。上月月底，OpenAI 正式提请地区法院推翻地方法官的证据开示命令，主张该裁决存在明显错误且比例失衡。

此次争议折射出全球范围内对 AI 实验室的合规性质疑。目前欧美多地法院正陆续审理类似案件，作家、新闻机构、音乐出版商与代码库纷纷通过司法途径探索现有著作权法在 AI 训练数据使用边界中的适用尺度。