OpenAI回避Sora模型数据源问题

香港奇点财经3月19日报道。OpenAI首席技术官Mira Murati在接受《华尔街日报》采访时，对即将推出的视频生成人工智能模型Sora的训练数据来源问题给出了模棱两可的答复。在人工智能领域，模型的训练离不开庞大的数据集，这些数据集对于模型学习识别模式、进行预测或理解语言至关重要。

上周，当被问及Sora模型的数据来源时，Murati并未直接回应，而是含糊地表示：“我们使用了公开数据和授权数据。”进一步追问Sora是否利用YouTube、Instagram或Facebook等社交媒体平台的数据进行训练时，Murati则显得尤为谨慎，她回答：“我不太确定，如果这些数据是公开的，那么它们可能被使用，但我没有确切的信息。”

Murati自2018年起便加入OpenAI，领导了包括图像生成器模型DALL-E、语音识别工具Whisper以及最新版的聊天机器人GPT-4在内的多个热门项目。在2023年11月Sam Altman被OpenAI董事会罢免后，她还曾短暂担任公司的临时首席执行官。

随后，话题转向了OpenAI与图片库公司Shutterstock的合作关系。当被问及Shutterstock的数据是否用于训练Sora时，Murati虽然证实了Sora确实使用了Shutterstock的数据，但并未透露具体的使用情况，只是强调这些数据是公开或获得许可的。

在采访中，Murati似乎更倾向于采用保守的回应方式，她更倾向于强调数据的“公开可用”性质，以维护公司的商业利益。这种策略虽然可能在法律层面站得住脚，但在公众眼中却可能引发信任危机。

OpenAI在训练Sora模型时所使用的数据源问题无疑是一个敏感且复杂的话题。在涉及公开数据时，情况尤为复杂。这可能意味着Sora模型在训练过程中可能抓取了互联网上的大量“公开”内容，包括但不限于YouTube上的视频和社交媒体平台上的帖子，甚至是网民公开发表的文字、图片和视频，这些数据可能以某种方式被用于模型训练中。然而，需要注意的是，YouTube等平台的内容许可条款通常严格限制未经授权的使用。

对于受版权保护的内容更是如此。例如，一个电影预告片即使在YouTube上公开发布，也不意味着其他人可以随意在商业作品或博客中使用其中的片段，除非得到明确授权。但根据Murati的描述，OpenAI的Sora模型似乎能够访问这些内容用于学习目的，甚至可能间接从这些数据中获利。

值得一提的是，OpenAI过去曾因人工智能模型训练数据问题多次陷入法律纠纷。2023年7月，一些作家对该公司提起诉讼，指控ChatGPT根据受版权保护的内容生成了作者作品的摘要。同年12月，《纽约时报》也对微软和OpenAI提起类似版权侵权诉讼，指控这两家公司利用该报的内容训练人工智能聊天机器人。此外，还有一起集体诉讼在加利福尼亚州提起，指控OpenAI未经用户同意，从互联网上获取用户私人信息来训练ChatGPT。

对于OpenAI而言，如何在确保训练数据的合法性和合规性的同时，避免涉及法律纠纷，将是其未来面临的重要挑战。然而，从Murati的回应来看，OpenAI似乎并未给出明确的解决方案或回应。

发表回复 取消回复

发表回复取消回复