香港奇点财经3月19日报道。OpenAI首席技术官Mira Murati在接受《华尔街日报》采访时,对即将推出的视频生成人工智能模型Sora的训练数据来源问题给出了模棱两可的答复。在人工智能领域,模型的训练离不开庞大的数据集,这些数据集对于模型学习识别模式、进行预测或理解语言至关重要。
上周,当被问及Sora模型的数据来源时,Murati并未直接回应,而是含糊地表示:“我们使用了公开数据和授权数据。”进一步追问Sora是否利用YouTube、Instagram或Facebook等社交媒体平台的数据进行训练时,Murati则显得尤为谨慎,她回答:“我不太确定,如果这些数据是公开的,那么它们可能被使用,但我没有确切的信息。”
Murati自2018年起便加入OpenAI,领导了包括图像生成器模型DALL-E、语音识别工具Whisper以及最新版的聊天机器人GPT-4在内的多个热门项目。在2023年11月Sam Altman被OpenAI董事会罢免后,她还曾短暂担任公司的临时首席执行官。
随后,话题转向了OpenAI与图片库公司Shutterstock的合作关系。当被问及Shutterstock的数据是否用于训练Sora时,Murati虽然证实了Sora确实使用了Shutterstock的数据,但并未透露具体的使用情况,只是强调这些数据是公开或获得许可的。
在采访中,Murati似乎更倾向于采用保守的回应方式,她更倾向于强调数据的“公开可用”性质,以维护公司的商业利益。这种策略虽然可能在法律层面站得住脚,但在公众眼中却可能引发信任危机。
OpenAI在训练Sora模型时所使用的数据源问题无疑是一个敏感且复杂的话题。在涉及公开数据时,情况尤为复杂。这可能意味着Sora模型在训练过程中可能抓取了互联网上的大量“公开”内容,包括但不限于YouTube上的视频和社交媒体平台上的帖子,甚至是网民公开发表的文字、图片和视频,这些数据可能以某种方式被用于模型训练中。然而,需要注意的是,YouTube等平台的内容许可条款通常严格限制未经授权的使用。
对于受版权保护的内容更是如此。例如,一个电影预告片即使在YouTube上公开发布,也不意味着其他人可以随意在商业作品或博客中使用其中的片段,除非得到明确授权。但根据Murati的描述,OpenAI的Sora模型似乎能够访问这些内容用于学习目的,甚至可能间接从这些数据中获利。
值得一提的是,OpenAI过去曾因人工智能模型训练数据问题多次陷入法律纠纷。2023年7月,一些作家对该公司提起诉讼,指控ChatGPT根据受版权保护的内容生成了作者作品的摘要。同年12月,《纽约时报》也对微软和OpenAI提起类似版权侵权诉讼,指控这两家公司利用该报的内容训练人工智能聊天机器人。此外,还有一起集体诉讼在加利福尼亚州提起,指控OpenAI未经用户同意,从互联网上获取用户私人信息来训练ChatGPT。
对于OpenAI而言,如何在确保训练数据的合法性和合规性的同时,避免涉及法律纠纷,将是其未来面临的重要挑战。然而,从Murati的回应来看,OpenAI似乎并未给出明确的解决方案或回应。
发表回复