【AI快讯分析】NVIDIA涉嫌未经授权从YouTube与Netflix采集视频以供AI培训使用
英伟达AI训练,版权内容收集,YouTube视频素材,数字人类产品,自动驾驶系统 2024-08-06
IT之家7月17日消息,非营利性新闻工作室ProofNews在7月16日发布的博文中指出,苹果、英伟达、Salesforce和Anthropic等大型科技公司在训练其AI模型时,使用了来自YouTube的视频资源。这些公司采用了名为YouTube Subtitles的数据集,该数据集由EleutherAI创建,于2020年发布,大小为5.7GB,包含4.89亿个单词,涉及超过48000个频道的173536个YouTube视频字幕,其中包括12000多个已删除视频的字幕。YouTube Subtitles数据集主要采集自热门YouTube频道,并隶属于名为“The Pile”的数据集,该数据集还包括其他几个训练数据集,并且对具备足够空间和计算能力的人开放。这一发现揭示了大型科技公司在AI模型训练中对公开视频资源的依赖。
综上所述,这一新闻内容不仅涉及技术层面的数据使用和创新,还触及了版权、隐私、透明度和社会责任等多个重要议题,这些都是当前AI技术发展中不可忽视的关键问题。
评论记录: