
【解析快讯】苹果、英伟达等企业涉足AI训练,利用5.7GB数据集,涵盖4.8万频道、17.4万视频字幕,资源来源引发争议
【原文大意】
来源:网上搜集
文章主要报道了非营利性新闻工作室 ProofNews 的一项发现,即包括苹果、英伟达、Salesforce 和 Anthropic 在内的大型科技公司在训练其 AI 模型时,使用了来自 YouTube 的视频资源。这些公司利用了一个名为 YouTube Subtitles 的数据集,该数据集由 EleutherAI 创建,包含超过 48000 个频道的 173536 个 YouTube 视频字幕内容,总大小为 5.7GB,涵盖了 4.89 亿个单词。值得注意的是,这个数据集还包括了 12000 多个已被 YouTube 删除的视频的字幕内容。YouTube Subtitles 数据集是“The Pile”数据集的一部分,后者包含多个训练数据集,并且对拥有足够空间和计算能力的人开放。这一发现揭示了大型科技公司在 AI 模型训练中对公开可用数据资源的依赖。
【分析结果】
-
数据使用与版权问题: 新闻中提到的大型科技公司如苹果、英伟达等在训练AI模型时使用了YouTube Subtitles数据集,这涉及到版权和数据使用的合法性问题。尽管该数据集由EleutherAI创建并发布,但其中包含了大量YouTube视频的字幕,这些字幕可能受到版权保护。因此,这些公司在使用这些数据时需要确保遵守相关的版权法规,否则可能会面临法律风险。
-
数据集的多样性与偏见问题: YouTube Subtitles数据集主要采集自热门YouTube频道的资源,这意味着该数据集可能存在偏见,因为它可能未能充分代表所有类型的内容和观点。AI模型在训练时如果只使用这样的数据集,可能会导致模型在处理某些类型的数据或情境时表现不佳,甚至可能放大现有的偏见。因此,这些公司在使用该数据集时需要考虑如何平衡数据的多样性,以减少潜在的偏见。
-
数据集的可用性与伦理问题: 新闻中提到,“The Pile”数据集对任何有足够空间和计算能力的人开放。这种开放性虽然促进了数据的共享和AI技术的发展,但也带来了伦理问题。例如,这些数据可能被用于不当目的,如侵犯隐私或进行恶意行为。此外,数据集中包含的已删除视频的字幕内容也可能涉及到隐私或敏感信息。因此,数据集的提供者和使用者都需要在确保数据安全和伦理合规的前提下进行操作。
------本页内容已结束,喜欢请分享------
感谢您的来访,获取更多精彩文章请收藏本站。


-
TOP1
【解析快讯】行走速度提升30%,特斯拉二代人形机器人Optimus亮相WAIC
-
TOP2
【解析快讯】三星电子盈利表现超越市场预期,人工智能风潮助力半导体业务蓬勃发展
-
TOP3
【解析快讯】阿里巴巴发布国内首款专为孤独症儿童设计的AI绘本创作工具
-
TOP4
【解析快讯】三夫户外:拟打造人工智能智慧露营基地
-
TOP5
【解析快讯】国泰君安宣布,其子公司计划参与组建上海三大前沿产业母基金,包括集成电路产业母基金和人工智能产业母基金。
-
TOP6
【解析快讯】吴欣鸿在美图公司强调:AI工作流程正逐渐成为推动生产力革新的关键动力。
-
TOP7
【解析快讯】上海计划至2027年,培育并吸引至少10家在低空经济领域具有领导地位的研发与制造企业进驻。
-
TOP8
【解析快讯】上海初批“自动驾驶”出租车即将投入运营
-
TOP9
【解析快讯】天文学领域不适宜采用通用人工智能——“慧眼”卫星首席科学家张双南的观点
-
TOP10
【解析快讯】在WAIC2024的落幕典礼中,上海市成功签署了多个人工智能领域的关键项目协议。