涉17万个视频,英伟达等巨头被曝违规使用YouTube数据训练模型

2024-07-17 14:07:36 来源: 同花顺7x24快讯

  科技巨头被曝使用未经授权的YouTube内容训练AI(人工智能)模型。当地时间7月16日,据外媒报道,包括苹果、英伟达、Salesforce和Anthrophic在内的一些大型科技公司,被曝在训练AI模型时使用了来自谷歌旗下视频网站YouTube的未授权数据。这些公司使用了一个由第三方提供的数据集,其中包含从YouTube上抓取的大量视频字幕文本,违反了YouTube禁止从平台上未经许可抓取内容的规定。报道指出,这些科技公司在训练AI模型时都使用了一个名为“YouTube Subtitles(YouTube字幕)”的数据集,大小为5.7GB,包含4.89亿个单词,来自Youtube上超过4.8万个频道中的17.35万个视频。该数据集由视频字幕的纯文本组成,包括视频博主上传的部分和Youtube自动转录的文本,除了英语外,通常还附带日语、德语和阿拉伯语等语言的翻译。(澎湃新闻)

关注同花顺财经(ths518),获取更多机会

0

+1
  • 天源迪科
  • 凯盛科技
  • 深圳华强
  • 科森科技
  • 南都电源
  • 伟时电子
  • 新亚制程
  • 拓维信息
  • 代码|股票名称 最新 涨跌幅