7月17日消息,據媒體報道,包括NVIDIA、蘋果、Salesforce和Anthropic在內的多家科技巨頭,被曝光涉嫌違規使用數據,用于訓練其AI模型。
這些公司被發現使用了超過173536個YouTube視頻的字幕數據,而這些數據的獲取并未得到視頻創作者的許可。
這些公司所使用的數據集名為“YouTube Subtitles”,由非營利組織EleutherAI創建,該數據集包含了來自超過48000個頻道的視頻文本。
其中不乏知名教育機構和媒體公司的內容,例如可汗學院、麻省理工學院、哈佛大學等,此外,一些廣受歡迎的YouTube創作者,如MrBeast等的視頻也被包括在內。
此前,EleutherAI發布了名為“Pile”的數據匯編,其中的大部分數據集都是對公眾開放的,包括YouTube Subtitles。
不過值得注意的是,蘋果在使用Pile數據集訓練OpenELM模型時,并未直接下載數據,因此在技術層面上,是EleutherAI違反了YouTube的使用條款。
YouTube明確禁止未經授權從平臺獲取素材,同時這些數據不僅用于訓練AI,還可能涉及到版權和隱私問題。
創作者們也對此表示震驚和不滿,因為他們并未被告知自己的作品被用于商業目的,更遑論從中獲得任何補償。
本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。