Apple, Nvidia und andere Technologieunternehmen trainierten KI mit Tausenden von YouTube-Videos

Technologieunternehmen haben Berichten zufolge Untertitel aus über 170.000 YouTube-Videos ohne Erlaubnis verwendet

Für die Links auf dieser Seite können wir eine Provision verdienen.
Nahaufnahme des YouTube-Logos auf einer weißen Flagge
Foto: SYSPEO/SIPA (AP)

Angesichts des Booms der generativen künstlichen Intelligenz suchen Technologieunternehmen nach Trainingsdaten, um ihre Modelle zu verbessern – und manche nehmen diese ohne Erlaubnis.

Werbung

Apple, Nvidia und Anthropic gehören zu den Technologieunternehmen, die trainierte KI-Modelle mit Untertiteln aus Zehntausenden von YouTube-Videos trotz der Plattform Regeln gegen das Herunterladen und Verwenden von Inhalten ohne Erlaubnis, laut einer Untersuchung von Proof News, die gemeinsam mit Wired veröffentlicht wurde.

Die Untersuchung ergab, dass die Unternehmen einen Datensatz namens „YouTube Subtitles“ verwendeten, der Transkripte von 173.536 YouTube-Videos aus über 48.000 Kanälen enthielt. Die Videos im Datensatz reichen von Bildungskanälen wie Khan Academy und MIT über Nachrichtenseiten wie The Wall Street Journal bis hin zu einigen der Top-Entwickler der Plattform wie MrBeast und Marques Brownlee.

Werbung

„Apple hat Daten für seine KI von mehreren Unternehmen bezogen“, schrieb Brownlee in einem posten auf X zur Untersuchung kommentierte. „Einer von ihnen hat Tonnen von Daten/Transkripten aus YouTube-Videos gekratzt, darunter auch von meinem.“

Werbung

Brownlee fügte hinzu, dass „Apple hier technisch gesehen kein ‚Verschulden‘ zu vertreten hat, da sie nicht diejenigen sind, die die Daten löschen“, dass sich dieses Problem jedoch „über lange Zeit entwickeln wird“.

Werbung

Proof News auch erstellt ein Werkzeug damit Ersteller im Datensatz, der eine Handvoll Videos von Quartz enthielt, nach ihren Inhalten suchen können. Der YouTube-Untertitel-Datensatz enthält keine Bilder aus Videos, aber einige übersetzte Untertitel in Sprachen wie Deutsch und Arabisch.

Der Datensatz wurde von Eleuther AI erstellt, einem „gemeinnützigen KI-Forschungslabor“, das konzentriert sich auf „Förderung der Normen offener Wissenschaft“ und ist laut Proof News Teil einer Zusammenstellung von Materialien anderer Quellen, darunter dem Europäischen Parlament und der englischsprachigen Wikipedia, die die gemeinnützige Organisation „Pile“ nennt.

Werbung

„Der im Forschungspapier erwähnte Pile-Datensatz wurde 2021 für akademische und Forschungszwecke trainiert“, sagte ein Sprecher von Salesforce, einem der in der Untersuchung wegen der Verwendung des Datensatzes genannten Unternehmen, in einer mit Quartz geteilten Erklärung. „Der Datensatz war öffentlich verfügbar und wurde unter einer freizügigen Lizenz veröffentlicht.“

Weder Apple, Nvidia noch Anthropic haben sofort auf eine Bitte um einen Kommentar geantwortet.

Werbung

Im April sagte YouTube-Chef Neal Mohan: gegenüber Bloomberg dass Unternehmen die Nutzung von YouTube-Videos einschließlich Transkripten oder Video-Fragmenten zum Training von KI-Modellen wie OpenAIs Text-zu-Video-Generator Sora verwenden, ein „klarer Verstoß“ gegen die Richtlinien der Plattform darstellen würde. Die New York Times berichtete jedoch einige Tage später, dass OpenAI über eine Million Stunden YouTube-Videos transkribiert um sein GPT-4-Modell zu trainieren.

Dieser Inhalt wurde maschinell aus dem Originalmaterial übersetzt. Aufgrund der Nuancen der automatisierten Übersetzung können geringfügige Unterschiede bestehen. Für die Originalversion klicken Sie hier

Werbung