OpenAI hat möglicherweise gegen die YouTube-Regeln verstoßen, indem es ChatGPT mit 1 Million Stunden Video trainiert hat

OpenAI und andere Technologieunternehmen haben Schwierigkeiten, genügend Daten zu sammeln, um riesige KI-Modelle zu trainieren

Von Maxwell Zeff2 Min. LesezeitAktualisiert 8. April 2024

Add QZ to Google

OpenAI hat Berichten zufolge mehr als eine Million Stunden YouTube-Videos transkribiert, um GPT-4 zu trainieren. Die New York Times am Samstag. Der Bericht kommt nur Tage nachdem YouTube-CEO Neal Mohan sagte das Transkript YouTube-Videos zum KI-Training wäre ein “klarer Verstoß“ seiner Politik in einem Bloomberg-Interview.

„Wenn ein Urheber seine harte Arbeit auf unsere Plattform hochlädt, hat er bestimmte Erwartungen. Eine dieser Erwartungen ist, dass die Nutzungsbedingungen eingehalten werden“, sagte Mohan in einem Interview mit Bloomberg. letzte Woche„Aber es erlaubt nicht das Herunterladen von Dingen wie Transkripten oder Videoausschnitten.“

Der Bericht der New York Times behauptet, dass Mitglieder des OpenAI-Teams, darunter Präsident Greg Brockman, Quellen zufolge persönlich dabei geholfen hätten, die YouTube-Videos zu sammeln. Der Artikel beschreibt ausführlich, wie OpenAI und viele Technologieunternehmen Schwierigkeiten haben, genügend Daten zu sammeln, um riesige KI-Modelle zu trainieren. OpenAI hat angeblich Whisper, seine KI-Transkriptionssoftware, verwendet, um mehr Daten zu sammeln und GPT-4 zu trainieren, das neueste und beste Modell, das ChatGPT zugrunde liegt.

OpenAI und Google $GOOGL antworteten nicht sofort auf die Anfragen von Gizmodo um einen Kommentar.

Der Bericht der New York Times könnte massive Auswirkungen auf den anhaltenden Kampf von OpenAI und Google an der Spitze der Entwicklung generativer KI haben. Es ist unwahrscheinlich, dass Google tatenlos zusieht, wenn OpenAI seine Inhalte nutzt, um ChatGPT noch besser zu machen. Das Unternehmen hat jedoch bisher keine derartigen Vorwürfe erhoben. In einer Erklärung gegenüber TheVerge An diesem Wochenende sagte ein Google-Sprecher lediglich, er habe „unbestätigte Berichte“ über das Training von OpenAI gesehen.

YouTube Servicebedingungen verbietet jedem Benutzer das Herunterladen seiner Inhalte, einschließlich der Verwendung von Botnets oder Scrapern, es sei der entsprechenden Genehmigung des Unternehmens. YouTube untersagt auch die Verwendung seiner Inhalte für jede „unabhängige“ Nutzung seines Dienstes.

Mira Murati, Chief Technology Officer von OpenAI, sagte: „nicht sicher„ob YouTube-Videos verwendet wurden, um das Text-zu-Video-KI-Modell ihres Unternehmens zu trainieren Sora auf die Frage von Das Wall Street Journal im März. Der Bericht der New York Times erwähnt nichts über Sora oder die eigentlichen YouTube-Teile selbst. Ihr Zögern bei der Beantwortung dieser Frage führt jedoch direkt zu größeren Spekulationen.

Die New York Times selbst ist in ein Urheberrechtsstreit mit OpenAI im Moment. OpenAI und Meta $META werden auch von einer Reihe von Autoren und Content-Häusern verklagt, weil sie ihre KI an urheberrechtlich geschützten Werken trainieren.

Sollten diese Berichte stimmen, könnte dies völlig neue Fragen zum Urheberrecht in der KI-Welt aufwerfen. Die meisten Urheberrechtsbeschwerden im KI-Bereich wurden von kleinen Verlagen vorgebracht, aber Google könnte diesem Kampf echtes Gewicht verleihen, wenn es sich zur Teilnahme entschließt. Darüber hinaus wäre dies eine Möglichkeit für Google, OpenAI auszubremsen, das derzeit zweifellos das KI-Rennen gewinnt.

Die wichtigsten Wirtschaftsnachrichten, jeden Morgen frisch geliefert.

Schließen Sie sich über 500.000 Lesern an, die ihren Tag mit Quartz beginnen.

Mit dem Abonnieren stimmen Sie unseren Nutzungsbedingungen und unserer Datenschutzrichtlinie zu.