OpenAI hat Berichten zufolge mehr als eine Million Stunden YouTube-Videos transkribiert, um GPT-4 zu trainieren. Die New York Times am Samstag. Der Bericht kommt nur Tage nachdem YouTube-CEO Neal Mohan sagte das Transkript YouTube-Videos zum KI-Training wäre ein “klarer Verstoß“ seiner Politik in einem Bloomberg-Interview.
„Wenn ein Urheber seine harte Arbeit auf unsere Plattform hochlädt, hat er bestimmte Erwartungen. Eine dieser Erwartungen ist, dass die Nutzungsbedingungen eingehalten werden“, sagte Mohan in einem Interview mit Bloomberg. letzte Woche„Aber es erlaubt nicht das Herunterladen von Dingen wie Transkripten oder Videoausschnitten.“
Der Bericht der New York Times behauptet, dass Mitglieder des OpenAI-Teams, darunter Präsident Greg Brockman, Quellen zufolge persönlich dabei geholfen hätten, die YouTube-Videos zu sammeln. Der Artikel beschreibt ausführlich, wie OpenAI und viele Technologieunternehmen Schwierigkeiten haben, genügend Daten zu sammeln, um riesige KI-Modelle zu trainieren. OpenAI hat angeblich Whisper, seine KI-Transkriptionssoftware, verwendet, um mehr Daten zu sammeln und GPT-4 zu trainieren, das neueste und beste Modell, das ChatGPT zugrunde liegt.
OpenAI und Google antworteten nicht sofort auf die Anfragen von Gizmodo um einen Kommentar.
Der Bericht der New York Times könnte massive Auswirkungen auf den anhaltenden Kampf von OpenAI und Google an der Spitze der Entwicklung generativer KI haben. Es ist unwahrscheinlich, dass Google tatenlos zusieht, wenn OpenAI seine Inhalte nutzt, um ChatGPT noch besser zu machen. Das Unternehmen hat jedoch bisher keine derartigen Vorwürfe erhoben. In einer Erklärung gegenüber TheVerge An diesem Wochenende sagte ein Google-Sprecher lediglich, er habe „unbestätigte Berichte“ über das Training von OpenAI gesehen.
YouTube Servicebedingungen verbietet jedem Benutzer das Herunterladen seiner Inhalte, einschließlich der Verwendung von Botnets oder Scrapern, es sei der entsprechenden Genehmigung des Unternehmens. YouTube untersagt auch die Verwendung seiner Inhalte für jede „unabhängige“ Nutzung seines Dienstes.
Mira Murati, Chief Technology Officer von OpenAI, sagte: „nicht sicher„ob YouTube-Videos verwendet wurden, um das Text-zu-Video-KI-Modell ihres Unternehmens zu trainieren Sora auf die Frage von Das Wall Street Journal im März. Der Bericht der New York Times erwähnt nichts über Sora oder die eigentlichen YouTube-Teile selbst. Ihr Zögern bei der Beantwortung dieser Frage führt jedoch direkt zu größeren Spekulationen.
Die New York Times selbst ist in ein Urheberrechtsstreit mit OpenAI im Moment. OpenAI und Meta werden auch von einer Reihe von Autoren und Content-Häusern verklagt, weil sie ihre KI an urheberrechtlich geschützten Werken trainieren.
Sollten diese Berichte stimmen, könnte dies völlig neue Fragen zum Urheberrecht in der KI-Welt aufwerfen. Die meisten Urheberrechtsbeschwerden im KI-Bereich wurden von kleinen Verlagen vorgebracht, aber Google könnte diesem Kampf echtes Gewicht verleihen, wenn es sich zur Teilnahme entschließt. Darüber hinaus wäre dies eine Möglichkeit für Google, OpenAI auszubremsen, das derzeit zweifellos das KI-Rennen gewinnt.
Eine Version dieses Artikels erschien ursprünglich auf Gizmodo.
Dieser Inhalt wurde maschinell aus dem Originalmaterial übersetzt. Aufgrund der Nuancen der automatisierten Übersetzung können geringfügige Unterschiede bestehen. Für die Originalversion klicken Sie hier