DeepSeek erschüttert Silicon Valley

Ein Durchbruch des chinesischen KI-Start-ups folgt einem immer wieder beobachteten Muster.

Für die Links auf dieser Seite können wir eine Provision verdienen.
Bild für Artikel mit dem Titel DeepSeek erschüttert Silicon Valley
Illustration: Anthony Kwan (Getty Images)

Kurz nach der Veröffentlichung von ChatGPT wurde eine E-Mail von Google sagte was viele dachten, aber nur wenige laut auszusprechen wagten: „Wir haben keinen Burggraben. Und OpenAI auch nicht.“ Das Memo vom Mai 2023 argumentierte, dass Unternehmen nie für generative KI zahlen würden, wenn es Open-Source-Optionen gäbe – und diese Modelle oft ohnehin besser seien. Im selben Monat gründete am anderen Ende der Welt ein Unternehmer namens Liang Wenfeng in aller Stille DeepSeek in China.

Werbung

Anderthalb Jahre später erwies sich DeepSeek als prophetisch für Google. enthüllte sein V3-Modell letzten Dezember, für das das Unternehmen angaben hat, es für nur 5,6 Millionen Dollar unter Verwendung minderwertiger Chips zu trainieren – weniger als 6 Prozent der Trainingskosten von GPT-4 – schickte es Schockwellen durch die Branche. Letzte Woche stellte das Unternehmen dann R1 vor, ein neues Argumentationsmodell, das komplexe Probleme Schritt für Schritt durchdenken kann und den Fähigkeiten der spezialisierten Argumentationssysteme von OpenAI entspricht.

Diese Durchbrüche schickten Amerikanische Technologieaktien am Montag im freien Fall und enthüllte eine unangenehme Wahrheit: Möglicherweise gibt es in der KI überhaupt keine Schutzgräben. Die technologischen Barrieren, die die amerikanische KI-Dominanz schützen sollten, von hochmodernen Chips bis zu riesigen Rechenzentren, sind eher eine Fata Morgana als eine Festung. Während diese Modelle für Unternehmen, die auf proprietäre Vorteile setzen oder auf riesige Finanzierungsrunden suchen, Probleme bedeuten könnten, könnte DeepSeek eine neue Ära effizienterer und zugänglicherer KI-Entwicklung einläuten.

Werbung

Nicht nur Unternehmen, die generative KI entwickeln, wurden getroffen. Auch für Anleger, die Nvidia als die perfekte „Spitzhacke und Schaufel“-Lösung für einen unsicheren KI-Goldrausch betrachteten, war die Enthüllung von DeepSeek verheerend. Die Aktie des Unternehmens stürzte am Montag ab. fast 600 Milliarden Dollar verloren im größten Eintagesverlust des Marktwerts der Geschichte. Es stellt sich heraus, dass es nicht nur kein Schutzgraben für Software gibt, wie Google gewarnt hatte, sondern möglicherweise auch keinen für Hardware. Das ist erschütternd für ein Unternehmen, dessen steil steigende Bewertung auf der Idee beruhte, dass der Appetit der KI auf hochmodernes Silizium nur noch wachsen würde.

Werbung

Der Durchbruch von DeepSeek gelang durch das Trainieren seines Modells auf rund 2.000 H800-GPUs von Nvidia – Chips, die speziell mit reduzierten Fähigkeiten entwickelt wurden, um den US-Exportkontrollen nach China zu entsprechen. Dabei handelt es sich um die behinderten Cousins der begehrten H100, die amerikanische Unternehmen verwenden. Diese sind mit einer absichtlich begrenzten Chip-zu-Chip-Kommunikationsgeschwindigkeit ausgestattet, die sie für das Trainieren fortgeschrittener KI-Modelle ungeeignet machen sollte. Trotz dieser Einschränkungen gelang es DeepSeek jedoch, ein wettbewerbsfähiges Modell zu entwickeln.

Werbung

Das erweiterte Chip-Sanktionen Die von der Biden-Regierung verhängten Maßnahmen sollten genau dieses Szenario verhindern. Aber anstatt Chinas KI-Fähigkeiten zu schwächen, scheint das Embargo der Katalysator gewesen zu sein. DeepSeek war gezwungen, auf eine Art Innovation zu entwickeln, die heute die grundlegenden Annahmen des Silicon Valley in frage stellt, obwohl sein Gründer Wennenfeng eingeräumt hat, dass der Mangel an High-End-Chips weiterhin ein Engpass darstellt. laut dem Wall Street Journal.

Die Auswirkungen auf den Chip gehen über die bloßen Trainingskosten hinaus. Wenn Unternehmen effizientere Wege finden, KI-Modelle zu trainieren, wirken sich diese Effizienzgewinne häufig auf die Art und Weise aus, wie die Modelle im täglichen Gebrauch ausgeführt werden – was in der Branche als Inferenz bezeichnet wird. DeepSeek verlangt 2,19 US-Dollar pro Million Ausgabe-Token, im Vergleich zu 15 US-Dollar für das neueste Modell von OpenAI. Das ist nicht die Art von geringem Effizienzgewinn, den man einfach abtun kann – es ist ein Unterschied von sieben, der die Wirtschaftlichkeit des KI-Einsatzes zu verändern droht.

Werbung

Einige Technologieführer stellen in Frage ob das was DeepSeek getan hat, mit dem angegebenen Budget und der Chipversorgung wirklich möglich war. Meta hat angeblich eingerichtet “Kriegsräume“ zum Untersuchen diese Modelle. Microsoft ist untersuchen, ob DeepSeek hatte Zugriff auf OpenAI-Technologie, die hinter einigen seiner Fähigkeiten stecken könnte.

Sollten sich die Behauptungen von DeepSeek bewahrheiten, wird dies die Kalkulation für den rasanten Ausbau von Rechenzentren in ganz Amerika ändern, einschließlich der 500 Millionen Dollar Stargate-Projekt letzte Woche im Weißen Haus angekündigt. All diese riesigen Einrichtungen erschienen dringend aufgrund der astronomischen Kosten für das Training amerikanischer Modelle: OpenAI CEO Sam Altman sagte GPT-4 Kosten „mehr als“ 100 Millionen Dollar zu trainieren, und Anthropic CEO Dario Amodei sagte voraus, dass wir ein 10-Milliarden-Dollar-Modell dieses Jahr.

Werbung

Wenn sie jedoch zu einem Bruchteil dieser Kosten auf weniger leistungsstarker Hardware trainiert werden können, könnte die Eile beim Bau eher wie eine kostspielige Überreaktion aussehen. Einige, wie Metas leitender KI-Wissenschaftler Yann LeCunn, argumentieren, dass wir diese Infrastruktur weiterhin brauchen werden um KI-Dienste in großem Maßstab auszuführen. Aber die Durchbrüche von DeepSeek deuten darauf hin, dass sowohl bei der Schulung als auch bei der Bereitstellung noch erhebliche Effizienzsteigerungen zu erzielen sind, worüber Forscher begeistert sein können.

Es ist ein Muster, das man immer wieder sieht.

So wie die Kosten für Computerverarbeitung seit den ersten Großrechnern stark gesunken sind – Smartphones verfügen heute über mehr Rechenleistung als die Maschinen, mit denen Astronauten zum Mond geschickt wurden –, gab es immer Grund zur Annahme, dass der enorme Energiebedarf der KI sinken würde. Die ersten Iterationen jeder Technologie sind selten effizient, und die Rechnung für generative KI war immer fällig: Unternehmen müssen irgendwann anfangen, Geld zu verdienen, und das ist beim derzeitigen Energieverbrauch wahrscheinlich unmöglich.

Werbung

Oder, wie Brian Cahn von Sequoia Capital es ausdrückte: Es gibt eine 600-Milliarden-Dollar-Frage (der gegenüber seiner ursprünglichen Schätzung von 200 Milliarden Dollar im letzten Sommer einen enormen Anstieg verzeichnete, da die Investitionen in KI weiter stiegen, die Einnahmen jedoch weiterhin ausblieben) – die Lücke zwischen dem, was Technologieunternehmen für KI ausgeben und dem, was sie damit verdienen.

Der Durchbruch von DeepSeek könnte dazu beitragen, diese Lücke zu schließen. Da es sich um Open Source handelt, hindert nichts amerikanische Technologieunternehmen daran, diese Effizienztechniken selbst zu übernehmen. Ihre eigenen Trainings- und Inferenzkosten könnten drastisch sinken. Und obwohl billigere KI für Technologiegiganten wie eine schlechte Nachricht erscheinen mag, sieht Satya Nadella dies anders. „Jevons-Paradoxon schlägt wieder zu! Microsofts CEO gepostet am X„Da KI immer effizienter und zugänglicher wird, wird ihre Nutzung rasant ansteigen und zu einer Ware werden, von der wir einfach nicht genug bekommen können.“

Werbung

Die Open-Source-Enthüllung markiert möglicherweise mehr als nur einen technischen Wendepunkt. Die Geschichte der KI hat gezeigt, dass die größten Durchbrüche häufig von Forschern erzielt werden, die offen auf der Arbeit der anderen aufbauen – von der Entwicklung neuronaler Netzwerke bis hin zur Transformatorarchitektur, die die heutige KI antreibt.

Es könnte das umkehren, was der Google-Forscher François Chollet als die größte Auswirkung von OpenAI bezeichnete: eine Rückstufung der künstlichen allgemeinen Intelligenz.“5 bis 10 Jahre„Als sie aufhörte , ihre Forschungsergebnisse zu veröffentlichen, was zu einem geringen Austausch auf dem Gebiet führte, um ihren Vorsprung zu schützen.

Werbung

Dieser Burggraben war nie da.

Doch der Glaube daran hat die KI möglicherweise stärker zurückgehalten als jede technische Einschränkung es jemals getan hat.

Werbung

—Jackie Snow, beitragende Redakteurin

Dieser Inhalt wurde maschinell aus dem Originalmaterial übersetzt. Aufgrund der Nuancen der automatisierten Übersetzung können geringfügige Unterschiede bestehen. Für die Originalversion klicken Sie hier

Werbung