Ein von Nvidia unterstütztes Startup stellt KI-Avatare mit menschlichen Emotionen vor

Synthesia präsentierte die vierte Generation seiner „Expressive Avatars“, die je nach Kontext Emotionen wie Traurigkeit und Aufregung ausdrücken können.

Von Britney Nguyen2 Min. LesezeitAktualisiert 25. April 2024

Add QZ to Google

Ein von Nvidia $NVDA unterstütztes KI-Startup stellte seine nächste Generation von KI-Avataren vor, die Kontext aus Texteingaben verstehen und menschliche Emotionen ausdrücken, wie Glück, Traurigkeit und Aufregung.

Das in London ansässige Unternehmen Synthesia sagte, seine „Expressive Avatars“ der vierten Generation würden von einem Modell angetrieben, das darauf trainiert sei, „die komplexe Beziehung zwischen dem, was wir sagen, und der Art und Weise, wie wir es sagen, zu verstehen“. Die Avatare könnten Drehbüchern wie echte Schauspieler folgen, indem sie den richtigen Tonfall, die richtige Körpersprache und Lippensynchronisation verwenden, so das Unternehmen.

„Mit diesen neuen Avataren erstellen wir nicht nur digitale Renderings; wir führen digitale Akteure ein“, schrieb Synthesia in ein Blogbeitrag„Diese Technologie verleiht digitalen Avataren ein Maß an Raffinesse und Realismus, das die Grenze zwischen dem Virtuellen und dem Realen verschwimmen lässt.“ Angetrieben werden die Avatare vom EXPRESS-1-Modell von Synthesia, das darauf trainiert ist, Bewegungen (wie Blinzeln) und Gesichtsausdrücke (wie Lächeln) vorherzusagen, um sie an den Ton des Avatars anzupassen, was zu menschlicheren Interaktionen führt.

Das 2017 von einem Team aus KI-Forschern und Unternehmern gegründete Unternehmen konzentriert sich auf die Videoproduktion ohne Kameras, Mikrofone oder Studios. Die Avatare von Synthesia werden von Unternehmen zur Erstellung von Präsentationen und Schulungsvideos verwendet, heißt es.

Synthesia sagte, bestimmte Arten von Inhalten werden eingeschränkt werden, um Missbrauch durch bösgläubige Akteure zu verhindern – insbesondere im Zusammenhang mit den bevorstehenden US-Präsidentschaftswahlen. In einem anderen Blogbeitrag wies Synthesia darauf hin wie KI wurde verwendet verbreiten Fehlinformationen und Desinformation, und wie speziell seine Avatare verwendet werden können, um die Stimme und das Erscheinungsbild einer echten Person nachzuahmen.

Die 225 vorhandenen Avatare des Unternehmens wurden von über 200.000 Menschen verwendet, um mehr als 18 Millionen Videopräsentationen in über 130 Sprachen zu erstellen, heißt es. Synthesia dient auch über 55.000 Unternehmen weltweit, darunter die Hälfte der Fortune 100.

Im vergangenen Juni gab Synthesia bekannt, dass sie hat 90 Millionen Dollar in einer Finanzierungsrunde der Serie C eingesammelt, an der auch der Chip-Marktführer Nvidia beteiligt war. Die Runde, die zu einer Bewertung des Unternehmens von einer Milliarde US-Dollar führte, wurde von der Risikokapitalgesellschaft Accel angeführt, die auch in Facebook $META und Spotify $SPOT investiert hat.

„Die Produktivität kann verbessert werden, da die Kosten für die Videoproduktion auf die Kosten für die Erstellung einer PowerPoint-Präsentation reduziert werden“, sagte Philippe Botteri, Investor bei Accel, im Juni gegenüber CNBC. „Videos sind eine viel bessere Möglichkeit, Wissen zu vermitteln. Wenn wir über das Potenzial des Unternehmens und die Bewertung nachdenken, denken wir darüber nach, was es zurückgeben kann, [und] im Fall von Synthesia kratzen wir gerade erst an der Oberfläche.“

Die wichtigsten Wirtschaftsnachrichten, jeden Morgen frisch geliefert.

Schließen Sie sich über 500.000 Lesern an, die ihren Tag mit Quartz beginnen.

Mit dem Abonnieren stimmen Sie unseren Nutzungsbedingungen und unserer Datenschutzrichtlinie zu.