Forscher von Microsoft veröffentlichten diese Woche ein Papier über VASA-1, ein neues KI-Tool, das nur mit einem Standbild ein überzeugendes Video von einer sprechenden Person erstellen kann. Microsoft hat keine unmittelbaren Pläne, das neue Tool der Öffentlichkeit zu veröffentlichen, aber es ist ziemlich beeindruckend. Nun zu mindest ist es beeindruckend, wenn man sich die Zähne nicht zu genau ansieht. Werfen Sie nur einen Blick auf diese Beißerchen.
Das Modell VASA-1 funktioniert, indem es ein beliebiges Standbild eines menschlichen Gesichts aufnimmt – oder, in den Beispielen, veröffentlicht von Microsoft, ein von KI generiertes Gesicht einer nicht existierenden Person, das nach Einspielung einer Audiodatei ein synchronisiertes Video produzieren kann, das Gesichtsnuancen und natürlich wirkende Bewegungen enthält.
Auch hier ist alles ziemlich beeindruckend, wie Sie in einem der Videos sehen können, die Microsoft unten zur Verfügung stellt. Aber der einzige Bereich, in dem VASA-1 Probleme zu haben scheint, ist die Darstellung der Zähne. Wenn Sie sich auf die Zähne konzentrieren, können diese eine cartoonartige Qualität annehmen und leicht animiert erscheinen, was nicht ganz zur hyperrealistischen Qualität von allem anderen passt.
Die bizarren Kanten des Videos werden noch deutlicher, wenn man es verlangsamt, wie es Gizmodo im folgenden GIF getan hat. (Man kann sich fast schlecht fühlen, wenn man das Aussehen einer Person auseinandernimmt, bis einem einfällt, dass die Person unten buchstäblich nicht existiert.)
Ein weiteres Beispielvideo von Microsoft, das unten angezeigt wird, zeigt ähnliche cartoonartige Eigenschaften der Zähne – auch wenn andere Merkmale sehr realistisch erscheinen, insbesondere wenn man bedenkt, dass das einzige Quellmaterial ein statisches Bild und eine Audiodatei ist.
Aus welchem Grund auch immer fielen die Zähne in Videos mit Männern etwas weniger auf, vielleicht, weil das Modell Männer zeigte, die beim Sprechen den Mund nicht ganz so weit öffneten. Wer jedoch genau hinsieht, bekommt trotzdem das Gefühl, dass hier etwas nicht stimmt.
Eine der interessanteren Feststellungen der Forscher ist, dass ihr Modell sehr schnell Videos in relativ hoher Qualität produzieren kann, was andere KI-Generatoren mögen. Sora von OpenAI Berichten zufolge mit Problemen hatten. Tatsächlich vermerkt das Dokument eine Latenz von nur 0,17 Sekunden auf einem Desktop-PC mit einer einzelnen NVIDIA RTX 4090 GPU.
Und diese Geschwindigkeit ermöglicht die Bereitstellung von Sofortvideos für eine Vielzahl von Anwendungen, beispielsweise für Echtzeit-Übersetzungsdienste.
„Unsere Methode liefert nicht nur eine hohe Videoqualität mit realistischer Gesichts- und Kopfdynamik, sondern unterstützt auch die Online-Generierung von 512 x 512-Videos mit bis zu 40 FPS bei vernachlässigbarer Startlatenz. Sie ebnet den Weg für Echtzeit-Interaktionen mit lebensechten Avataren, die menschliches Gesprächsverhalten nachahmen“, heißt es in dem neuen Artikel.
Die Forscher sind sich der Gefahren dieser Technologie durchaus bewusst. Dies erklärt vielleicht, warum Microsoft noch keine Pläne angekündigt hat, die Technologie der Öffentlichkeit vorzustellen. Allerdings haben die Forscher auch Anwendungsfälle identifiziert, von denen sie glauben, dass sie der Menschheit von Nutzen sein werden.
„Die Vorteile – wie etwa die Erhöhung der Bildungsgerechtigkeit, die Verbesserung der Zugänglichkeit für Personen mit Kommunikationsproblemen, das Angebot von Gesellschaft oder therapeutischer Unterstützung für Bedürftige und vieles mehr – unterstreichen die Bedeutung unserer Forschung und anderer damit verbundener Untersuchungen. Wir haben uns der verantwortungsvollen Entwicklung von KI verschrieben, mit dem Ziel, das menschliche Wohlbefinden zu fördern“, heißt es in dem Papier.
„Vor diesem Hintergrund planen wir nicht, eine Online-Demo, eine API, ein Produkt, zusätzliche Implementierungsdetails oder damit verbundene Angebote zu veröffentlichen, bis wir sicher sind, dass die Technologie verantwortungsvoll und in Übereinstimmung mit den entsprechenden Vorschriften eingesetzt wird.“
Das ist wahrscheinlich eine gute Idee, angesichts der Anzahl der Betrügereien die mit dieser Technologie möglich sind. Schließlich finden in den USA nur sieben Monate bis zu den Präsidentschaftswahlen 2024 statt. Und die Bedrohung durch den Faschismus weltweit wird nicht so absichtlich verschwinden. Die Menschheit hat derzeit tatsächlich das Gefühl, gegen KI-generierte Fälschungen machtlos zu sein. Und große Unternehmen wie Microsoft sollten wahrscheinlich alles in ihrer Macht Stehende tun, um den potenziellen Schaden zu begrenzen, bevor praktisch alles im Internet zu einer Fälschung wird.
Eine Version dieses Artikels erschien ursprünglich auf Gizmodo.
Dieser Inhalt wurde maschinell aus dem Originalmaterial übersetzt. Aufgrund der Nuancen der automatisierten Übersetzung können geringfügige Unterschiede bestehen. Für die Originalversion klicken Sie hier