OpenAI und Google präsentierten ihre neueste und beste KI-Technologie diese Woche. In den letzten zwei Jahren haben Technologieunternehmen um ein Wettrennen um die KI-Modelle gekämpft, aber jetzt ist ein neuer Schwerpunkt aufgetaucht: sie multimodal zu machen. OpenAI und Google konzentrieren sich auf KI, die nahtlos zwischen ihrem Robotermund und ihren Augen und Ohren wechseln kann.
„Multimodal“ ist das größte Schlagwort, da Technologieunternehmen auf die verlockendste Form ihrer KI-Modelle in Ihrem Alltag setzen. Seit der Einführung von ChatGPT im Jahr 2022 haben KI-Chatbots an Glanz verloren. Daher hoffen die Unternehmen, dass sich das Sprechen und der visuelle Austausch von Dingen mit einem KI-Assistenten natürlicher anfühlt als das Tippen. Wenn Sie gut umgesetzte multimodale KI sehen, fühlt es sich an, als würde Science-Fiction zum Leben erwachen.
Am Montag zeigte OpenAI GPT-4 Omni, der seltsam an den dystopischen Film über verlorene menschliche Verbindungen erinnerte Sie. Omni steht für „Omnichannel“ und OpenAI lobt die Fähigkeit des Modells, neben Audio auch Video zu verarbeiten. In der Demo wird gezeigt, wie ChatGPT durch die Kamera eines Mobiltelefons ein Matheproblem betrachtet, während ein OpenAI-Mitarbeiter den Chatbot mündlich auffordert, ihn durch die Aufgabe zu führen. OpenAI gibt an, dass die Funktion jetzt für Premium-Benutzer verfügbar ist.
Am nächsten Tag, Google enthüllt Projekt Astra, das ungefähr dasselbe versprach. Florence Ion von Gizmodo nutzte multimodale KI, um zu erkennen, welche Kunstblumen sie anschaute, und identifizierte sie korrekt als Tulpen. Project Astra schien jedoch etwas langsamer als GPT-4o zu sein, und die Stimme war weit roboterhafter. Mehr Siri als Ihr, aber ich überlasse Ihnen die Entscheidung, ob das eine gute Sache ist. Google sagt allerdings, dass dies noch in der Frühphase ist, und verweist sogar auf einige aktuelle Herausforderungen, die OpenAI überwunden hat.
„Wir haben zwar unglaubliche Fortschritte bei der Entwicklung von KI-Systemen gemacht, die multimodale Informationen verstehen können, aber die Reaktionszeit auf ein konversationsübliches Niveau zu reduzieren, ist eine schwierige technische Herausforderung“, sagte Google in einer Blogbeitrag.
Jetzt erinnern Sie sich vielleicht Googles Gemini-Demovideo vom Dezember 2023 , das sich als stark manipuliert herausstellte. Sechs Monate später ist Google immer noch nicht bereit, das in diesem Video gezeigte Material zu veröffentlichen, aber OpenAI macht mit GPT-4o alle Voraussetzungen. Multimodale KI stellt das nächste große Rennen in der KI-Entwicklung dar, und OpenAI scheint zu gewinnen.
Ein wesentlicher Unterschied für GPT-4o besteht darin, dass das einzelne KI-Modell Audio, Video und Text nativ verarbeiten kann. Bisher benötigte OpenAI separate KI-Modelle, um Sprache und Video in Text zu übersetzen, damit das zugrunde liegende sprachbasierte GPT-4 diese unterschiedlichen Medien verstehen konnte. Angesichts der langsameren Reaktionszeiten scheint es, als würde Google zur Ausführung dieser Aufgaben immer noch mehrere KI-Modelle verwenden.
Wir haben auch eine breitere Akzeptanz von KI-Wearables da Technologieunternehmen multimodale KI annehmen. Der Humane AI Pin, Rabbit R1 und Meta Ray-Bans sind alles Beispiele für KI-fähige Geräte, die diese verschiedenen Medien nutzen. Diese Geräte versprechen, uns weniger abhängig von Smartphones zu machen, obwohl es möglich ist, dass auch Siri und Google Assistant bald mit multimodaler KI ausgestattet werden.
Über multimodale KI werden Sie in den kommenden Monaten und Jahren wahrscheinlich noch viel mehr hören. Ihre Entwicklung und Integration in Produkte könnte den Nutzen von KI deutlich steigern. Die Technologie nimmt Ihnen letztendlich die Last ab, die Welt in ein LLM zu übertragen, und ermöglicht es der KI, die Welt selbst zu „sehen“ und zu „hören“.
Diese Geschichte erschien ursprünglich auf Gizmodo.
Dieser Inhalt wurde maschinell aus dem Originalmaterial übersetzt. Aufgrund der Nuancen der automatisierten Übersetzung können geringfügige Unterschiede bestehen. Für die Originalversion klicken Sie hier