OpenAI stellte GPT-4 Omni (GPT-4o) vor während seiner Frühlings-Update am Montag in San Francisco. Chief Technology Officer Mira Murati und Mitarbeiter von OpenAI präsentierten ihr neuestes Flaggschiffmodell, das verbale Konversationen in Echtzeit mit ein freundlicher KI-Chatbot, der überzeugend wie ein Mensch spricht.
„GPT-4o bietet Intelligenz auf dem Niveau von GPT-4, ist aber viel schneller“, sagte Murati auf der Bühne. „Wir glauben , dass GPT-4o dieses Paradigma wirklich in die Zukunft der Zusammenarbeit verlagert, wo diese Interaktion viel natürlicher und weitaus einfacher wird.“
GPT-40 reagiert sofort auf verbale Eingabeaufforderungen mit einer freundlichen Stimme, die unheimlich wie Scarlett Johansson klingt, die dem KI-Assistenten im Spielfilm ihre Stimme lieh Ihr. Basierend auf den Demos macht diese Technologie den Film im Wesen zur Realität. Die Sprache von GPT-4o hat eine emotionale Intonation, manchmal ist sie aufgeregt und an anderen Zeiten lacht er. Darüber kann die Technologie auch Emotionen und Tonfall in der Sprache der Benutzer erkennen. Die Mitarbeiter von OpenAI führten Gespräche mit den KI-Chatbots fast ohne Verzögerung vor, und der Chatbot war sogar in der Lage schnell umzuschwenken, wenn er unterbrochen wurde.
Während die Audiofähigkeiten von GPT-4o beeindruckend sind, funktioniert Omni in mehreren Medien. Während ChatGPT zuvor Text, Bild und Audio über ein Netzwerk von KI-Modellen verarbeitete, ist GPT-4o ein einzelnes Modell, das alle drei verarbeiten kann. Dadurch funktioniert alles viel schneller. Sie können GPT-4o mit der Kamera Ihres Telefons ein Bild eines Matheproblems zeigen, während Sie verbal mit dem Modell sprechen. OpenAI sagt, dass sein neues Flaggschiffmodell auf dem Intelligenzniveau von GPT-4 arbeitet und gleichzeitig bahnbrechende Maßstäbe bei den mehrsprachigen, Audio- und Bildfunktionen setzt.
Mehr erfahren: OpenAIs neuer ChatGPT kann Gutenachtgeschichten erzählen und Matheaufgaben lösen
Nach dieser atemberaubenden Demo veröffentlicht OpenAI GPT-4o als Desktopanwendung für macOS. Bezahlte Benutzer erhalten heute auch die macOS-App, aber GPT-4o wird in Zukunft auch für kostenlose Benutzer verfügbar sein. Mit der Desktopanwendung können Sie Sprachgespräche mit ChatGPT direkt von Ihrem Computer aus starten und Ihren Bildschirm mit minimalem Aufwand teilen. Die ChatGPT-Website wird ebenfalls vereinfacht aktualisiert.
Die OpenAI-Mitarbeiter Mark Chen und Barret Zoph führten am Montag auf der Bühne vor, wie das multimodale Echtzeit-KI-Modell funktioniert. Die Echtzeit-Konversation funktionierte größtenteils hervorragend, auch wenn Chen und Zoph das Modell unterbrachen, um es aufzufordern, die Antworten zu ändern. GPT-4O erzählte Gutenachtgeschichten, half bei Matheaufgaben und mehr. Manchmal hatte GPT-4Omni Schwierigkeiten, die Absichten der Benutzer zu verstehen, aber das Modell konnte die Ausrutscher recht elegant bewältigen.
Das Sprachmodell war in der Lage, beim Erzählen einer Geschichte, beim Lachen und sogar beim Sagen von „Das ist so süß von dir“ verschiedene Stimmen nachzuahmen. Es ist klar, dass das OpenAI-Team dafür gesorgt hat, dass GPT-4o emotionaler und gesprächiger war als frühere Sprachmodelle. In Demos klang ChatGPT menschlicher denn je.
Ein OpenAI-Mitarbeiter bestätigte in einem Tweet, dass Das Unternehmen testet GPT-4o im Chatbot-Bereich von LMSYS Org. als „ich-bin-auch-ein-guter-gpt2-Chatbot“. Wie viele vermuteten und Sam Altman andeutungen machte, handelte es sich um OpenAI-Modelle, in der Entwicklung war. Dem Mitarbeiter nach mehreren Kennzahlen übertraf der neueste Chatbot die Konkurrenz deutlich, darunter die Branchenführer GPT-4 Turbo und Claude 3 Opus.
Die Veröffentlichung von GPT-4o fühlt sich wie ein bahnbrechender Moment für die Zukunft von KI-Chatbots an. Diese Technologie überwindet viele der unangenehmen Latenzen, die frühe Chatbots plagten. Es ist leicht, sich eine Version von Siri vorzustellen, die mit GPT-4o recht nützlich ist. Diese Echtzeitfunktionen sind wahrscheinlich den neuesten Inferenzchips von Nvidia zu verdanken. was Murati unbedingt rief, bevor er die Präsentation beendete. Ungeachtet dessen bekräftigte OpenAI mit der Demo am Montag seine beherrschende Stellung als führender Anbieter von KI-Innovationen. Nun warten wir ab, ob die Präsentation uns eine genaue Darstellung dessen lieferte, was dieses Ding kann, oder ob es sorgfältig inszeniert wurde, um offensichtliche Mängel zu vermeiden.
Eine Version dieses Artikels erschien ursprünglich auf Gizmodo.
Dieser Inhalt wurde maschinell aus dem Originalmaterial übersetzt. Aufgrund der Nuancen der automatisierten Übersetzung können geringfügige Unterschiede bestehen. Für die Originalversion klicken Sie hier