Es ist kein Geheimnis, dass Googles KI-Chatbot Gemini einige Probleme hatte. Produktion von historisch ungenauen Bildern zwang die Google-Muttergesellschaft Alphabet dazu, das Produkt Anfang dieses Jahres vorübergehend einzustellen.
Doch Google versucht , ein Kapitel der frühen KI-Pannen auf zuschliessen. Die Hauptredner auf der jährlichen Konferenz des Technologiegiganten Google Cloud Next -Konferenz in Las Vegas zeigte am Dienstag neue Funktionen von Gemini Pro 1.5, der neuesten Version des Chatbots, die jetzt öffentlich verfügbar ist. Zuschauer schauten zu, während die Demonstranten vor sich murmelten und Angaben in den überarbeiteten KI-Chatbot eintippten, um seine neuen Tools hervorzuheben – von denen vielleicht das wichtigste seine Fähigkeit ist, Anfragen zu „erden“. „Erden“ bedeutet, dass Antworten auf Gemini Pro 1.5 mit „überprüfbaren Informationsquellen verknüpft sind. Das Unternehmen teilte am Dienstag mit.
Die Ankündigungen zu Gemini 1.5 Pro umfassten eine Reihe von Updates für den Chatbot als Teil von Googles Bemühungen, seine KI-Produkte an Firmenkunden zu verkaufen. Gemini verfügt jetzt über weitere Funktionen für etwas, das als „Long Context Understanding“ bezeichnet wird, was im Grunde bedeutet, dass es viel mehr Informationen verarbeiten kann. Und es verfügt über multimodale Funktionen – also die Fähigkeit, nicht nur Text, sondern auch Audio, Video und andere Formate zu verarbeiten, um Antworten zu generieren.
„Mit diesen beiden Fortschritten können Unternehmen heute Dinge tun, die früher mit KI einfach nicht möglich waren“, sagte Google-CEO Sundar Pichai während der Präsentation.
Unternehmen haben das Produkt bereits in Pilotprojekten getestet. Goldman Sachs, Mercedes und Uber gehören zu den ersten Kunden von Gemini 1.5 Pro, sagte Google. Goldman Sachs‘ CEO David Solomon selbst trat direkt nach Pichai per Video bei Google Next auf. Mercedes-Benz CEO Ola Källenius sprach auch über die Partnerschaft des deutschen Autobauers mit Google und die Nutzung seiner KI-Produkte.
Google sagte, ermögliche es Kunden mit Gemini 1.5 Pro , „riesige Mengen an Informationen in einem einzigen Stream zu verarbeiten“ – darunter 1 Stunde Video, 11 Stunden Audio oder über 700.000 Wörter.
„Beispielsweise“, so das Unternehmen weiter, „könnte ein Gaming-Unternehmen eine Videoanalyse der Leistung eines Spielers bereitstellen und Tipps zur Verbesserung geben. Oder eine Versicherungsgesellschaft könnte Videos, Bilder und Texteingaben kombinieren, um einen Vorfallbericht zu erstellen und so den Schadensregulierungsprozess zu vereinfachen.“
Google hat auch einige andere KI-Ankündigungen geäußert, eine vollständige Liste finden Sie auf die Google Next 2024 -Konferenzwebsite.
Google Vids
Google bringt eine KI-gestützte App zur Videoerstellung auf den Markt. Google Vids. Die App wurde am Dienstag von Aparna Pappu, VP von Google Workspace, vorgeführt.
„Gemini schlägt eine Erzählskizze für die Geschichte vor, die ich leicht anpassen und bearbeiten kann“, sagte Pappu basierend auf einer Eingabeaufforderung in Google Docs.
Text-zu-Livebild-Generierung
Die neueste Version des KI-Generators von Google, Imagen 2.0, der auf Gemini basiert, kann Live-Bilder aus Texteingaben erstellen. Noch befindet sie sich im „Vorschau“-Modus, aber Hauptredner in Las Vegas haben die Funktion bereits vorgeführt.
„Marketing- und Kreativteams können aus einer Textaufforderung animierte Bilder generieren, darunter Produktbilder, Anzeigen, GIFs und Storyboards“, sagte Pappu. Ein anderer Demonstrator bemerkte, dass das Tool Livebilder erstellt, für deren Erstellung sonst „Tage oder Wochen der Suche und Aufnahme“ erforderlich wären.
Pappu kündigte außerdem an, dass die von Google KI-generierten Imagen-Bilder mithilfe der SynthID von Google DeepMind mit einem Wasserzeichen versehen werden können.
Dieser Inhalt wurde maschinell aus dem Originalmaterial übersetzt. Aufgrund der Nuancen der automatisierten Übersetzung können geringfügige Unterschiede bestehen. Für die Originalversion klicken Sie hier