„Google geht bei KI jetzt ‚all in‘“. Es ist ein Befund, der im Anschluss an Googles heurige Entwicklerkonferenz I/O, besonders häufig zu vernehmen ist. Tatsächlich ist der Weg zur Erkenntnis nicht allzu komplex. Eigentlich reicht der Blick auf zwei Zahlen: 120 Mal fiel das für Künstliche Intelligenz stehende Kürzel „AI“ im Rahmen der nur 110 Minuten laufenden Präsentation, erklärte Google-Boss Sundar Pichai stolz. Mitgezählt hat freilich kein dazu vergatterter Mitarbeiter, sondern die KI selbst.
Zugleich diente die I/O Google als weiterer Befreiungsschlag. Galt man lange Zeit als unumstritten führend bei der Entwicklung von KI, wurde man im November 2022 von OpenAI und dessen Chatbot ChatGPT am völlig falschen Fuß erwischt. Was OpenAI-Chef Sam Altman bis heute genüsslich auskostet.
Nun schraubt Google sein Tempo bei Anwendungen, die auf KI basieren, deutlich nach oben. Die Entwicklerkonferenz war Zeugnis dessen. Was der Marktführer im Bereich der Suchmaschinen – mehr als acht von zehn Menschen suchen online via Google – vorhat? Wir geben einen raschen Überblick.
Die KI-Übersicht. In den USA startet dieser Tage eine Funktion, die sich „AI Overview“ nennt und auf „Search Generative Experience (SGE)“ basiert, mit dem sich Google seit geraumer Zeit beschäftigt. Was damit gemeint ist? Es geht schlichtweg darum, dass Google in bestimmten Fällen nach der Suche ein Fenster einfügt, das KI-generierte Antworten parat hält und diese über den traditionellen Antwort-Links reiht. Als Beispiel nannte der Konzern den Umzug in eine neue Stadt. Fortan soll es reichen, dieses Faktum Google mitzuteilen und die Suchmaschine erledigt de facto den Rest. Die KI würde dann – zumindest auf Googles Reißbrett – ein Rundum-Sorglos-Paket anbieten und sämtliche relevante Informationen dazu bündeln. Bis Ende des Jahres will Google „AI Overview“ einer Milliarde Nutzerinnen und Nutzer anbieten. „Wir beginnen, generative KI zu verwenden, um die gesamte Antwortseite zu organisieren“, sagt Liz Reid, bei Google für die Suche zuständig. KI helfe, „über das Thema der Anfrage nachzudenken und zu verstehen, was wichtig ist“.
Gemini wächst. Die direkte Antwort auf ChatGPT nennt Google mittlerweile Gemini, nachdem man sich anfänglich für Bard entschieden hatte. Der Chatbot basiert ebenfalls auf KI und arbeitet multimodal, kann also Text, Bilder oder Audio-Fragmente verarbeiten und erzeugen. Mit „Gemini Live“ bekommt er eine speziell für sprachliche Konversationen ausgerichtete Funktion. Gemini-Technologie wird sich fortan darüber hinaus in unterschiedlichen Google-Anwendungen wiederfinden. Bei „Google Photos“ können dadurch Bilder per natürlicher Sprache gesucht werden, Nutzerinnen und Nutzer von Googles E-Mail-Dienst Gmail können per Gemini bestimmte E-Mails suchen oder mehrere gleichzeitig zusammenfassen lassen.
Das Videomodell. Auch auf OpenAIs vielbeachtetes – aber weiter nur sehr ausgewählt verfügbares – KI-Video-Modell Sora hat Google eine Antwort in petto. Der Konzern nennt sie Veo und meint damit ein KI-Modell, das aus geschriebenem Text Videos erzeugt, die eine knappe Minute dauern können. Videos können auch aus einzelnen Bildern erzeugt werden, zudem ist bereits generiertes Material im Nachhinein bearbeitbar.
Projekt Astra. Es sei „eine Vision“, die ihn seit geraumer Zeit begleite, erzählt Demis Hassabis, Chef von Google DeepMind und beim Konzern für die Entwicklung der KI verantwortlich. Hassabis glaubt, dass KI einen „universell einsetzbaren Assistenten“ ermögliche. Dieser funktioniere multimodal, in Echtzeit –„er ist zu jeder Zeit bei dir“. Den Weg dorthin bündelt Google in einem Projekt, das man „Astra“ nennt. Auch wenn es noch in einem frühen Stadium sei, macht eine Demo klar, dass Google längst nicht mehr am Anfang steht. So wandert ein Astra-Nutzer durch das Google-Büro in London und lässt sich von der KI nicht nur sämtliche per Kamera erfasste Dinge im Büro beschreiben, sondern greift auch auf deren Unterstützung zurück, um die verlegte Brille zu einem späteren Zeitpunkt wiederzufinden.