• Autor: Abram Svoboda
Bei der diesjährigen Google I/O drehte sich alles um eines – das agentische Zeitalter von Gemini. Das neue Modell 3.5 Flash, der persönliche Agent namens Spark, die nach siebenundzwanzig Jahren von Grund auf neu gestaltete Suche und die ersten offiziellen Details zu den smarten Brillen, an denen Google gemeinsam mit Samsung arbeitet. Was bedeutet das alles in der Praxis und wann kommt es zu uns?
Google I/O ist die jährliche Entwicklerkonferenz, auf der Google zeigt, wohin sich das gesamte Unternehmen entwickelt – und die diesjährige Ausgabe war vermutlich die fokussierteste in der Geschichte. Fast alles drehte sich um agentische KI, also die Idee, dass Gemini nicht nur ein Chatbot sein soll, sondern ein eigenständiger Assistent, der Dinge für Sie in der realen Welt erledigt. Die zweistündige Keynote war vollgepackt wie nie zuvor. Schauen wir uns an, was besonders im Gedächtnis bleiben sollte.
Beginnen wir mit dem, was alles andere antreibt. Gemini 3.5 Flash ist ein neues Modell, das Google als seinen „Daily Driver“ positioniert – das Ziel ist es, eine Leistung auf dem Niveau der besten Modelle am Markt zu bieten, jedoch zu deutlich geringeren Kosten und vor allem mit wesentlich schnellerer Ausgabe. In der Praxis bedeutet das eine viermal schnellere Generierung im Vergleich zu konkurrierenden Frontier-Modellen sowie einen großen Fortschritt beim Programmieren und bei der Lösung realer Aufgaben (Benchmark GDPVal). Interessant ist, dass 3.5 Flash das ältere Gemini 3.1 Pro in nahezu allen Kennzahlen übertrifft – es handelt sich also nicht um eine „kleinere“ Variante, sondern um eine neue Generation.
Das Modell ist ab heute in sämtlichen Produkten und APIs verfügbar. Die Version Gemini 3.5 Pro befindet sich im internen Testbetrieb und soll nächsten Monat erscheinen. Sundar Pichai erwähnte, dass Google intern bereits mehr als drei Billionen Tokens täglich mithilfe von Antigravity und Gemini 3.5 verarbeitet – daran zeigt sich, dass sich das Tempo bei der Einführung von KI im Unternehmen deutlich beschleunigt hat. Und wie wir gleich sehen werden, ist 3.5 Flash so etwas wie der unsichtbare Motor hinter fast allen heutigen Ankündigungen.
Das war wahrscheinlich die emotionalste Ankündigung der gesamten Konferenz. Gemini Spark ist ein persönlicher KI-Agent direkt in der Gemini-App, der Dinge für Sie erledigt, selbst wenn Ihr Notebook geschlossen ist. Er läuft nämlich auf dedizierten virtuellen Maschinen in der Google Cloud und benötigt daher Ihr Gerät nicht – er arbeitet rund um die Uhr im Hintergrund und Sie kehren jederzeit zu ihm zurück, wann immer es Ihnen passt.
Unter der Haube steckt eine Kombination aus Gemini 3.5 und der Entwicklerplattform Antigravity, dank der Spark lang andauernde Aufgaben bewältigen kann – nicht nur einmalige Fragen, sondern zum Beispiel „Finde mir einen Urlaub für zwei Personen in der Toskana im September bis 800 Euro, vergleiche die Bewertungen und schicke mir drei finale Optionen“. Spark wird mit Tools verbunden – zunächst mit den Google-Diensten selbst, innerhalb weniger Wochen auch mit Drittanbietern über das MCP-Protokoll. Arbeiten können Sie damit in der Gemini-App, später auch per E-Mail oder Chat.
Auf Android erhält Spark eine eigene Oberfläche – das sogenannte Android Halo, in dem Sie Live-Updates und den Status der Aufgaben sehen, die der Agent gerade für Sie bearbeitet. Spark soll später im Sommer auch direkt in Chrome integriert werden – als agentischer Browser, der für Sie im Web surfen kann. Die Beta startet nächste Woche, zunächst nur für Abonnenten von Google AI Ultra in den USA – die breitere Verfügbarkeit folgt schrittweise. Wenn Spark in der Praxis tatsächlich das leisten kann, was Google auf der Bühne gezeigt hat, dann ist das der erste Moment, in dem ein „KI-Agent“ aufhört, nur ein Marketingbegriff zu sein, und zu etwas wirklich Nutzbarem wird.
Google selbst bezeichnet die neue Suche als das größte Upgrade seit mehr als siebenundzwanzig Jahren – das klingt nach einer gewaltigen Aussage, aber wenn man betrachtet, was sich verändert, ergibt es Sinn. Das Suchfeld ist nicht mehr nur Autocomplete: Sie können nun Bilder, Dateien, Videos oder direkt einen geöffneten Chrome-Tab eingeben und Search macht daraus den Kontext für Ihre Suche. AI Mode nutzt ab heute Gemini 3.5 Flash als Basismodell und ist weltweit kostenlos für alle verfügbar.
Die wichtigere Änderung kommt jedoch mit den Information Agents – personalisierten Agenten, die Sie im Hintergrund konfigurieren und die kontinuierlich nach Dingen suchen, die Ihnen wichtig sind. Beobachten Sie den Preis eines bestimmten Produkts? Warten Sie auf neue Informationen von einer Konferenz? Der Agent benachrichtigt Sie, sobald er etwas findet. Sie starten im Sommer, zunächst für Abonnenten von Google AI Pro und Ultra.
Und es gibt noch etwas, das mir unscheinbar erscheint, aber möglicherweise entscheidend ist: Search wird mithilfe von Antigravity und Gemini 3.5 Flash eigene interaktive Oberflächen erstellen können – direkt zu Ihrer Frage. Planen Sie eine Reise? Search erstellt Ihnen ein interaktives Dashboard. Lernen Sie etwas Komplexeres? Es baut Ihnen einen Tracker, zu dem Sie immer wieder zurückkehren können. Google nennt das „Mini-Apps“ innerhalb von Search und möchte sie im Sommer kostenlos für alle bereitstellen. Wenn das so reibungslos funktioniert, wie es auf der Bühne aussah, ist das bisher das anschaulichste Beispiel dafür, was „agentische KI“ in der Praxis bedeutet.
Gemini findet seinen Weg wirklich überall hin. Ask YouTube kann konkrete Fragen beantworten und springt vor allem direkt zu dem Teil des Videos, der für Sie relevant ist – kein Scrollen mehr durch ein fünfzehnminütiges Intro, nur um zu einem bestimmten Schritt zu gelangen. Die Tests starten jetzt, die breite Einführung in den USA erfolgt im Sommer.
Docs Live ist eine weitere clevere Funktion – Sie füllen ein Dokument einfach dadurch, dass Sie laut sprechen. Keine präzise formulierten Prompts mehr, sondern einfach „Fügen Sie dort drei Absätze über das diesjährige Umsatzwachstum ein, einen Abschnitt mit Diagramm und am Ende eine Tabelle“ – und Gemini erledigt das. Geplant ist auch die sprachgesteuerte Bearbeitung bestehender Texte. Der Start erfolgt im Sommer für Workspace-Abonnenten und dieselben Sprachfunktionen kommen auch zu Gmail und Keep.
Für den täglichen Einsatz gedacht ist anschließend Daily Brief – ein morgendlicher Digest, der Ihren Posteingang, Kalender und Ihre Aufgaben analysiert und selbst entscheidet, was heute wichtig ist. Es handelt sich nicht nur um eine Zusammenfassung, sondern auch um Vorschläge für die nächsten Schritte. Google Pics ist ein neues Tool zur Erstellung und Bearbeitung von Bildern, das auf dem Modell Nano Banana basiert und jedes Element im Bild als eigenständiges Objekt behandelt – dadurch können Sie einzelne Dinge verändern, ohne wieder von vorne beginnen zu müssen.
Bereits im vergangenen Jahr zeigte Google erstmals das Konzept smarter Brillen mit Android XR. Dieses Jahr wird es konkreter – und vor allem geschieht es gemeinsam mit Samsung. Den Anfang machen Audio-Brillen, die wie normale Brillen aussehen und so funktionieren, dass Gemini Ihnen Dinge „ins Ohr flüstert“. Kein Bildschirm, kein AR – nur ein Sprachassistent in einem Format, das Sie überallhin mitnehmen können. Sie sollen noch in diesem Herbst erscheinen.
Danach folgen Display-Brillen mit einem kleinen Bildschirm, der Ihnen genau das zeigt, was Sie gerade brauchen – Navigation, Benachrichtigungen oder Übersetzungen. Einen Verkaufstermin für die Display-Brillen hat Google bislang noch nicht genannt. Die Zusammenarbeit mit Samsung ist hier entscheidend: Samsung bringt Erfahrung mit Wearables und Hardware-Design mit, Google die Software und Gemini. Wenn das alles so reibungslos funktioniert, wie es auf der Bühne klang, könnten daraus die ersten massentauglichen smarten Brillen werden.
Neben den Hauptthemen gab es auf der I/O eine ganze Reihe kleinerer, aber interessanter Ankündigungen. Antigravity 2.0 ist eine neue Desktop-Anwendung für Entwickler – im Grunde ein Zentrum, von dem aus Sie mehrere KI-Agenten gleichzeitig steuern können. Gemini 3.5 Flash läuft darin laut Google zwölfmal schneller als konkurrierende Modelle.
Gemini Omni ist eine neue Modellfamilie, die beliebige Ausgaben aus beliebigen Eingaben generieren kann – in der Praxis starten wir zunächst mit Videos (Gemini Omni Flash ist ab heute in der Gemini-App, in Google Flow und in YouTube Shorts verfügbar), Bilder und Text folgen schrittweise. Google erweitert außerdem SynthID, sein unsichtbares Wasserzeichen für KI-Inhalte – OpenAI, Kakao und Eleven Labs schließen sich an und die Überprüfung der Content Credentials wird in Search und Chrome integriert. Ein wichtiger Schritt, damit Nutzer erkennen können, was KI-generiert ist und was ein echtes Foto.
Bei der Hardware stechen die neuen Chips TPU 8t und TPU 8i hervor, bei denen Google erstmals die Siliziumarchitektur zwischen Training (8t) und Inferenz (8i) aufteilt. Für normale Nutzer nicht direkt sichtbar, aber genau das ermöglicht es, dass Gemini 3.5 Flash schnell und kostengünstig läuft. Weniger erwähnt wurde außerdem Gemini for Science, das Antigravity mit mehr als dreißig führenden Datenbanken der Life-Science-Forschung verbindet, sowie Project Genie von DeepMind, das die Simulation realer Orte mithilfe von Street View demonstrierte – die gescannte Welt wird plötzlich zu einem „nutzbaren“ 3D-Raum für KI.
Was lässt sich aus der gesamten Show mitnehmen? Das zentrale Thema ist agentische KI – Google behauptet nicht mehr, dass Gemini „ein neuer Chatbot“ sei, sondern positioniert ihn als Schicht, die Dinge für Sie in der realen Welt erledigt. Und auch wenn viele Ankündigungen noch in der Phase „bald, schrittweise, zuerst in den USA“ stecken, ist die Richtung klar und das Tempo, mit dem Google vorangeht, beeindruckend. Die Konkurrenz hat jetzt einiges aufzuholen.