Es sind Text-Anweisungen wie „Photorealistisches Nahaufnahme-Video von zwei Piratenschiffen, die sich segelnd in einer Kaffeetasse bekämpfen“ oder „Historische Aufnahmen von Kalifornien zur Zeit des Goldrausches“, die aktuell wieder einmal – wahlweise – für begeistertes Staunen oder Weltuntergangsstimmung sorgen. Um zu präzisieren: Es ist natürlich nicht der Text, der aufregt. Es sind die Videos, die daraus resultieren.

Vor ein paar Tagen begann OpenAI, der große, von Microsoft-Milliarden unterstützte, US-Konzern hinter dem Chatbot ChatGPT, das World Wide Web mit derlei Bildmaterial zu fluten. Beworben wird damit Sora, ein Generator, der mittels KI aus Text Videos macht. Schon ein paar Schlagwörter reichen, um bis zu 60 Sekunden Videomaterial zu bekommen. Von einem „Quantensprung“, einem „Meilenstein“, in der KI-gestützten Videoproduktion ist im rasch wachsenden KI-Universum jetzt die Rede. Die visuelle Qualität sei auf einem noch nie da gewesenen Niveau, die Benutzervorgaben würden präzise umgesetzt. Und das, obwohl Sora zurzeit noch als Teil eines Forschungsprojekts ausgeschildert wird und nicht von allen Nutzerinnen und Nutzern verwendet werden kann.

Google erhöht das Tempo rasant

Dass OpenAI mit Sora so schnell wieder eine Vorreiterrolle zugeschrieben wird, darf durchwegs überraschen. Einerseits ist es kein Geheimnis mehr, dass generative KI – also Künstliche Intelligenz, die Inhalte selbst schafft – längst multimodal ausgerichtet ist. Die Modelle dahinter können also seit geraumer Zeit nicht nur Text verarbeiten, sondern auch Bilder und Videos. Auch Sora selbst soll übrigens nicht „nur“ Videos generieren, sondern auch Bilder und Grafiken.

Andererseits fällt OpenAIs abermaliger Aufmerksamkeitsschlager in eine Zeit, in der Google das KI-Momentum auf seine Seite gezogen hatte. Erst Ende Jänner stellte der kalifornische Suchmaschinen-Riese Lumiere vor, das hauseigene Text-zu-Video-Modell, spezialisiert auf das Generieren von Fünf-Sekunden-Spots. Auf der Projektseite erklärte Google, warum die Technologie hinter Lumiere einzigartig und der Konkurrenz jedenfalls voraus sei. Auch der Google-Generator kann mehr, als „nur“ Videos aus Texten zu bauen. Statische Bilder können mit der KI-Software animiert werden – darüber hinaus kann Lumiere wie auch Sora animierte Grafiken herstellen. Trainiert hatte Google das Modell zuvor mit 30 Millionen Videos. Inklusive deren Untertiteln.

Bei der Präsentation hieß es, das Modell übertreffe sämtliche verfügbare Konkurrenz. Etwas, das man nun nahezu wortgleich von OpenAI vernimmt. Ein Ende von derlei Ankündigungen ist vorerst nicht in Sicht.