Es ist ein Wasserzeichen, das einen der wegweisenden Rechtsstreits im Bereich der Künstlichen Intelligenz (KI) auslöste. Gefunden hat die eigene Markierung die US-Fotoagentur Getty Images. Aber eben nicht auf eigenen Bildern, sondern auf einem, das der KI-Bildgenerator Stable Diffusion erzeugte. Getty nahm den Fund zum Anlass, um Stability AI, das Unternehmen hinter Stable Diffusion, zu verklagen. Mehr als zwölf Millionen Bilder, so der Vorwurf, seien der Getty-Datenbank entnommen worden, um die KI-Modelle hinter dem Generator zu trainieren. „Ohne Erlaubnis“, wie Getty betont und damit ähnlich argumentiert wie die New York Times, die OpenAI, Erfinder des Chatbots ChatGPT, klagte. Auch hierbei wird eine mögliche Verletzung von Urheberrechten thematisiert.
Wasserzeichen gewinnen aber nicht nur im Zusammenhang mit dem daten- und rechenintensiven Training der größten KI-Modelle enorm an Relevanz. Auch, wenn es um Bilder oder Audios geht, die von KI erzeugt werden, steigt die Bedeutung der Kenntlichmachung immens an. Der Grund ist schnell erklärt: Die KI-Generatoren werden rasant besser, der Unterschied zwischen Realität und Fiktion verschwimmt. Verbunden mit den Netzwerkeffekten von Social Media entsteht so ein gefährliches, rasch skalierbares Gemisch. Fruchtbarer Boden für Falschinformationen.
C2PA: „Scheint sich durchzusetzen“
Das bringt, vor allem in einem Superwahljahr, die KI-Firmen unter Druck. Meta etwa, Mutter von Facebook oder Instagram, kündigte nicht zuletzt nach vehementen Zurufen der US-Politik an, schon bald sämtliche KI-Bilder auf seinen Plattformen als solche zu kennzeichnen.
Zugleich führt eine bemerkenswerte Initiative Kontrahenten wie die Times und OpenAI wieder zusammen. Sie nennt sich Content Authenticity Initiative (CAI) und wurde von Adobe, Microsoft oder eben der New York Times ins Leben gerufen. OpenAI unterstützt sie ebenso wie Google. Die Initiative wiederum steht hinter dem offenen Standard C2PA.
Dieser erfasst den „Ursprung, sowie jede Bearbeitung eines Bildes und speichert es in den Metadaten“, erklärt Florian Hasibar, Mitgründer von mytalents.ai, einer Lernplattform, die sich mit dem Einsatz von generativer KI im Arbeitsalltag beschäftigt.
„C2PA scheint sich durchzusetzen“, befindet der KI-Experte. Auch, weil selbst Kameraherstellern wie Leica oder Canon den Standard verwenden. „Gekennzeichnet“ werden mit C2PA also nicht nur synthetische Bilder, sondern auch „echte“ Fotos. Konzerne wie Meta gehen sogar noch weiter und versprechen Tools, die KI-generierte Bilder entdecken, selbst wenn Metadaten geändert wurden.
SynthID: Nur für Technologie sichtbar
Suchmaschinen-Riese Google tüftelt indes intensiv an einer anderen Technologie für die nachvollziehbare Kennzeichnung von KI-Inhalten. Konkret arbeitet das Team von DeepMind an einer SynthID. Diese verspricht Zweierlei. Einerseits sollen damit KI-generierte Bilder erkannt werden, andererseits wirkt sie selbst schon in der Entstehung von Bildern – zumindest, wenn Google-Generatoren wie Imagen verwendet werden.
SynthID greift dabei direkt auf die Pixelstruktur der Bilder zu und webt dort die Wasserzeichen ein. So, dass sie für das menschliche Auge unsichtbar sind, von Technologie aber gut erkannt werden. Was freilich zugleich bedeutet, dass die Nutzerinnen und Nutzer Zugriff auf die Erkennungssoftware benötigen.
SynthID, so verspricht es Google, würde jedenfalls weder die Bildqualität beeinträchtigen, noch durch eine Bearbeitung der Bilder verschwinden. Dass der Konzern von der Technologie überzeugt ist – auch wenn sie nicht vor „extremer Manipulation“ gefeit sei –, zeigt auch die Tatsache, dass SynthID mittlerweile selbst bei Audiodateien eingesetzt wird. Die Technik ist adaptiert, das Prinzip bleibt dasselbe: Während das menschliche Ohr die Kennzeichnung nicht wahrnimmt, ist technologisch schnell erkennbar, dass die Audios KI-generiert sind.
AI Classifier: Probleme bei Detektor
In der Erkennung schlummern übrigens weiter die größten Herausforderungen. OpenAI etwa musste jüngst den hauseigenen AI Classifier wieder zurückziehen. Das Tool sollte längere, von KI geschriebene, Texte erkennen. Tat das aber mehr schlecht als recht und wurde deswegen still und heimlich wieder offline genommen. Der einstigen Ankündigung hat OpenAI lediglich einen Absatz vorangestellt. Der lautet: „Wir erforschen derzeit effektivere Techniken zur Ursprungserkennung von Text“.