Josef „Sepp“ Hochreiter ist ein global gefragter Mann. Anfang der 1990er beginnt sich der gebürtige Bayer mit der Funktionsweise „dynamischer neuronaler Netze“ auseinanderzusetzen, schreibt eine Diplomarbeit zum Thema und entwickelt erstmals die Idee eines neuronalen Langzeitspeichers. Später gewinnt sie als „Long short-term memory (LSTM), also „langes Kurzzeitgedächtnis“, rasant an Relevanz. Google setzte sie für die Spracherkennung am Smartphone oder den Dolmetscher Google Translate ein. Apple greift bei Siri früh auf LSTM zurück, Amazon bei Alexa.
Als OpenAI Ende 2022 den Chatbot ChatGPT auf die Menschheit loslässt und Künstliche Intelligenz plötzlich salonfähig macht, zeigt sich Hochreiter, mittlerweile Leiter des Instituts für Machine Learning an der Linzer Uni, im Gespräch irritiert. „Im Grunde ist die Technologie hinter ChatGPT trivial“, sagt er zur Kleinen Zeitung vor ziemlich genau einem Jahr. OpenAIs erste Modelle hätte Hochreiter sogar selbst nachgebaut und noch verbessert. Irgendwann aber sei die Rechenleistung des mit Microsoft-Milliarden gefütterten Unternehmens ins Unermessliche gestiegen. Sepp Hochreiter im Februar 2023: „Jetzt haben wir keine Chance mehr. Wir haben einfach nicht diese Rechen- und Datenpower. OpenAI hat das extrem skaliert.“
Mit Gedächtnis gegen die Transformer
Heute schöpft der Forscher wieder Hoffnung. Zu tun hat das wieder mit seinem „langen Kurzzeitgedächtnis“ – und mit den Unzulänglichkeiten der von OpenAI, Meta, Alphabet & Co eingesetzten Technologie. Aber alles der Reihe nach.
Beginnen wir zunächst mit der Technologie, auf die populäre Sprachlernmodelle – egal ob sie von OpenAI, Meta, Google oder Mistral stammen – zurzeit setzen. Werden damit neue Wörter generiert, steigt die Menge der benötigten Rechenschritte bei den sogenannten „Transformer-Modellen“ quadratisch.
„Gibt ein Nutzer also 1000 Wörter bei ChatGPT ein, braucht das Modell eine Million Schritte für das nächste Wort“, schreibt das deutsche Handelsblatt mit Verweis auf das Institut für Industrielle Fertigung und Fabrikbetrieb an der Universität Stuttgart. Bei jeder Abfrage muss neu gerechnet werden. Das treibt den Energiebedarf immens. 2,9 Wattstunden Strom benötige die Beantwortung einer Frage an ChatGPT, rechnet die Internationale Energieagentur vor. Zehnmal mehr, als eine Google-Suche verbraucht.
„Gleiche Leistung mit weniger Rechnern“
Hier setzt Sepp Hochreiter an. Er arbeitet an Technologie, die KI-Modelle „schneller und effizienter“ mache. Im besten Falle, das gelte es erst unter Beweis zu stellen, seien Hochreiters Modell zugleich fähig, „komplexe Zusammenhänge besser zu erkennen“. Technologisch basieren die Modelle, an denen in Linz gearbeitet wird, auf eben jenem LSTM, das Hochreiter bekannt machte. Freilich entwickelte es der Forscher in den letzten Jahren immer weiter. „Die Kerntechnologie ist LSTM, aber es fließen viele neue Erkenntnisse ein und Technologien zusammen“, erzählt Hochreiter im Gespräch.
So würden sich bei xLSTM die Berechnungen nur linear mit der Textlänge erhöhen. Hochreiter: „Wir bieten die gleiche Leistung an, man zahlt aber weniger, da man weniger Rechner braucht“. Zentral ist dafür die Idee des Interagiernes mit Speichern.
Stefan Pierer steigt ein
Besonders spannend: Um die Modelle voranzutreiben, wurde ein neues Start-up gegründet, ein Amalgam aus Wissenschaft und Wirtschaft. NXAI mit Sitz in der Linzer Tabakfabrik gehört heute zu 26 Prozent Sepp Hochreiter, den Rest halten zu gleichen Teilen die Pierer Digital Holding und Netural X. Wobei die Holding des Industriellen Stefan Pierer wiederum Anteile an Netural X hält.
„Ich sitze hier in Linz auf etwas Genialem, habe aber nicht das Geld, es zu machen“, ließ Sepp Hochreiter jüngts noch wissen. Daraufhin sei er in Kontakt mit vielen potenziellen Investoren gewesen. „Aus Deutschland, China oder Saudi-Arabien“, zählt Hochreiter auf. Viele seien aber zu sehr auf das Ergebnis bedacht gewesen, wollten ein bald fertiges Produkt für sich reklamieren. Bei den jetzigen Geldgebern sei das anders, schildert Hochreiter, der eine „Silicon-Valley“-Attitüde ortet. Zunächst werde einmal in die „Forschung und Entwicklung der Technologie investiert“.
Ob tatsächlich, wie kolportiert, 300 Millionen Euro in das Start-up fließen? Hochreiter relativiert. Das seien Kosten, die anfallen, wenn man ein „wirklich großes Modell baue“. Bei NXAI werde nun aber „peu à peu“, also schrittweise, investiert. Von einer „hohen Summe“ im Millionenbereich spricht man jedenfalls bei der Pierer Digital Holding.