LLMs sind nicht der Weg zur AGI (Artificial General Intelligence)

LLMs sind keine AGI und werden es niemals sein. Aktuelle Fähigkeiten von LLMs lassen sich durch einfache Phänomene erklären, die bei Weitem nicht an Denken oder Schlussfolgern heranreichen.

Reasoning (Schlussfolgern) ist unter LLM‑Befürwortern seit Langem ein umstrittenes Thema. Das liegt vor allem daran, dass diese Modelle eine Art Blackbox sind. Wir können nicht einfach hineinschauen und erklären, wie oder warum sie gerade diese Ausgabe erzeugt haben. Selbst die Leute, die LLMs beruflich entwickeln, geben das offen zu.

LLMs (und neuronale Netze allgemein) ähneln dem menschlichen Gehirn darin, dass wir erklären können, was einzelne Neuronen tun, aber setzt man genug davon zusammen, hat niemand wirklich eine Ahnung, was das Ganze dazu bringt, genau das Verhalten zu zeigen, das es tut. Selbst die besten Neurowissenschaftler verstehen das Gehirn als Ganzes nur unzureichend.

Wahres Schlussfolgern ist nur eine von vielen Theorien, die erklären, wie LLMs ihre Ausgaben erzeugen. Es ist außerdem diejenige, die die meisten Annahmen erfordert. Alle aktuellen Fähigkeiten von LLMs lassen sich durch weitaus einfachere Phänomene erklären, die bei weitem nicht an Denken oder Schlussfolgern heranreichen.

Wenn eine Maschine unzählige Trainingsdaten konsumiert und transformiert, die von Menschen erstellt, von Menschen diskutiert und von Menschen erklärt wurden, dann ist es sehr wahrscheinlich, dass deren Ausgabe menschlichem Schlussfolgern gleicht. Würde ich diesen Artikel fotokopieren, würde niemand behaupten, mein Kopierer habe ihn geschrieben und könne daher denken. Aber macht man den Prozess kompliziert genug, sieht es so aus, als könne er es doch.

Wahres Schlussfolgern vs. statistisches Mustererkennen

Für mich ist eine klare Unterscheidung zwischen wahrem Schlussfolgern und Mustererkennung, was passiert, wenn man den Zugang zu neuen Informationen entzieht. Viele behaupten, LLMs seien keine Plagiatsmaschinen, sie lernten wie Menschen durch Lehrer und Bücher und entwickelten dabei ein Verständnis.

Menschliche Forscher haben vieles durch Lesen von Büchern gelernt. Irgendwann aber erreichte jeder von ihnen einen Punkt, an dem genug Wissen vorhanden war, um eigene originelle Forschung in unerforschtem Terrain zu betreiben. Ein guter Forscher kann zu Themen forschen, zu denen es keine Quelle gibt, an der seine Arbeit überprüft werden kann. Das ist etwas, worin LLMs schlecht sind, bzw. gar nicht zu leisten fähig ist. Halluzinieren ist keine Forschung.

Einem LLM Zugang zum gesamten Internet und zum gesamten aufgezeichneten menschlichen Wissen zu geben und es dann mit einem für Menschen gedachten Quiz zu testen, ist ein billiger Taschenspielertrick. Ich könnte auch 100 % bei einer Multiple‑Choice‑Prüfung erreichen, wenn man mir erlaubte, alle Antworten zu googeln. Der wahre Maßstab für Intelligenz und Schlussfolgern eines LLMs sollte nicht das Umformulieren vorhandener Informationen sein, sondern die Fähigkeit, wirklich Neues zu schaffen.

Sicher, ein LLM könnte wahrscheinlich einen völlig neuen Popsong erzeugen, weil es viele existierende Songs analysieren kann und so etwas scheinbar Neues basierend auf vorhandenen Mustern produziert. Doch jedes Mal, wenn man LLMs mit wirklich neuartigen Aufgaben beauftragt, scheitern diese, weil ihnen die bestehende Literatur zu dem Thema fehlt. Menschen wiederum haben alles entdeckt, was die Menschheit weiß.

Das oft vorgebrachte Gegenargument, „Die meisten Menschen schaffen auch nichts Neues“, ist irrelevant. Der Durchschnittsbürger ist einfach nur mit seinem unbefriedigenden Job überfordert. Im Idealfall würden LLMs alle Routinearbeiten automatisieren, sodass sich die Menschen auf sinnvollere Tätigkeiten konzentrieren könnten.

Ich habe dieses Argument oft gebracht. Wenn Menschen mit so vielen Büchern und Zeitschriften wie sie realistisch lesen können, bahnbrechende Entdeckungen machen konnten, wo sind dann die großen Entdeckungen von LLMs? Ein einzelner Mensch ist durch 8 Milliarden andere Menschen in seiner Kapazität begrenzt. LLMs haben aber Zugriff auf das Wissen aller.

Wären LLMs wirklich denkfähig, würden revolutionäre Entdeckungen nur so vom Himmel fallen.

Man würde denken, eine Maschine mit Zugriff auf jedes Buch, jede Veröffentlichung, jede Rede und jede Studie könnte deutlich besser abschneiden als eine Person, die vielleicht ein Buch pro Tag liest. Doch es passiert nichts. Ab und zu liest man, „vielleicht hat das LLM etwas Neues gemacht, wir wissen es noch nicht“. Aber wären LLMs wirklich denkfähig, würden bei so viel Information revolutionäre Entdeckungen nur so vom Himmel fallen.

Tatsächlich haben wir nur einen Bot geschaffen, der menschliche natürliche Sprache nahezu perfekt nachahmt. Der Rest ist Projektion menschlicher Eigenschaften auf ihn. Einfach gesagt: „LLMs denken“ ist die technologische Version von „Schau, mein Hund lächelt“. Genau wie Hunde ihre Gefühle nicht über menschliche Mimik ausdrücken, gibt es keinen Grund zu glauben, dass ein denkender Rechner genau das abbilden würde, was wie menschliches Schlussfolgern aussieht.

Die Schwierigkeit, LLM‑Schlussfolgern zu widerlegen


Eine Hauptschwierigkeit beim Testen von LLM‑Schlussfolgern ist, dass man ihm normalerweise ein neues Problem geben muss. Sobald neue Probleme veröffentlicht werden, sind Antworten ebenfalls veröffentlicht — und das LLM kann dann einfach eine existierende Antwort aus seinen Trainingsdaten wiedergeben.

Ein Logikproblem, das man in der Anfangszeit nutzen konnte, heißt „Der Wolf, die Ziege und der Kohl“. Sie gehen mit Wolf, Ziege und Kohl zu einem Fluss. Sie haben ein Boot, das nur Sie und ein weiteres Objekt transportieren kann. Bleibt der Wolf mit der Ziege allein, frisst der Wolf die Ziege, bleibt die Ziege mit dem Kohl, frisst die Ziege den Kohl. Wie bringen Sie alle drei sicher über den Fluss?

Die richtige Antwort lautet: Sie bringen die Ziege hinüber und lassen den Wolf und den Kohl zurück. Dann kehren Sie zurück und holen den Kohl, wobei Sie die Ziege allein auf der anderen Seite zurücklassen. Da die Ziege und der Kohl nicht allein gelassen werden können, bringen Sie die Ziege zurück und lassen Sie nur den Kohl zurück. Nun können Sie den Wolf hinüberbringen, wobei Sie den Wolf und den Kohl allein auf der anderen Seite zurücklassen, und schließlich zurückkehren, um die Ziege zu holen.

Jedes LLM konnte dieses Problem mühelos lösen, weil es Tausende von Instanzen dieses Problems und die richtige Lösung im Trainingsdatenbestand hatte. Man stellte jedoch fest, dass durch simples Austauschen eines Objekts bei gleicher Einschränkung das LLM oft nicht mehr antworten konnte. Ersetzt man den Wolf durch einen Löwen, lief das LLM oft aus dem Ruder und produzierte Unsinn.

Das zeigte, dass das LLM nicht wirklich dachte oder das Problem durchdachte, sondern Antworten und Erklärungen aus Trainingsdaten reproduzierte. Jeder Mensch, der das Originalproblem kennt, könnte leicht mit dem Austausch Wolf→Löwe oder Kohl→Salat umgehen. LLMs hingegen behandelten es als völlig neues Problem.

Mit der Zeit wurde dieses Problem teilweise behoben. Vielleicht schrieben Entwickler Algorithmen, um Varianten zu erkennen. Vielleicht halfen auch Nutzer – die Varianten veröffentlichten – dem Modell, das zugrunde liegende Muster zu erfassen und Wörter zu ersetzen.

Dann fand man heraus, dass man das Problem auch „kaputtmachen“ kann, sodass das Verändern des Musters das LLM verwirrt. Etwa indem man es so gestaltet, dass keines der Objekte unbeaufsichtigt bleiben darf, oder alle Objekte unbeaufsichtigt bleiben können. Manchmal gab es gar keinen Grund den Fluss zu überqueren, niemand passte auf das Boot, es war eigentlich ein Auto, oder das Boot fasste alle Gegenstände zugleich. Menschen mit echter Logik würden kaputte Varianten erkennen und korrekt antworten. LLMs hingegen spuckten oft nur Unsinn aus.

Aber natürlich, je mehr Wege gefunden wurden, LLM‑Schlussfolgern zu widerlegen, desto mehr fanden Entwickler Mittel, diese Schwächen zu beheben. Ich vermute stark, dass diese Probleme nicht durch die Einführung von echtem logischem Denken gelöst wurden, sondern durch Sub‑Modelle, die speziell für konkrete Probleme gebaut wurden. Falls das so ist, bewegen wir uns eher weg von AGI und zurück zu spezialisierten LLM-Modellen. So funktioniert „KI“ ja seit Jahrzehnten.

Die Grenzen von LLMs

Ich tendiere persönlich dazu, zu glauben, dass die Technologie der LLMs bereits an eine Grenze gekommen ist. Sie erreichen schnell einen Punkt, an dem mehr Daten, mehr Parameter und mehr Token keine spürbare Verbesserung bringen. Neuere technische Entwicklungen wirken oft wie Hacks.

Chain‑of‑Thought‑Reasoning (CoT)

CoT lässt das LLM das Problem in kleinere Schritte zerlegen. Übersimplifiziert: Fragt man ein LLM 1 + 1 + 1, könnte es einfach 3 antworten, basierend auf Trainingsdaten. Es könnte aber auch 1 + 1 = 2 rechnen und dann 2 + 1 = 3. Zur Validierung könnte es das Ergebnis normal und über verschiedene Ansätze vergleichen.

Das reduziert Halluzinationen bis zu einem gewissen Grad. Die Halluzinationen sind eine dem Prinzip innewohnende Eigenschaft von LLMs, kein Bug, der sich beheben lässt. In manchen Fällen ermöglicht es LLMs, Probleme zu lösen, die sie nicht einfach aus Trainingsdaten beantworten könnten. Aber es bleibt darauf angewiesen, dass das LLM die Zerlegung korrekt vornimmt und keine der Stufen halluziniert. Außerdem benötigt der Vorgang deutlich mehr Zeit und Rechenressourcen.

Da die Attraktivität von LLMs für die meisten Nutzer darin besteht, schnell halbwegs brauchbare Antworten zu erhalten, wollen nur wenige die mehrere Minuten Wartezeit in Kauf nehmen, in der das LLM aus einem Prompt fünfzig macht. Es ist außerdem keine wirkliche Verbesserung der LLM‑Technologie, sondern eher das Lösen der fundamentalen Fehler von LLMs durch das Hinzufügen weiterer (Sub‑)LLMs.

Fazit

Wie bereits zu Anfang gesagt, sind LLMs keine generelle künstliche Intelligenz (AGI) und werden es auch nie sein. Ein Skynet-Szenario (Filmempfehlung: The Terminator, Terminator 2: Judgment Day) ist reine Angstmache von Mainstream-Medien, die nichts verstanden haben und dies auch gar nicht möchten.

KI (AI) entmystifiziert

Dieses Ebook erklärt auf einfache und humorvolle Weise, was AI wirklich ist. Lesen Sie über die Anfänge von AI. Erfahren Sie warum die Antworten von AI nicht auf Fakten beruhen können. Lesen Sie warum AI nicht schlussfolgern oder gar denken kann. Erfahren Sie warum der KI-Hype absolut übertrieben ist und was diese Technologie nur leisten kann. Warum Big-Tech voll auf AI setzt und was das zur Folge hat. Dieses Buch entmystifiziert das Thema AI.

Online bestellen:
Amazon Kindle, Apple Books, Google Books, Thalia, Hugendubel, bücher.de, Osiander, ebook.de, genialokal.de, Kobo, Barnes & Noble, Orell Füssli, Morawa, ecobookstore, ecolibri, deutsche-buchhandlung.de


Nach oben scrollen