KI-Modelle von Google, OpenAI und Anthropic scheiterten in einer Studie: Alle getesteten Systeme verloren Geld bei simulierten Fußball-Wetten.
Bezüglich künstlicher Intelligenz, die immer häufiger als Allheilmittel für komplexe Probleme gehandelt wird, bringt eine neue Studie aus London eine ernüchternde Erkenntnis. Selbst die fortschrittlichsten AI-Modelle der Welt scheitern, wenn es darum geht, über längere Zeiträume hinweg realistische Vorhersagen in dynamischen Umgebungen zu treffen. Die Firma General Reasoning hat acht führende KI-Systeme, darunter Modelle von Google, OpenAI, Anthropic und xAI, in einem virtuellen Szenario getestet, das die Premier-League-Saison 2023 bis 2024 nachbildete. Die KI sollte auf Basis historischer Daten und laufend aktualisierter Spielerinformationen Wetten platzieren, um Gewinne zu maximieren und Risiken zu managen. Doch das Ergebnis war alles andere als triumphal. Alle getesteten Systeme verloren Geld. Einige gingen sogar pleite.
Was macht diesen Test so aufschlussreich? Es geht nicht um ein theoretisches Gedankenspiel, sondern um eine Simulation, die der Realität sehr nahekommt. Die KI-Agenten hatten Zugriff auf umfangreiche Statistiken, vergangene Spielverläufe und Teamdaten, sprich alles, was ein professioneller Wetter benötigen würde. Doch sie durften nicht ins Internet gehen, um aktuelle Ergebnisse abzurufen. Sie mussten mit den Informationen auskommen, die ihnen zu Beginn zur Verfügung standen, und sich im Laufe der Saison an neue Entwicklungen anpassen. Das ist genau das, was Menschen in der Praxis tun. Sie lernen aus Erfahrung, reagieren auf Überraschungen und passen ihre Strategien an. Die KI hingegen zeigte, dass sie in solchen dynamischen, unvorhersehbaren Umgebungen noch weit davon entfernt ist, menschliche Intelligenz zu ersetzen.
Besonders auffällig war das Abschneiden von xAIs Grok 4.20. Das Modell ging nicht nur in einem der drei Versuche pleite, sondern scheiterte auch in den beiden anderen. Google’s Gemini 3.1 Pro zeigte zumindest in einem Durchlauf ein bemerkenswertes Ergebnis mit 34 Prozent Gewinn – doch in einem anderen Versuch war es ebenfalls bankrott. Anthropic’s Claude Opus 4.6 schnitt am besten ab, mit einem durchschnittlichen Verlust von nur elf Prozent und einem fast ausgeglichenen Ergebnis in einem der Versuche. Doch selbst das ist kein Grund zur Freude. Denn das Ziel war nicht, Verluste zu minimieren, sondern Gewinne zu erzielen. Und genau das schaffte keines der Modelle über die gesamte Saison hinweg.
Die Autoren der Studie, darunter Ross Taylor, CEO von General Reasoning und ehemaliger Forscher bei Meta, wollen damit eine wichtige Lücke in der aktuellen KI-Forschung aufzeigen. Die meisten Benchmarks, mit denen KI-Systeme getestet werden, sind statisch. Sie messen, wie gut ein Modell eine Aufgabe löst, die klar definiert und unveränderlich ist, wie zum Beispiel das Schreiben eines Textes oder das Lösen einer mathematischen Gleichung. Doch die reale Welt ist nicht statisch. Sie ist chaotisch, unvorhersehbar und voller Überraschungen. Ein Fußballspiel kann durch eine Verletzung, einen Schiedsrichterentscheid oder einfach durch einen unerwarteten Moment des Glücks entschieden werden. Solche Faktoren lassen sich nicht in einer Datenbank erfassen. Und genau deshalb scheitern selbst die besten Modelle, wenn sie in solche Umgebungen hineingeworfen werden.
Für viele Menschen, die befürchten, dass KI ihre Jobs bedroht, könnte diese Studie eine gewisse Erleichterung sein. Denn sie zeigt, dass selbst in Bereichen, in denen KI bereits als überlegen gilt, wie zum Beispiel beim Programmieren, es noch viele andere Aufgaben gibt, bei denen sie versagt. Taylor betont, dass Softwareentwicklung zwar wirtschaftlich wichtig ist, aber nur ein Teil des menschlichen Handelns darstellt. Es gibt zahlreiche Aktivitäten, die über längere Zeiträume hinweg stattfinden und in denen menschliche Erfahrung, Intuition und Anpassungsfähigkeit entscheidend sind. Und genau diese Fähigkeiten kann KI nicht ersetzen.
Fazit
Die Studie von General Reasoning ist noch nicht durch Gleichrangige begutachtet worden, doch sie wirft wichtige Fragen auf. Wie messen wir den Fortschritt von KI wirklich? Sind wir zu sehr auf spektakuläre, aber begrenzte Leistungen fokussiert? Und wie können wir sicherstellen, dass wir KI nicht überbewerten, nur weil sie in bestimmten Bereichen brilliert? Die Antwort liegt vielleicht darin, dass wir realistische, dynamische Tests entwickeln müssen, die der Komplexität der realen Welt gerecht werden. Denn nur dann können wir wirklich beurteilen, was KI kann und was sie noch nicht kann.