Microsofts neue KI übertrifft Mythos und schockiert OpenAI

M-DASH: Wie Microsoft die KI-Sicherheitslandschaft mit einem System-Ansatz revolutioniert.

Lesen Sie zauberhafte Geschichten oder Sachbücher zu den Themen Linux, KI und Open Source Software.  Marketingvideos, die Ihr Unternehmen sichtbarer machen. Einzigartige handgemalte Designs für Ihr Outfit, die es nur hier gibt.

Die Welt der Cybersicherheit befindet sich in einem dramatischen Wandel, und Microsoft hat mit einer neuen Ankündigung gezeigt, dass der Weg zur künstlichen Intelligenz nicht zwingend über das Trainieren des einen stärksten Modells führt. Das Unternehmen hat M-DASH vorgestellt, ein hoch entwickeltes, KI-gestütztes Sicherheitssystem, das als Multi-Model Agentic Scanning Harness bezeichnet wird. Dieses System scheint nicht nur bestehende Benchmarks zu überragen, sondern stellt auch einen fundamental neuen Ansatz für die Erkennung von Software-Schwachstellen dar.

Das System M-DASH hat kürzlich die CyberGym-Benchmark-Liste mit einem beeindruckenden Ergebnis von 88,45 Prozent angeführt. Zum Vergleich erreichte das Mythos-Modell von Anthropic lediglich 83,1 Prozent und das GPT-5.5 von OpenAI kam auf 81,8 Prozent. Anthropic und OpenAI verwendeten ihre jeweils fortschrittlichsten und exklusivsten Modelle für diesen Test. Microsoft hingegen verfügte über kein eigenes Frontier-Modell, das mit diesen Giganten mithalten konnte. Stattdessen nutzte das Team eine orchestrierte Pipeline aus mehr als hundert spezialisierten KI-Agenten, die auf öffentlich zugänglichen Modellen anderer Hersteller basieren. Es ist eine Meisterleistung der Ingenieurskunst, bei der die Stärke nicht in einem einzelnen Modell liegt, sondern in der intelligenten Verknüpfung und dem Zusammenspiel vieler kleinerer Einheiten.

Hinter diesem System steht ein Team von Experten aus der Abteilung für autonome Code-Sicherheit bei Microsoft. Mehrere Mitglieder dieser Gruppe waren zuvor Teil von Team Atlanta, das beim DARPA AI Cyber Challenge einen Preis in Höhe von 29,5 Millionen Dollar gewonnen hat. Diese Erfahrung im Bereich autonomer Systeme, die reale Schwachstellen finden und beheben können, fließt direkt in die Architektur von M-DASH ein. Der Prozess funktioniert wie eine hochmoderne Montagelinie, bei der verschiedene Experten für unterschiedliche Phasen verantwortlich sind. Das System durchläuft fünf Hauptstadien, beginnend mit der Vorbereitung, bei der Quellcode eingelesen und Angriffsflächen analysiert werden. Anschließend scannen Auditoren-Agenten den Code nach potenziellen Problemen. In der Validierungsphase treten Debattierer-Agenten auf, die die Funde infrage stellen und prüfen, ob sie tatsächlich ausnutzbar sind. Ein Deduplizierungs-Schritt fasst ähnliche Ergebnisse zusammen, und schließlich konstruieren Beweiser-Agenten reale Eingaben, um den Fehler aktiv zu provozieren.

Ein entscheidender Vorteil dieses Ansatzes ist die Fähigkeit des Systems, über mehrere Dateien hinweg Muster zu erkennen, die für einen einzelnen Beobachter oder ein einzelnes Modell unsichtbar blieben. Es gibt zwei konkrete Beispiele, die in den Windows-Updates für Mai gepatcht wurden. Die erste Schwachstelle, CVE-2026-33827, befindet sich in der tcpip.sys und ist ein klassisches Use-After-Free-Problem. Die zweite, CVE-2026-33824, betrifft den IKEEXT-Dienst für VPN-Verbindungen und ist eine Double-Free-Lücke, die sich über sechs verschiedene Dateien erstreckt. Solche komplexen Fehler lassen sich nicht finden, wenn man nur einen kleinen Code-Ausschnitt betrachtet. M-DASH kann jedoch den Datenfluss über mehrere Dateien hinweg verfolgen und vergleichen, wie ähnliche Operationen an anderer Stelle korrekt gehandhabt wurden. Diese vergleichende Analyse, unterstützt durch das ständige Hinterfragen und Debattieren der Agenten untereinander, ermöglicht es dem System, Fehler zu identifizieren, die selbst für menschliche Experten extrem schwer zu entdecken sind.

Die Effektivität von M-DASH wurde nicht nur an theoretischen Benchmarks getestet. Bei der Analyse historischer Fehler in Windows-Komponenten wie clfs.sys und tcpip.sys erreichte das System eine Wiederfindungsrate von 96 bis 100 Prozent über einen Zeitraum von fünf Jahren. Noch beeindruckender ist das Ergebnis bei einem privaten Gerätetreiber, der für Interviews mit Sicherheitsexperten verwendet wird und 21 absichtlich eingebaute Fehler enthält. Da dieser Treiber nicht öffentlich ist, konnte er nicht im Training der zugrunde liegenden Modelle enthalten sein. M-DASH fand alle 21 Fehler mit null falschen Positivmeldungen. Dies beweist, dass die Architektur des Systems robust genug ist, um auch völlig unbekannte Code-Strukturen zu analysieren.

Dieser Erfolg wirft eine wichtige Frage über die Zukunft der künstlichen Intelligenz auf. Während große Wettbewerber wie Anthropic und OpenAI ihre Ressourcen darauf konzentrieren, einzelne Modelle immer leistungsfähiger zu machen, hat Microsoft gezeigt, dass die Orchestrierung vorhandener Modelle einen gleichwertigen oder sogar überlegenen Weg darstellen kann. Die Stärke liegt in der Systemarchitektur, den spezialisierten Agenten und den Validierungsprozessen, die auch dann erhalten bleiben, wenn sich die zugrunde liegenden Modelle weiterentwickeln. Dies bedeutet, dass der Wert zukünftig weniger im einzelnen Modell als vielmehr in der Fähigkeit liegt, diese Modelle effektiv zu kombinieren und zu steuern.

Allerdings bringt dieser Fortschritt auch Risiken mit sich. Da die Technologie auf öffentlich zugänglichen Modellen basiert und keine exklusiven technischen Barrieren besitzt, können Angreifer ähnliche Ansätze nutzen, um schneller Schwachstellen zu finden und auszunutzen. Das Wettrüsten in der Cybersicherheit hat sich somit beschleunigt. Microsoft betont zwar, dass M-DASH noch in einer frühen Phase der privaten Vorschau für Kunden steckt, aber die Ergebnisse sind ein deutliches Signal. Der Fokus verschiebt sich von der reinen Modellstärke hin zur Ingenieurskunst hinter dem Modell. Für die Branche bedeutet dies, dass die Frage nicht mehr lautet, welches Modell das stärkste ist, sondern welches System die vorhandenen Fähigkeiten am besten nutzt, um reale Probleme zu lösen.

Nach oben scrollen