Die ersten LLMs – die heutige Variante von AI

Die historische Entwicklung der Large Language Modelle zeigt den Weg von primitiven statistischen Gesetzmäßigkeiten hin zu hochkomplexen neuronalen Strukturen, die heutzutage Texte in menschenähnlicher Qualität erzeugen können.

Bevor die moderne Ära dieser Sprachmodelle anbrach, stützte sich die digitale Verarbeitung von Sprache vornehmlich auf zwei unterschiedliche methodische Ansätze. Bis etwa zum Jahr 2010 dominierten die N-Gramm-Modelle, welche lediglich die Wahrscheinlichkeit eines folgenden Begriffes auf Basis der unmittelbar vorangegangenen Wörter schätzten. Ein tieferes Verständnis für den umfassenden Kontext eines gesamten Satzes fehlte diesen Systemen jedoch vollständig. Später folgten rekurrente neuronale Netze sowie spezielle Speicherstrukturen, welche zwar längere Abfolgen von Wörtern verarbeiten konnten, aber aufgrund ihrer sequenziellen Arbeitsweise sehr ineffizient waren. Da diese Modelle jedes Wort einzeln nacheinander analysieren mussten, erwies sich das Training mit gewaltigen Datenmengen als extrem zeitaufwendig.

Der entscheidende Wendepunkt ereignete sich im Jahr 2017 durch eine Forschergruppe bei Google Research in Kalifornien. Mit der Veröffentlichung ihrer Arbeit über den Aufmerksamkeitsmechanismus stellten sie die revolutionäre Transformer-Architektur vor, welche die Grundlage für die heutige künstliche Intelligenz bildet.

Das Besondere an dieser neuen Struktur ist die Fähigkeit, einen gesamten Textblock gleichzeitig zu erfassen, anstatt ihn mühsam von links nach rechts zu lesen. Durch den innovativen Aufmerksamkeitsmechanismus lernt das System, welche Begriffe innerhalb eines Satzes für die Bedeutung anderer Wörter entscheidend sind, unabhängig von deren jeweiliger Position im Text.

Dieser technologische Sprung löste einen intensiven Wettbewerb zwischen den führenden Technologieunternehmen aus. OpenAI präsentierte im Jahr 2018 das Modell GPT-1 und bewies damit das Potenzial von vortrainierten Transformatoren auf Basis riesiger Mengen Internetdaten. Fast zeitgleich antwortete Google mit dem Modell BERT, welches durch seine bidirektionale Arbeitsweise den Kontext eines Wortes aus beiden Richtungen simultan betrachtete. Diese Innovation verbesserte die Qualität der Suchergebnisse massiv. Schließlich ergänzte das Unternehmen Meta diese Entwicklung durch die Optimierung bestehender Ansätze und die spätere Bereitstellung von Quellcode für die Fachwelt. Diese kontinuierliche Verfeinerung führte letztlich zu der heute existierenden leistungsstarken künstlichen Intelligenz.

Nach oben scrollen