Wie Large Language Models (LLMs) wirklich funktionieren

Von Wörtern, Token und Aufmerksamkeit

Einführung

Hast du dich schon einmal gefragt, wie Chatbots wie ChatGPT scheinbar mühelos Texte schreiben, E-Mails formulieren oder sogar Programmcode erzeugen können?
Auf den ersten Blick wirkt es fast magisch: Du schreibst einen Satz, drückst Enter – und Sekunden später erscheint eine vollständige, oft erstaunlich passende Antwort.

Doch hinter dieser vermeintlichen „Magie“ steckt nichts Übernatürliches. Es sind Mathematik, Statistik und eine Menge Rechenleistung am Werk. In diesem Artikel möchte ich Schritt für Schritt erklären:

wie Large Language Models (LLMs) grundsätzlich funktionieren
was es mit der berühmten „Nächste-Wort-Vorhersage“ auf sich hat
was Token sind – und warum sie viel wichtiger sind als „Wörter“
wie Transformer-Modelle mit dem Mechanismus der Attention arbeiten
und welche Rolle menschliches Feedback im Training spielt.

Das Ziel ist kein informatisches Fachskriptum, sondern ein leicht verständlicher Überblick – so, dass du danach sagen kannst: „Okay, jetzt habe ich eine Idee, was da eigentlich passiert.“

Was ist ein Large Language Model (LLM)?

Ein Large Language Model ist im Kern eine gigantische mathematische Funktion.
Diese Funktion nimmt Text als Eingabe und berechnet, mit welcher Wahrscheinlichkeit verschiedene mögliche Fortsetzungen passen würden. Das Modell erzeugt also keine festen Antworten, sondern Wahrscheinlichkeitsverteilungen – und wählt dann daraus den nächsten passenden Textbaustein.

Ein wichtiger Punkt dabei:
LLMs arbeiten nicht wirklich mit „Wörtern“, sondern mit sogenannten Token.

Worte vs. Token – was Token eigentlich sind

Damit ein Computer mit Sprache arbeiten kann, muss Text zunächst in eine Form gebracht werden, die rechnerisch handhabbar ist. Hier kommen Token ins Spiel.

Was ist ein Token?
Ein Token ist ein kleines Stück Text. Es kann ein ganzes Wort sein („Hund“), ein Wortteil („un“, „glaub“, „lich“), ein Satzzeichen („.“) oder sogar ein einzelner Buchstabe.
Welche Einheiten genau als Token zählen, hängt vom jeweiligen „Tokenizer“ ab – einer Methode, die Sprache so zerteilt, dass sie über viele Sprachen hinweg effizient funktioniert.

Warum nicht einfach Wörter?
Weil Sprache unglaublich unregelmäßig ist. Spätestens im Deutschen mit seinen endlosen Komposita wäre ein rein wortbasiertes System schnell überfordert. Außerdem entstehen ständig neue Wörter oder Varianten – Namen, Neologismen, Tippfehler.
Durch die Zerlegung in Token können auch seltene oder neue Formen verstanden werden, weil das Modell mit kleineren, häufigeren Bausteinen arbeitet.

Man kann sich Token wie die Legosteine der Sprache vorstellen. Wörter sind dann ganze Figuren – aus Token zusammengesetzt.

Beispiel:
„Die Kinder spielen draußen.“
Hier könnte der Tokenizer fünf Token erzeugen: „Die“, „ĠKinder“, „Ġspielen“, „Ġdraußen“, „.“
Für uns sind das fünf Wörter – für das Modell aber fünf Token. Und auf dieser Tokenebene „denkt“ und arbeitet das LLM.

Wie LLMs den nächsten Text vorhersagen

Im Zentrum der Funktionsweise steht die Vorhersage des nächsten Tokens.

Das passiert so:

Dein eingegebener Text wird in Token zerlegt.
Das Modell berechnet, wie wahrscheinlich jedes mögliche nächste Token ist.
Es wählt eines aus – oft das wahrscheinlichste, manchmal aber auch zufällig.
Dieses Token wird hinten angehängt.
Das Ganze wiederholt sich, bis der Text fertig ist.

Das bedeutet: Ein LLM generiert Texte Token für Token, also Stück für Stück.

Damit die Ergebnisse nicht langweilig oder immer gleich klingen, wird meist eine kleine Dosis Zufälligkeit eingebaut. Dadurch klingen Antworten natürlicher, variabler und menschlicher – allerdings kann das Modell dadurch auch Fehler machen oder Dinge „halluzinieren“.

Wie LLMs lernen, gute Token vorherzusagen

Damit ein Modell sinnvolle Texte erzeugen kann, braucht es Training – und zwar enorm viel davon.

Beim Training werden Abermilliarden von Textbeispielen verarbeitet. Das Prinzip ist immer gleich:

Das Modell bekommt eine Folge von Token.
Das letzte Token wird entfernt.
Das Modell soll vorhersagen, welches Token als nächstes folgt.
Seine Schätzung wird mit der Realität verglichen.
Liegt es falsch, wird der Fehler gemessen und seine internen „Wegeinstellungen“ (Parameter) minimal angepasst.
Das Ganze wiederholt sich unzählige Male.

So „lernt“ das Modell nach und nach, aus welchen Sprachmustern sich sinnvolle Fortsetzungen ergeben.

Was sind Parameter?
Parameter sind die Stellschrauben des neuronalen Netzwerks. Je mehr Parameter, desto feiner kann ein Modell Muster unterscheiden. Kleine Modelle haben ein paar Millionen Parameter, große LLMs mehrere Hundert Milliarden.
Am Anfang sind sie zufällig – am Ende bilden sie ein feines, hochdimensionales Netz aus mathematischen Beziehungen zwischen Token.

Der Transformer – das Herz moderner LLMs

Bevor es den Transformer gab, verarbeiteten Modelle Text Schritt für Schritt: Wort 1 → Wort 2 → Wort 3. Das war langsam und kontextarm.
2017 stellte Google eine neue Architektur vor: den Transformer. Er revolutionierte das Feld, weil er es Modellen ermöglichte, über Sätze und Absätze hinweg gleichzeitig zu „verstehen“, welche Wörter wichtig sind.

Die drei zentralen Ideen des Transformers:

Embeddings:
Jedes Token wird in eine Zahlenreihe (Vektor) übersetzt. So wird Text zu Mathematik. Ähnliche Token liegen in diesem Zahlenraum auch räumlich nahe beieinander.
Attention:
Das Modell kann für jedes Token entscheiden, welche anderen Token in der Eingabe wichtig sind. Es „achtet“ also gezielt auf bestimmte Zusammenhänge.
Beispiel: In „Der Hund, der im Park spielt, ist braun“ muss das Modell erkennen, dass sich „ist braun“ auf „Hund“ bezieht – nicht auf „Park“. Ohne Attention wäre das kaum möglich.
Feedforward-Netz:
Nach der Attention werden die Informationen durch klassische neuronale Schichten weiterverarbeitet – eine Art Verfeinerung der gelernten Zusammenhänge.

Diese Prozesse laufen in vielen Schichten (Layern) übereinander ab, typischerweise Dutzende Male. Jede Schicht verfeinert die Signale und Bezüge etwas weiter.

Vom Token zur Vorhersage – Schritt für Schritt

Wie sieht der Ablauf in einem Transformer aus?

Tokenisierung: Der Text wird in Token übersetzt.
Embeddings: Jedes Token wird zu einem Zahlenvektor.
Mehrere Transformer-Layer:
- Attention berechnet, welche anderen Token relevant sind.
- Feedforward-Schichten verarbeiten diese Beziehungen weiter.
Vorhersage: Am Ende entsteht eine Wahrscheinlichkeitsverteilung über alle möglichen nächsten Token.
Auswahl: Das Modell wählt (zufällig oder gezielt) das nächste Token.
Fortsetzung: Das neue Token geht wieder in den Prozess, und alles beginnt von vorne.

So entsteht ein Text, Token für Token. Die scheinbar fließende Sprache ist das Ergebnis unzählig vieler mathematischer Berechnungen.

Reinforcement Learning aus menschlichem Feedback (RLHF)

Das bisher Beschriebene erklärt, wie Modelle Sprache lernen.
Aber ein guter Chatbot soll nicht nur sprachlich korrekt sein, sondern auch hilfreich, höflich, sicher. Das reine Sprachtraining reicht dafür nicht.

Hier kommt Reinforcement Learning from Human Feedback (RLHF) ins Spiel.

So funktioniert es – in einfachen Worten:

Menschen geben dem vortrainierten Modell eine Eingabe.
Das Modell generiert mehrere Antworten.
Menschen bewerten diese: Welche klingt besser, hilfreicher, sicherer?
Diese Bewertungen trainieren ein zweites Modell, das „lernt“, wie gute Antworten aussehen.
Schließlich wird das Sprachmodell so angepasst, dass es Varianten bevorzugt, die dieses Bewertungsmodell als besser einstuft.

Das ist eine Art Feintuning der Persönlichkeit – kein neues Sprachlernen, sondern eine Ausrichtung auf wünschenswertes Verhalten.

Häufige Missverständnisse

Arbeiten LLMs wirklich mit Wörtern?
Nein, sie arbeiten mit Token. Sprache wird in kleine Einheiten zerlegt, sodass das Modell effizienter rechnen kann.

Warum klingen die Antworten oft so menschlich?
Weil die Wahrscheinlichkeitsverteilungen auf gigantischen Mengen menschlicher Sprache basieren. Das Modell imitiert also typische Ausdrucksmuster – ohne sie zu verstehen.

Warum machen LLMs Fehler oder „halluzinieren“?
Weil sie keine Logikmaschinen oder Wissensdatenbanken sind, sondern Wahrscheinlichkeitsmodelle.
Sie erzeugen plausible Fortsetzungen – nicht notwendigerweise wahre. Sie erscheinen sicher, obwohl sie sich statistisch „nur“ für eine sprachlich wahrscheinliche Antwort entschieden haben.

Können LLMs denken oder verstehen?
Nein. Sie verarbeiten Muster, keine Bedeutungen. Aber ihr Output kann so kohärent wirken, dass wir unweigerlich Denken hineinprojizieren.

Fazit: Mathematik statt Magie

Large Language Models sind keine fühlenden Systeme. Sie sind riesige Rechenmaschinen, die gelernt haben, Textbausteine mit erstaunlicher statistischer Sicherheit vorherzusagen.

Die wichtigsten Erkenntnisse auf einen Blick:

LLMs arbeiten mit Token – nicht mit Wörtern.
Sie lernen, welche Token typischerweise aufeinander folgen.
Die Transformer-Architektur mit Attention macht es möglich, Zusammenhänge im gesamten Text zu berücksichtigen.
RLHF sorgt dafür, dass Chatbots freundlich, hilfreich und sicherer werden.
Und: Auch wenn die Ergebnisse oft verblüffend wirken, steckt keine Magie, sondern pure Mathematik dahinter.

Wenn du das nächste Mal mit einem Chatbot interagierst, kannst du dir vorstellen, wie Milliarden Token, Parameter und Berechnungen in Bruchteilen von Sekunden ineinandergreifen – nur um dein nächstes passendes Token vorherzusagen.

Das ist kein „Denken“, aber es ist ein beeindruckendes Beispiel dafür, wie weit maschinelle Sprachverarbeitung gekommen ist – und wie klar erkennbar bleibt, dass selbst komplexe Systeme wie ChatGPT letztlich nichts anderes tun als das:
sie berechnen Wahrscheinlichkeiten, um Sprache statistisch perfekt nachzubilden.