Künstliche Intelligenz

Large Language Models: Funktionsweise, Transformer und Tokens

Ein Large Language Model (LLM), zu Deutsch grosses Sprachmodell, ist ein hochentwickeltes neuronales Netz, das darauf trainiert wurde, menschliche Sprache zu verstehen, zu strukturieren, zu übersetzen und zu generieren. LLMs bilden das Fundament moderner Text-KI-Systeme und damit auch der generativen KI. Sie basieren auf tiefem Lernen (Deep Learning) und verarbeiten Texte auf Basis komplexer statistischer Wahrscheinlichkeiten.

Im Kern ist ein LLM eine extrem leistungsfähige Vorhersagemaschine: Es schätzt für eine gegebene Folge von Tokens, welches Token als nächstes am wahrscheinlichsten folgt. Aus dieser scheinbar simplen Aufgabe – dem Vorhersagen des nächsten Tokens – entsteht durch Training mit Billionen von Wörtern die Fähigkeit, zu übersetzen, zusammenzufassen, zu programmieren und komplexe Fragen zu beantworten.

Die Transformer-Architektur als technologischer Durchbruch

Der massive Leistungssprung moderner LLMs geht auf die Transformer-Architektur zurück, die 2017 in der Forschungsarbeit „Attention Is All You Need“ vorgestellt wurde. Zuvor nutzten Modelle rekursive neuronale Netze (RNNs), die Texte Wort für Wort nacheinander verarbeiten mussten, was langsam war und den Kontext langer Sätze schnell verlor.

Der Transformer brachte zwei entscheidende Neuerungen:

  1. Parallele Verarbeitung: Texte können als Ganzes eingelesen und verarbeitet werden. Dies ermöglichte erst das Training mit riesigen Datenmengen auf moderner Grafikhardware (GPUs).
  2. Self-Attention-Mechanismus (Selbstaufmerksamkeit): Das Modell berechnet für jedes Wort in einem Satz die Beziehung zu allen anderen Wörtern – und zwar unabhängig von deren Abstand im Satz. Im Satz „Die Bank war alt und morsch, weshalb wir uns nicht darauf setzten“ versteht das Modell über Self-Attention sofort, dass sich das Wort „Bank“ auf das Sitzmöbel und nicht auf das Geldinstitut bezieht, weil es eine starke semantische Verknüpfung zu „setzten“ und „morsch“ herstellt.

Der zweistufige Trainingsprozess von LLMs

Ein einsatzbereites Sprachmodell entsteht in der Regel in zwei Phasen:

Phase 1: Pre-training (Vor-Training)

In dieser Phase lernt das Modell die Struktur von Sprache. Es liest riesige Mengen unstrukturierter Texte (Websites, Bücher, Fachartikel) und versucht immer wieder, das jeweils nächste Wort in einem Satz vorherzusagen.

  • Das Ergebnis: Ein sogenanntes Base Model. Es kann Sätze fortführen, ist aber noch nicht gut darin, direkte Fragen zu beantworten oder Anweisungen auszuführen.

Phase 2: Fine-tuning (Feinabstimmung)

Das Base Model wird mit kuratierten Datensätzen (Fragen und passenden Antworten) verfeinert. Häufig wird hierbei Reinforcement Learning from Human Feedback (RLHF) eingesetzt: Menschliche Tester bewerten verschiedene Antworten des Modells. Das Modell lernt dadurch, nützlichere, sicherere und freundlichere Antworten zu geben.

  • Das Ergebnis: Ein Instruction-tuned Model (wie es in Chat-Assistenten eingesetzt wird).

Tokens: Die Währung der Sprachmodelle

Sprachmodelle verarbeiten keine Buchstaben oder ganzen Wörter direkt. Vor der Verarbeitung teilt ein Tokenizer den Text in kleinere Segmente auf – die sogenannten Tokens.

  • Häufige Wörter werden als ein einziges Token gespeichert.
  • Seltene Wörter werden in mehrere Teilwörter zerlegt (z. B. wird „Informatikunternehmen“ in „Informatik“, „unter“ und „nehmen“ unterteilt).
  • Jedes Token wird intern einer eindeutigen Zahl zugewiesen.

Dieses Token-Konzept erklärt auch, warum LLMs manchmal Probleme mit dem Rückwärtsbuchstabieren von Wörtern haben: Sie sehen die einzelnen Buchstaben nicht, sondern nehmen nur das gesamte Token-Muster wahr. Vertiefende Details und Kostenrechnung finden Sie auf der Seite Was ist ein Token?.


Wie ein LLM eine Antwort erzeugt: die Inferenz

Wenn Sie eine Frage stellen, durchläuft das Modell für jedes neue Token denselben Zyklus: Es berechnet eine Wahrscheinlichkeitsverteilung über das gesamte Vokabular und wählt daraus ein Token aus. Zwei Parameter steuern dabei, wie «kreativ» oder «konservativ» die Auswahl ausfällt:

ParameterNiedriger WertHoher Wert
TemperatureDeterministisch, faktentreu, wiederholbarKreativ, abwechslungsreich, aber fehleranfälliger
Top-p (Nucleus Sampling)Nur wahrscheinlichste Tokens (enger Fokus)Grössere Token-Auswahl (mehr Vielfalt)

Für faktische Aufgaben wie eine RAG-Auskunft wählt man eine niedrige Temperature (z. B. 0–0.3), damit das Modell nah an den Quellen bleibt. Für Brainstorming oder Marketingtexte sind höhere Werte sinnvoll.


Open-Source- vs. proprietäre Modelle

In der Praxis stehen zwei Modellwelten zur Auswahl, die jeweils eigene Vor- und Nachteile haben:

KriteriumProprietäre Modelle (API)Open-Source-Modelle (Self-Hosted)
BetriebAnbieter-Cloud, sofort nutzbarEigene Infrastruktur/GPUs nötig
DatenschutzDaten verlassen das HausVolle Datenkontrolle (DSGVO-freundlich)
KostenPro Token abgerechnetFixe Infrastrukturkosten
AnpassbarkeitBegrenztVolles Fine-tuning möglich

Für Unternehmen mit sensiblen Daten ist die Frage des Datenschutzes oft ausschlaggebend: Self-Hosted-Modelle verarbeiten interne Dokumente, ohne dass diese einen externen Anbieter erreichen.


Einschränkungen und Herausforderungen

  • Kontextfenster: Jedes Modell hat eine maximale Anzahl von Tokens, die es auf einmal verarbeiten kann. Wird dieses Limit überschritten, „vergisst“ das Modell den Anfang des Gesprächs oder des Dokuments.
  • Kein echtes Bewusstsein: LLMs besitzen kein Verständnis für die reale Welt oder physikalische Gesetze. Sie sind hochpräzise statistische Wortwahrscheinlichkeitsrechner.
  • Aktualität der Daten (Knowledge Cutoff): Ein Modell kennt nur die Daten, mit denen es trainiert wurde. Um aktuelle oder interne Unternehmensdaten einzubinden, müssen RAG-Architekturen verwendet werden.
  • Halluzinationen: Fehlt dem Modell Wissen, generiert es trotzdem eine plausibel klingende Antwort. Diese Halluzinationen sind das grösste Risiko beim produktiven Einsatz und lassen sich durch Grounding eindämmen.

LLM allein, Fine-tuning oder RAG?

Ein häufiges Missverständnis ist, dass man ein Modell zwingend neu trainieren müsse, um es Firmenwissen zu lehren. In den meisten Fällen ist Retrieval-Augmented Generation (RAG) der schnellere und günstigere Weg.

AnsatzEignungAufwand
LLM purAllgemeinwissen, TextumwandlungSehr gering
RAGAktuelles & internes Faktenwissen, Quellenangaben nötigMittel
Fine-tuningFester Stil, Format oder FachjargonHoch

Eine ausführliche Gegenüberstellung finden Sie unter Fine-Tuning vs. RAG. Für gutes Prompting lohnt sich zusätzlich der Leitfaden Prompt Engineering.

[!TIP] Um Sprachmodellen den Zugriff auf dynamische Daten und interne Dokumente zu ermöglichen, wird die Retrieval-Augmented Generation (RAG) eingesetzt. Testen Sie die Funktionsweise live in der RAG-Demo auf allerate.dev.

Häufig gestellte Fragen (FAQ)

Wie gross ist ein Token bei Sprachmodellen?

Ein Token entspricht im Durchschnitt etwa 4 Zeichen oder 0.75 Wörtern im Deutschen. Ein Text mit 100 Wörtern besteht somit aus etwa 130 bis 140 Tokens. Sprachmodelle rechnen und berechnen ihre Limits (wie das Kontextfenster) ausschliesslich in Tokens.

Was bedeutet das „Large“ bei Large Language Models?

Das „Large“ bezieht sich auf die Anzahl der Parameter (die gewichteten Verbindungen im neuronalen Netz, oft Dutzende oder Hunderte Milliarden) sowie die gigantische Menge an Textdaten, die für das Training verwendet wurden.

Was ist der Unterschied zwischen einem LLM und einem Chatbot?

Ein LLM ist das zugrunde liegende Sprachmodell, das Texte vorhersagt. Ein Chatbot ist eine Anwendung, die ein LLM nutzt und um Bausteine wie ein Gesprächsgedächtnis, Sicherheitsfilter und oft eine RAG-Anbindung an aktuelle Daten ergänzt.

Warum erfinden LLMs manchmal Fakten?

LLMs sind Wahrscheinlichkeitsrechner und besitzen keine Faktendatenbank. Wenn ihnen Wissen fehlt, generieren sie dennoch die statistisch plausibelste Wortfolge – das Ergebnis sind sogenannte Halluzinationen. Grounding über RAG reduziert dieses Risiko deutlich.

Was sind Parameter bei einem Sprachmodell?

Parameter sind die trainierbaren Gewichte im neuronalen Netz, die während des Trainings angepasst werden. Grosse Modelle haben Dutzende bis Hunderte Milliarden Parameter; ihre Anzahl beeinflusst Leistungsfähigkeit, Speicherbedarf und Inferenzkosten.