Künstliche Intelligenz

Generative KI verständlich erklärt: Grundlagen und Modelle

Generative Künstliche Intelligenz (oft abgekürzt als GenAI) bezeichnet eine Klasse von Algorithmen der künstlichen Intelligenz, die in der Lage sind, eigenständig neue Inhalte zu erzeugen. Im Gegensatz zu klassischen KI-Systemen, die Daten lediglich analysieren, klassifizieren oder darauf basierend Entscheidungen treffen, kreiert generative KI Texte, Bilder, Musik, Code oder synthetische Daten, die von menschengemachten Werken kaum zu unterscheiden sind.

Die bekanntesten Vertreter generativer KI sind heute grosse Sprachmodelle (LLMs), die über Prompt Engineering gesteuert werden. Wer ihre Stärken nutzen will, muss aber auch ihre Schwäche kennen: die Neigung zu Halluzinationen, also überzeugend formulierten, aber falschen Aussagen.

Diskriminative vs. Generative Modelle

Um die Funktionsweise generativer KI zu verstehen, hilft ein Vergleich mit der klassischen (diskriminativen) KI:

  • Diskriminative Modelle (Klassifikatoren): Sie lernen die Grenzen zwischen verschiedenen Datenklassen. Wenn Sie ein Modell mit Bildern von Hunden und Katzen trainieren, lernt es den Unterschied. Erhält es ein neues Bild, entscheidet es: „Das ist ein Hund (Wahrscheinlichkeit 95 %).“
  • Generative Modelle: Sie lernen die Wahrscheinlichkeitsverteilung der Trainingsdaten selbst. Sie verstehen, wie ein Hund aufgebaut ist. Auf Knopfdruck können sie ein völlig neues Bild eines Hundes erzeugen, der in der Realität nie existiert hat.

Die drei wichtigsten Modell-Architekturen

Generative KI-Systeme basieren auf verschiedenen mathematischen Konzepten und Architekturen, je nachdem, welche Art von Daten sie verarbeiten.

1. Generative Adversarial Networks (GANs)

GANs wurden 2014 vorgestellt und revolutionierten die Bildgenerierung. Sie bestehen aus zwei konkurrierenden neuronalen Netzen:

  • Der Generator versucht, täuschend echte Daten (z. B. gefälschte Gesichter) aus zufälligem Rauschen zu erstellen.
  • Der Diskriminator vergleicht diese künstlichen Daten mit echten Trainingsdaten und versucht zu entscheiden, ob das Bild echt oder gefälscht ist.
  • Der Lernprozess: Beide Netze trainieren gegenseitig. Der Generator wird immer besser im Fälschen, der Diskriminator immer besser im Erkennen. Am Ende erzeugt der Generator extrem fotorealistische Bilder.

2. Diffusionsmodelle (Diffusion Models)

Diese Architektur bildet die Grundlage für moderne Bildgenerierungstools wie Midjourney oder Stable Diffusion.

  • Das Prinzip: Im Training wird ein Bild schrittweise mit zufälligem Rauschen zerstört (Vorwärts-Diffusion). Das neuronale Netz lernt anschliessend den umgekehrten Prozess: aus reinem Rauschen Schritt für Schritt wieder ein klares Bild zu rekonstruieren (Rückwärts-Diffusion).

3. Transformer-Modelle (Auto-regressive Modelle)

Diese Architektur treibt moderne Sprachmodelle (LLMs) an. Sie berechnen für eine Eingabesequenz von Wörtern (Prompt) die statistisch wahrscheinlichste Fortsetzung Wort für Wort (bzw. Token für Token).


Die drei Architekturen im Vergleich

Welche Architektur zum Einsatz kommt, hängt vom Datentyp und vom Ziel ab:

ArchitekturPrimärer DatentypStärkeTypische Tools
GANBilderFotorealismusStyleGAN, DeepFake
DiffusionsmodellBilder, VideoHohe Detailtreue, steuerbarMidjourney, Stable Diffusion
TransformerText, CodeSprachverständnis, VielseitigkeitGPT, Claude, Gemini

Während GANs und Diffusionsmodelle die Bildwelt dominieren, sind Transformer-Modelle die Grundlage fast aller textbasierten Anwendungen – von Chatbots bis zur Code-Generierung.


Diskriminativ vs. generativ: der Kernunterschied

Der fundamentale Unterschied lässt sich an einer einzigen Frage festmachen – «unterscheiden» oder «erzeugen»:

AspektDiskriminative KIGenerative KI
AufgabeKlassifizieren, bewertenNeue Inhalte erzeugen
LerntGrenzen zwischen KlassenVerteilung der Daten selbst
Beispiel«Ist das Spam?»«Schreibe eine E-Mail»
AusgabeLabel / WahrscheinlichkeitText, Bild, Code

Beide Ansätze schliessen sich nicht aus: Moderne Systeme kombinieren sie, etwa wenn ein Diskriminator in einem GAN die Qualität der generierten Daten bewertet.


Anwendungsmöglichkeiten in Unternehmen

Der Einsatz generativer KI bietet erhebliche Effizienzgewinne in verschiedenen Fachbereichen:

  • Texterstellung & Redaktion: Automatisches Zusammenfassen langer Dokumente, Entwerfen von E-Mails oder Verfassen von Marketing-Texten.
  • Softwareentwicklung: Programmierassistenten generieren Code-Entwürfe, schreiben Unit Tests oder übersetzen Legacy-Code in moderne Sprachen wie Java (z.B. bei Spring-Boot-Migrationen).
  • Design & Produktentwicklung: Schnelle Generierung von UI-Prototypen, Werbegrafiken oder Produktkonzepten.
  • Synthetische Daten: Erzeugung von künstlichen Testdaten für Softwaretests oder das Training anderer Machine-Learning-Modelle unter strikter Einhaltung des Datenschutzes.

Grenzen und Risiken generativer KI

So mächtig generative Modelle sind – ein verantwortungsvoller Einsatz erfordert das Bewusstsein für ihre Schwächen:

  • Halluzinationen: Modelle erzeugen flüssige, aber faktisch falsche Aussagen. Im Unternehmenskontext mindert man dies durch Retrieval-Augmented Generation, die Antworten an geprüfte Quellen bindet.
  • Veraltetes Wissen: Das Trainingswissen hat einen Stichtag. Aktuelle Fakten kennt ein reines Modell nicht – auch hier hilft RAG mit aktuellen Dokumenten.
  • Urheberrecht & Datenschutz: Trainingsdaten und generierte Inhalte werfen rechtliche Fragen auf. Für sensible Daten sind lokale oder europäische Modelle sowie klare Governance-Regeln wichtig.
  • Bias: Modelle übernehmen Verzerrungen aus den Trainingsdaten und können diese reproduzieren.

Praxisbeispiel: generativ vs. faktentreu

Fragt man ein reines Sprachmodell «Wie hoch war unser Q3-Umsatz?», erfindet es mangels Datenzugriff eine plausibel klingende Zahl. Dasselbe Modell, eingebettet in ein RAG-System, liest zuerst den echten Quartalsbericht und antwortet faktentreu mit Quellenangabe. Genau dieser Unterschied entscheidet über die Eignung generativer KI im Unternehmenseinsatz.

[!TIP] Möchten Sie generative KI live im Einsatz erleben? Besuchen Sie die interaktive RAG-Demo auf unserer Schwester-Property allerate.dev und sehen Sie, wie generative Sprachmodelle sicher mit Ihren Unternehmensdaten antworten.

Häufig gestellte Fragen (FAQ)

Was ist der Unterschied zwischen diskriminativer und generativer KI?

Diskriminative KI klassifiziert oder bewertet bestehende Daten (z. B. Spam-Erkennung oder Bildklassifizierung). Generative KI hingegen lernt die zugrunde liegende Struktur von Daten, um völlig neue, ähnliche Inhalte selbstständig zu erzeugen.

Für welche Medien eignet sich generative KI?

Generative KI kann für Text (z. B. Berichte, E-Mails), Programmcode, Bilder, Musik, Audio und sogar 3D-Modelle eingesetzt werden.

Warum erfinden generative Modelle manchmal Fakten?

Generative Modelle berechnen statistisch wahrscheinliche Fortsetzungen, sie verfügen über kein Faktenwissen im eigentlichen Sinn. Fehlt eine Information oder ist sie mehrdeutig, erzeugt das Modell trotzdem eine flüssig klingende, aber möglicherweise falsche Antwort – eine sogenannte Halluzination. Mit Retrieval-Augmented Generation (RAG) lässt sich dieses Risiko deutlich senken.

Was bedeutet ein Foundation Model?

Ein Foundation Model ist ein sehr grosses, auf breiten Datenmengen vortrainiertes Basismodell (z. B. ein grosses Sprach- oder Bildmodell), das anschliessend für viele unterschiedliche Aufgaben angepasst oder per Prompt gesteuert wird. Statt für jede Aufgabe ein eigenes Modell zu trainieren, dient ein Foundation Model als gemeinsame Grundlage.