Indexierung im Technical SEO: Seiten gezielt steuern
Die Indexierung beschreibt den Vorgang, bei dem eine Suchmaschine eine Webseite nach dem Crawlen in ihren riesigen Datenkatalog (den Suchindex) aufnimmt. Nur Seiten, die sich im Index befinden, können bei Suchanfragen von Nutzern gefunden werden und in den Suchergebnissen erscheinen.
Die gezielte Steuerung der Indexierung ist eine der anspruchsvollsten Aufgaben im Technical SEO. Sie müssen sicherstellen, dass alle qualitativen, relevanten Seiten Ihrer Domain schnell und fehlerfrei indexiert werden, während unwichtige, doppelte oder sensible Seiten konsequent aus dem Index ausgeschlossen werden. Dies schont Ihr Crawl-Budget und sorgt für ein sauberes, starkes Signal an die Suchmaschinen-Algorithmen.
Die Indexierung spielt eng mit der robots.txt, den Canonical Tags und der XML-Sitemap zusammen. Wer diese Werkzeuge verwechselt, riskiert, dass wichtige Seiten ungewollt verschwinden – oder unerwünschte Seiten dauerhaft im Index bleiben.
Die Phasen der Indexierung: Crawling vs. Indexierung
Es ist wichtig, den Unterschied zwischen Crawling und Indexierung zu verstehen:
- Crawling (Abruf): Der Suchmaschinen-Bot fordert die URL vom Server an und liest den HTML-Code sowie verknüpfte Ressourcen (CSS, JS) ein.
- Rendering (Darstellung): Der Bot rendert die Seite wie ein normaler Browser, um auch via JavaScript generierte Inhalte zu erfassen.
- Indexierung (Aufnahme): Die Suchmaschine analysiert den Inhalt der Seite. Erfüllt die Seite die Qualitätsanforderungen und gibt es keine Sperrsignale, wird sie im Index gespeichert.
Steuerungsinstrumente der Indexierung
Es stehen Ihnen verschiedene technische Instrumente zur Verfügung, um Suchmaschinen mitzuteilen, wie sie mit Ihren Seiten verfahren sollen.
1. Das Robots-Meta-Tag im HTML-Head
Dieses Tag steuert das Verhalten direkt auf Seitenebene. Es wird im <head>-Bereich des HTMLs platziert.
<meta name="robots" content="noindex, follow" />
Die gängigsten Direktiven:
index: Die Seite darf indexiert werden (Standardverhalten, muss nicht explizit gesetzt werden).noindex: Die Seite darf keinesfalls in den Suchergebnissen erscheinen.follow: Der Crawler darf den Links auf der Seite folgen, um weitere Unterseiten zu entdecken.nofollow: Der Crawler soll den Links auf dieser Seite nicht folgen.
2. Der X-Robots-Tag im HTTP-Header
Für Nicht-HTML-Dateien (z. B. PDF-Dokumente, Bilder oder XML-Dateien) kann kein HTML-Tag verwendet werden. Hier nutzt man das X-Robots-Tag direkt im HTTP-Response-Header des Servers:
X-Robots-Tag: noindex
3. Canonical Tags (Kanonisierung)
Verweisen Sie mit einem Canonical Tag von einer doppelten Seite (z. B. /seite?parameter=1) auf die Originalseite (/seite/), signalisieren Sie der Suchmaschine, dass nur das Original indexiert werden soll. Google fasst die URLs zusammen und indexiert nur die kanonische Version.
Welches Werkzeug wofür? Die richtige Wahl
Die häufigste Ursache für Indexierungsprobleme ist die Verwechslung der Steuerungsinstrumente. Diese Tabelle ordnet sie zu:
| Ziel | Richtiges Werkzeug | Falsch wäre |
|---|---|---|
| Seite nicht im Index, aber crawlbar | noindex im Robots-Meta | Disallow in robots.txt |
Crawler ganz fernhalten (z. B. /admin/) | Disallow in robots.txt | noindex (Bot liest es nie) |
| Duplikat bündeln, beide URLs nötig | Canonical Tag | noindex (verschenkt Signale) |
| Seite endgültig umgezogen | 301-Redirect | Canonical allein |
| PDF aus dem Index nehmen | X-Robots-Tag: noindex | Meta-Tag (PDF hat kein HTML) |
Merksatz: Disallow steuert das Crawlen, noindex steuert das Indexieren. Beides gleichzeitig auf derselben URL hebt sich gegenseitig auf.
Überwachung der Indexierung mit der Google Search Console
Das wichtigste Werkzeug zur Kontrolle der Indexierung ist die Google Search Console (GSC), konkret der Bericht Indexierung (Seiten).
Hier sehen Sie genau, welche Seiten Google entdeckt hat und ob diese indexiert wurden. Google teilt nicht indexierte Seiten in verschiedene Fehlerkategorien ein:
- Gecrawlt – zurzeit nicht indexiert: Google hat die Seite gelesen, sich aber (meist aus Qualitätsgründen) gegen die Indexierung entschieden.
- Gefunden – zurzeit nicht indexiert: Google kennt die URL (z. B. aus der Sitemap), hat sie aber aufgrund von Crawl-Budget-Limits noch nicht aufgerufen.
- Duplikat – vom Nutzer nicht als kanonisch angegeben: Google hat Duplicate Content erkannt und die Seite deindexiert, da ein Canonical Tag fehlt.
Typische Fehler bei der Indexierungssteuerung
- Noindex-Seiten in der robots.txt blockieren: Wenn Sie eine Seite auf
noindexsetzen, aber gleichzeitig den Pfad in derrobots.txtperDisallowsperren, darf der Googlebot die Seite nicht mehr aufrufen. Er kann dasnoindex-Tag im HTML-Code also niemals lesen. Die Seite bleibt infolgedessen oft dennoch im Index. - Soft-404-Fehler: Wenn eine nicht existierende Seite dem Nutzer eine Fehlermeldung anzeigt, dem Browser und Crawler aber fälschlicherweise den Statuscode
200 OK(statt404 Not Found) sendet, versucht Google, diese Inhaltsleere zu indexieren. - Unbeabsichtigtes Noindex im Live-System: Oft wird während der Entwicklung auf der Staging-Umgebung ein globales
noindexgesetzt. Wird dieses beim Live-Gang nicht entfernt, verschwindet die gesamte Website aus den Suchergebnissen.
Praxisbeispiel: Plötzlicher Traffic-Einbruch nach Relaunch
Nach einem Website-Relaunch bricht der organische Traffic eines Online-Shops innerhalb weniger Tage um über 80 % ein:
- Symptom: Wichtige Kategorieseiten erscheinen im GSC-Bericht plötzlich unter «Ausgeschlossen durch ‚noindex‘-Tag».
- Ursache: Beim Relaunch wurde das auf der Staging-Umgebung gesetzte globale
<meta name="robots" content="noindex">mit ins Live-System übernommen. Google hat die Seiten beim nächsten Crawl konsequent deindexiert. - Lösung: Das globale
noindexwird entfernt, die wichtigsten URLs werden in der Google Search Console zur erneuten Indexierung eingereicht und die XML-Sitemap aktualisiert. - Ergebnis: Innerhalb von ein bis zwei Wochen kehren die Seiten in den Index zurück und der Traffic erholt sich. Eine Pre-Launch-Checkliste mit dem Punkt «noindex entfernt?» verhindert künftig die Wiederholung.
Dieses Szenario zeigt, warum die Indexierungssteuerung sicherheitskritisch ist: Ein einziges falsches Tag kann die gesamte Sichtbarkeit über Nacht auslöschen.
[!TIP] Ein falsches
noindex-Tag oder unbemerkte Soft-404-Fehler können die Sichtbarkeit Ihrer wichtigsten Keywords über Nacht zerstören. Nutzen Sie den SEO Validator auf balou.tools, um Ihre Seiten live auf Indexierungssignale, Canonical-Tags und Statuscodes zu überprüfen.
Häufig gestellte Fragen (FAQ)
Was ist der Unterschied zwischen noindex und nofollow?
Das Meta-Tag `noindex` verbietet einer Suchmaschine, die betroffene Seite in den Suchindex aufzunehmen. Das Attribut `nofollow` (bzw. das Robottag `nofollow`) weist die Suchmaschine an, den ausgehenden Links auf dieser Seite nicht zu folgen und keine Linkstärke an die verlinkten Ziele zu übertragen.
Wie lange dauert es, bis Google eine neue Seite indexiert?
Das kann von wenigen Minuten (bei sehr aktiven Portalen) bis zu mehreren Tagen oder gar Wochen dauern. Sie können den Prozess beschleunigen, indem Sie die URL in der Google Search Console einreichen oder Ihre XML-Sitemap aktualisieren.
Warum ist eine Seite trotz korrekter Sitemap nicht indexiert?
Eine [Sitemap](/technical-seo/sitemap-xml/) ist nur ein Vorschlag, keine Garantie. Google indexiert eine Seite nicht, wenn sie zu dünn ist, als Duplikat einer anderen URL gewertet wird, ein `noindex` trägt oder das Crawl-Budget erschöpft ist. Prüfen Sie im GSC-Bericht die genaue Fehlerkategorie.
Sollte man Filter- und Paginierungsseiten indexieren lassen?
In der Regel nicht uneingeschränkt. Reine Filter-Kombinationen erzeugen oft nahezu identische Inhalte und sollten per [Canonical Tag](/technical-seo/canonical-tags/) auf die Hauptkategorie verweisen. Echte Paginierungsseiten (Seite 2, 3 …) dürfen dagegen indexierbar bleiben, damit tiefere Inhalte auffindbar sind.