Technical SEO

Robots.txt im Technical SEO: Steuerung von Suchmaschinen-Crawlern

Die robots.txt ist eine einfache Textdatei, die im Hauptverzeichnis (Root) einer Website platziert wird, um das Verhalten von Suchmaschinen-Crawlern (wie dem Googlebot) zu steuern. Sie fungiert als digitaler Türsteher einer Website. Über standardisierte Befehle (Direktiven) teilt sie den Bots mit, welche Verzeichnisse und Dateien sie scannen dürfen und welche Bereiche für sie tabu sind.

Die Steuerung des Crawler-Zugriffs ist ein fundamentaler Baustein des Technical SEO, um das sogenannte Crawl-Budget einer Website effizient zu verwalten und sensible oder redundante Daten vor der Analyse durch Suchmaschinen zu schützen. Sie steht damit am Anfang der Kette aus Crawling und Indexierung und arbeitet eng mit der XML-Sitemap zusammen.


Funktionsweise und Aufbau der robots.txt

Wenn eine Suchmaschine eine Website besucht, ist die robots.txt immer die allererste Datei, die angefordert wird. Findet der Crawler diese Datei nicht (HTTP-Statuscode 404), geht er davon aus, dass die gesamte Website uneingeschränkt gecrawlt werden darf.

Der Aufbau der Datei folgt dem sogenannten Robots Exclusion Protocol. Sie besteht aus Textzeilen mit Schlüssel-Wert-Paaren:

User-agent: Googlebot
Disallow: /admin/
Allow: /admin/login/

Sitemap: https://allerate.com/sitemap.xml

Die wichtigsten Direktiven im Detail

  1. User-agent: Definiert, für welchen Web-Crawler die nachfolgenden Regeln gelten. Ein Sternchen (*) dient als Wildcard und spricht alle Crawler an. Spezifische Bots wie Googlebot oder Bingbot können gezielt angesprochen werden.
  2. Disallow: Verbietet den Zugriff auf einen bestimmten Pfad. Der Pfad muss relativ zum Root-Verzeichnis angegeben werden (z. B. /admin/). Ein leerer Wert bedeutet, dass alles gecrawlt werden darf.
  3. Allow: Erlaubt den Zugriff auf ein Unterverzeichnis oder eine Datei innerhalb eines eigentlich gesperrten Verzeichnisses (z. B. den Login-Bereich im gesperrten /admin/-Ordner).
  4. Sitemap: Gibt die absolute URL zur XML-Sitemap an. Dies hilft Suchmaschinen, neue Inhalte noch schneller zu finden. Diese Zeile kann überall in der Datei stehen und ist unabhängig von den User-agent-Deklarationen.

Best Practices für die robots.txt-Konfiguration

Damit die robots.txt ihren Zweck optimal erfüllt, müssen bei der Erstellung einige wichtige Regeln beachtet werden.

1. Gross- und Kleinschreibung beachten

Suchmaschinen interpretieren Pfade case-sensitiv. /Admin/ ist für den Crawler ein anderes Verzeichnis als /admin/. Achten Sie auf eine exakte Übereinstimmung mit Ihrer tatsächlichen Verzeichnisstruktur.

2. Wildcards und Pattern Matching nutzen

Mit dem Dollarzeichen ($) und dem Sternchen (*) können flexible Muster definiert werden. Um beispielsweise alle PDF-Dateien vom Crawling auszuschliessen, nutzt man folgendes Muster:

User-agent: *
Disallow: /*.pdf$

3. Keine sensiblen Daten über die robots.txt verstecken

Da die robots.txt eine öffentlich zugängliche Datei ist, kann jeder Benutzer sie im Browser aufrufen. Es ist daher ein grosses Sicherheitsrisiko, dort Pfade zu geheimen Entwicklungsbereichen oder Admin-Panels aufzulisten. Nutzen Sie stattdessen serverseitige Zugriffsschutz-Mechanismen (z. B. Basic Auth).

4. Das Crawl-Budget schonen

Für jede Website stellt Google nur eine begrenzte Menge an Ressourcen zur Verfügung. Schliessen Sie unnötige Seiten wie interne Suchen, Warenkörbe, Sortierparameter oder dynamische Filter aus, damit der Googlebot seine Energie auf die wirklich relevanten Landingpages konzentriert.


Typische Fehler bei der Nutzung der robots.txt

Die robots.txt ist ein mächtiges Werkzeug – ein einziger Tippfehler kann fatale Auswirkungen auf die Sichtbarkeit Ihrer Website haben.

  • Komplette Website gesperrt: Die Zeile Disallow: / unter User-agent: * sperrt die gesamte Website für Suchmaschinen. Dies führt dazu, dass Ihre Seite innerhalb kürzester Zeit komplett aus den Suchergebnissen verschwindet.
  • Ressourcen blockieren: Wenn Sie CSS- und JavaScript-Dateien blockieren (z. B. Disallow: /assets/js/), können Suchmaschinen das visuelle Layout und interaktive Skripte Ihrer Website nicht korrekt rendern. Google bewertet die Seite dann eventuell als nicht mobilfreundlich oder fehlerhaft.
  • Verwendung zur Deindexierung: Wie bereits in der FAQ erwähnt, hindert ein Disallow Google nur am Crawlen, nicht aber an der Indexierung, falls externe Links auf die URL verweisen. Soll eine Seite aus dem Index verschwinden, darf sie nicht in der robots.txt gesperrt sein, da der Bot sonst das noindex-Tag im HTML-Code gar nicht lesen kann.

Crawlen vs. Indexieren: die wichtigste Unterscheidung

Die meisten SEO-Fehler rund um die robots.txt entstehen aus der Verwechslung von Crawlen und Indexieren. Die folgende Tabelle zeigt, welches Werkzeug welches Ziel erreicht:

ZielRichtiges WerkzeugFalsches Werkzeug
Seite nicht crawlen (Crawl-Budget sparen)Disallow in robots.txt
Seite nicht im Index zeigenMeta-Tag noindexDisallow (wirkt nicht zuverlässig)
Seite crawlen, aber Links nicht wertenrel="nofollow"Disallow
Sensible Daten schützenServerseitiger Passwortschutzrobots.txt (öffentlich lesbar)

Merksatz: Die robots.txt regelt den Zugang, nicht die Sichtbarkeit im Index. Für die Steuerung der Indexierung ist das noindex-Tag zuständig.


Vorher/Nachher: eine robots.txt-Fehlkonfiguration

Ein häufiger Vorfall: Nach einem Website-Relaunch wird versehentlich die Test-Konfiguration übernommen, die das gesamte Projekt sperrt.

Vorher (fatal – sperrt die ganze Site):

User-agent: *
Disallow: /

Nachher (korrekt – nur interne Bereiche gesperrt):

User-agent: *
Disallow: /admin/
Disallow: /warenkorb/
Disallow: /*?sort=

Sitemap: https://allerate.com/sitemap.xml

Die erste Variante lässt innerhalb weniger Tage die komplette Domain aus dem Index fallen. Die zweite sperrt nur Admin-, Warenkorb- und Sortier-URLs und verweist gleichzeitig auf die Sitemap – so konzentriert sich der Bot auf die relevanten Landingpages.

[!TIP] Ein kleiner Syntaxfehler in Ihrer robots.txt kann das Crawling Ihrer gesamten Website lahmlegen oder sensible Bereiche freigeben. Überprüfen Sie Ihre robots.txt jetzt live mit dem robots.txt & Sitemap Checker auf balou.tools, um Fehler frühzeitig zu identifizieren.

Häufig gestellte Fragen (FAQ)

Wo muss die robots.txt-Datei liegen?

Die robots.txt muss zwingend im Hauptverzeichnis (Root) einer Domain hinterlegt sein, also direkt unter https://ihredomain.com/robots.txt erreichbar sein. Suchmaschinen suchen ausschliesslich an diesem spezifischen Ort nach der Datei.

Kann ich mit robots.txt die Indexierung einer Seite verhindern?

Nein. Das ist ein häufiger Fehler im SEO. Die robots.txt verhindert nur das Crawlen (den Zugriff) einer Seite. Wenn eine blockierte Seite von aussen verlinkt wird, kann sie dennoch im Google-Index landen (oft ohne Snippet). Zur sicheren Deindexierung müssen Sie das Meta-Tag "noindex" verwenden.

Was ist der Unterschied zwischen Disallow und noindex?

Disallow in der robots.txt steuert das Crawlen: Der Bot ruft die Seite gar nicht erst ab. Noindex ist ein Meta-Tag oder HTTP-Header im Seiteninhalt und steuert die Indexierung: Die Seite darf gecrawlt, aber nicht in den Index aufgenommen werden. Beides zusammen ist kontraproduktiv, weil ein per Disallow gesperrter Bot das noindex nie liest.

Gilt eine robots.txt auch für Subdomains?

Nein. Jede Subdomain (z. B. blog.example.com) und jedes Protokoll benötigt eine eigene robots.txt im jeweiligen Root. Die Datei von www.example.com gilt nicht automatisch für shop.example.com. Auch http und https werden als getrennte Origins behandelt.