robots.txt

Kurzdefinition

Eine Textdatei im Root-Verzeichnis einer Website, die das Verhalten von Suchmaschinen-Crawlern steuert.

Ausführliche Erklärung

Die robots.txt liegt im Stammverzeichnis einer Domain und steuert über das Robots Exclusion Protocol, welche Bereiche Crawler aufrufen dürfen. Mit `User-agent`, `Disallow` und `Allow` werden Pfade freigegeben oder gesperrt; üblicherweise verweist sie zusätzlich auf die Sitemap. Wichtig: `Disallow` verhindert nur das Crawling, nicht zwingend die Indexierung – dafür ist ein `noindex` nötig. Ein häufiger, schwerwiegender Fehler ist das versehentliche Sperren der gesamten Seite mit `Disallow: /` im Produktivbetrieb.

Beispiel

`User-agent: *\nDisallow: /admin/\nAllow: /\nSitemap: https://example.com/sitemap.xml` sperrt nur den Admin-Bereich und meldet die Sitemap.

Vertiefender Fachartikel

Im ausführlichen Fachartikel erklären wir robots.txt mit Architektur, Praxisbeispielen und Best Practices im Detail:

Fachartikel zu robots.txt aufrufen

Passendes Tool

Sie möchten robots.txt direkt in der Praxis prüfen oder anwenden? Nutzen Sie das passende kostenlose Tool:

Tool auf balou.tools öffnen