robots.txt
Kurzdefinition
Eine Textdatei im Root-Verzeichnis einer Website, die das Verhalten von Suchmaschinen-Crawlern steuert.
Ausführliche Erklärung
Die robots.txt liegt im Stammverzeichnis einer Domain und steuert über das Robots Exclusion Protocol, welche Bereiche Crawler aufrufen dürfen. Mit `User-agent`, `Disallow` und `Allow` werden Pfade freigegeben oder gesperrt; üblicherweise verweist sie zusätzlich auf die Sitemap. Wichtig: `Disallow` verhindert nur das Crawling, nicht zwingend die Indexierung – dafür ist ein `noindex` nötig. Ein häufiger, schwerwiegender Fehler ist das versehentliche Sperren der gesamten Seite mit `Disallow: /` im Produktivbetrieb.
Beispiel
`User-agent: *\nDisallow: /admin/\nAllow: /\nSitemap: https://example.com/sitemap.xml` sperrt nur den Admin-Bereich und meldet die Sitemap.
Im ausführlichen Fachartikel erklären wir robots.txt mit Architektur, Praxisbeispielen und Best Practices im Detail:
Sie möchten robots.txt direkt in der Praxis prüfen oder anwenden? Nutzen Sie das passende kostenlose Tool: