Robots Exclusion Protocol
Abkürzungen / Synonyme: REP
Kurzdefinition
Der Standard, der festlegt, wie Web-Crawler die robots.txt-Datei interpretieren müssen, um Bereiche vom Crawling auszuschliessen.
Ausführliche Erklärung
Das Robots Exclusion Protocol (REP) ist der seit 2022 als RFC standardisierte Mechanismus, mit dem Websites über die robots.txt steuern, welche Bereiche Crawler aufrufen dürfen. Es definiert Direktiven wie `User-agent`, `Disallow` und `Allow`. Wichtig ist die Abgrenzung: Das REP steuert das Crawling, nicht die Indexierung – um eine Seite aus dem Index zu halten, braucht es `noindex`. Eine fehlerhafte robots.txt kann ganze Websites unsichtbar machen.
Beispiel
`User-agent: *` und `Disallow: /intern/` weisen alle Bots an, den internen Bereich nicht zu crawlen, während der Rest erlaubt bleibt.
Im ausführlichen Fachartikel erklären wir Robots Exclusion Protocol mit Architektur, Praxisbeispielen und Best Practices im Detail: