Robots Exclusion Protocol

Abkürzungen / Synonyme: REP

Kurzdefinition

Der Standard, der festlegt, wie Web-Crawler die robots.txt-Datei interpretieren müssen, um Bereiche vom Crawling auszuschliessen.

Ausführliche Erklärung

Das Robots Exclusion Protocol (REP) ist der seit 2022 als RFC standardisierte Mechanismus, mit dem Websites über die robots.txt steuern, welche Bereiche Crawler aufrufen dürfen. Es definiert Direktiven wie `User-agent`, `Disallow` und `Allow`. Wichtig ist die Abgrenzung: Das REP steuert das Crawling, nicht die Indexierung – um eine Seite aus dem Index zu halten, braucht es `noindex`. Eine fehlerhafte robots.txt kann ganze Websites unsichtbar machen.

Beispiel

`User-agent: *` und `Disallow: /intern/` weisen alle Bots an, den internen Bereich nicht zu crawlen, während der Rest erlaubt bleibt.

Vertiefender Fachartikel

Im ausführlichen Fachartikel erklären wir Robots Exclusion Protocol mit Architektur, Praxisbeispielen und Best Practices im Detail:

Fachartikel zu Robots Exclusion Protocol aufrufen