robots.txt

Die robots.txt ist eine Textdatei im Stammverzeichnis einer Website, mit der Betreiber Suchmaschinen-Crawlern mitteilen, welche Bereiche sie abrufen dürfen und welche nicht.

Die robots.txt steuert das Crawlen einer Website und bildet zusammen mit der [[xml-sitemap|XML-Sitemap]], dem [[meta-robots|Meta-Robots-Tag]] und dem [[http-statuscode|HTTP-Statuscode]] die Grundlage der technischen Indexierungs-Steuerung.

In einfachen Worten

Bevor eine Suchmaschine eine Website verarbeitet, ruft ihr Crawler die robots.txt ab und liest, welche Pfade er besuchen darf. Die Datei besteht aus einfachen Regeln: Eine User-agent-Zeile benennt den angesprochenen Crawler, eine Disallow-Zeile sperrt Pfade, eine Allow-Zeile gibt einzelne Pfade innerhalb gesperrter Bereiche wieder frei. Eine zusätzliche Sitemap-Zeile verweist auf die XML-Sitemap. Entscheidend ist die Grenze ihrer Wirkung: Die robots.txt steuert ausschließlich das Crawlen, also den Abruf. Ob eine bereits bekannte Adresse trotzdem in den Suchergebnissen erscheint, regelt sie nicht – dafür ist das Meta-Robots-Tag mit der Anweisung noindex zuständig. Eine per robots.txt gesperrte Seite kann deshalb weiter im Index stehen, nur ohne dass die Suchmaschine ihren Inhalt kennt. Adressänderungen oder Fehlerseiten regelt die robots.txt ebenfalls nicht – dafür sind 301-Weiterleitungen und der passende HTTP-Statuscode zuständig.

Wozu brauche ich das?

Sinnvoll ist die robots.txt überall dort, wo Crawler von Bereichen ferngehalten werden sollen, die keine Suchtreffer liefern sollen: interne Suchergebnisse, Warenkorb- und Konto-Bereiche, Filter-Adressen mit endlosen Kombinationen oder reine Skript-Verzeichnisse. So lenkt sie das begrenzte Crawl-Budget auf die relevanten Seiten. Für kleine Websites mit wenigen Seiten ist ihr Einfluss gering; mit wachsender Seitenzahl und vielen automatisch erzeugten Adressen wird sie zum wichtigen Steuerungs-Werkzeug.

Beispiel aus der Praxis

Eine typische Ausgangslage nach einem Relaunch: In der Testumgebung war die gesamte Website per Disallow gesperrt, damit sie nicht vorzeitig indexiert wird. Beim Livegang wird diese Datei versehentlich mit übernommen. Die Suchmaschine darf keine einzige Seite mehr abrufen, die Sichtbarkeit bricht innerhalb weniger Tage ein – ohne dass am Inhalt etwas geändert wurde. Erst die Korrektur der robots.txt und eine erneute Freigabe stellen den Abruf wieder her. Der Fall zeigt, wie viel Wirkung eine einzige Zeile in dieser Datei entfaltet.

Wirtschaftlicher Nutzen

Die robots.txt selbst kostet kaum Aufwand, ihre Wirkung ist aber asymmetrisch: Richtig gepflegt lenkt sie Crawler effizient, falsch gesetzt macht sie eine ganze Website unsichtbar. Gerade bei Shops und Portalen mit vielen automatisch erzeugten Adressen verhindert eine saubere robots.txt, dass Crawl-Budget in irrelevanten Bereichen verpufft. Der größte wirtschaftliche Hebel liegt jedoch in der Fehlervermeidung – ein übersehenes Disallow nach dem Livegang gehört zu den teuersten und zugleich am leichtesten vermeidbaren SEO-Pannen. Für dauerhaft umgezogene Adressen ist dagegen eine 301-Weiterleitung das richtige Werkzeug, nicht die robots.txt.

Typische Fehler

Die gesamte Website per Disallow gesperrt – nach einem Relaunch ein klassischer, schwer zu bemerkender Totalausfall der Sichtbarkeit.
Die robots.txt zur De-Indexierung genutzt – eine gesperrte Seite kann trotzdem im Index bleiben; dafür ist das noindex nötig.
Crawler an CSS- oder JavaScript-Dateien gehindert – die Suchmaschine kann die Seite dann nicht korrekt darstellen und bewerten.
Vertrauliche Pfade per Disallow „versteckt“ – die Datei ist öffentlich einsehbar und weist auf sensible Verzeichnisse erst recht hin.
Keine Sitemap-Zeile hinterlegt – die XML-Sitemap wird dadurch schlechter gefunden.

Worauf achten?

Die robots.txt liegt immer im Stammverzeichnis und ist unter /robots.txt erreichbar – an anderer Stelle wird sie ignoriert.
Zum Aussperren aus dem Index das Meta-Robots-Tag mit noindex verwenden, nicht die robots.txt.
Nach jedem Relaunch zuerst prüfen, ob nicht versehentlich ein Disallow aus der Testumgebung übernommen wurde.
CSS- und JavaScript-Pfade nicht sperren, damit Suchmaschinen die Seite vollständig darstellen können.
Die Adresse der XML-Sitemap in der robots.txt hinterlegen, damit Crawler sie zuverlässig finden.

Häufig gestellte Fragen

Was macht die robots.txt?

Die robots.txt teilt Suchmaschinen-Crawlern mit, welche Pfade einer Website sie abrufen dürfen und welche nicht. Sie steuert damit das Crawlen, also den Zugriff auf Inhalte – nicht, ob eine Seite am Ende im Index erscheint.

Verhindert die robots.txt, dass eine Seite bei Google erscheint?

Nein. Die robots.txt regelt nur den Abruf. Eine gesperrte Adresse kann trotzdem in den Suchergebnissen auftauchen, wenn andere Seiten auf sie verweisen. Um eine Seite zuverlässig aus dem Index zu halten, ist das Meta-Robots-Tag mit der Anweisung noindex nötig.

Wo muss die robots.txt liegen?

Immer im Stammverzeichnis der Domain, erreichbar unter der Adresse /robots.txt. In Unterordnern oder unter anderem Namen abgelegt, wird die Datei von Crawlern nicht beachtet.

Was bedeutet Disallow in der robots.txt?

Eine Disallow-Zeile benennt einen Pfad, den der angesprochene Crawler nicht abrufen soll. Disallow ohne Angabe erlaubt alles, ein Disallow mit einem einzelnen Schrägstrich sperrt die gesamte Website – ein häufiger, folgenschwerer Fehler nach Relaunches.

Zurück zu SEO