Die robots.txt Datei

Bei der robots.txt handelt es sich um eine Text-Datei, die im Root-Verzeichnis Ihrer Website platziert wird und die sich speziell an Bots, bzw. Webcrawler richtet, um deren Verhalten zu steuern.

In Abhängigkeit vom User Agent kann man durch Verwendung der Direktiven allow und disallow mitteilen, welche Seiten gecrawlt werden dürfen und welche nicht. So kann man beispielsweise bestimmte URLs oder Verzeichnisse vor einer Indexierung von Google bewahren.

Mit der Sitemap Direktive kann die Bots zudem auf die Position der XML-Sitemap aufmerksam machen, die diese verwenden um einen besseren Überblick über die Struktur der Website zu bekommen. Im Artikel „Wie erstelle ich eine XML-Sitemap“ erfahrt Ihr wie Ihr schnell und simpel eine Sitemap erstellt, um diese dem Crawler bereitzustellen.

robots.txt Anwendungsbeispiel

Im Folgenden findet der beispielhaften Inhalt einer robots.txt Datei, wie Sie in der Praxis oft verwendet wird.

User Agent: Googlebot/2.1
Disallow: /site-xy.html

User Agent: *
Disallow: /admin/

Sitemap: http://www.example.com/sitemap.xml

Zu Beginn einer Regel wird der User Agent spezifiziert, für den die Regeln gelten sollen. Zunächst sollte man wissen, dass es im Prinzip so ist, dass der Crawler davon ausgeht, dass das Indexieren jeder Seite erlaubt ist, solange kein disallow Eintrag vorhanden ist, der das Ziel verbietet. Es muss also nicht explizit ein allow angegeben sein. Es reicht, wenn man einzelne Seiten, Verzeichnisse oder Bereiche per disallow ausschließt. Die erste Zeile ist an den Googlebot adressiert und verbietet diesem das Crawling der Seite „/site-xy.html“. Im Beispiel haben wir zudem das „admin“-Verzeichnis vor dem Crawling sämtlicher User Agents geschützt, was in der Praxis beispielsweise für das Backend eines Content-Management-Systems sinnvoll sein könnte. In der letzten Zeile wird auf die XML-Sitemap der Website verwiesen.

Sind die Regeln in der robots.txt für die Crawler verpflichtend?

Kurz gesagt: Nein. Auch wenn man explizit per disallow betont, dass eine bestimmt URL nicht gecrawlt werden darf, kann man sich nicht zu hundert Prozent sicher sein, dass sich die Bots auch daran halten. Man kann die Einträge lediglich als eine Art Empfehlung betrachten. Der einzig sichere Weg vor der Indexierung ist ein abgesperrter Bereich, z.B. durch eine Login-Maske realisiert. In der Regel ist es allerdings so, dass sich die Bots an die Regeln halten.

Tipps für die Verwendung der robots.txt Datei in der Praxis

Im Folgenden findet Ihr einige simple Tipps, die euch die Verwendung der robots.txt Datei vereinfachen sollen.

  • Vorgefertigte robots.txt Dateien: Für jedes gängige CMS- oder Online-Shop-System findet Ihr im Web robots.txt-Vorlagen, die bereits die gängigsten Regeln für das jeweilige System beinhalten (z.B. disallow der Administrationsbereiche).
  • Lieber auf Nummer sicher: Wenn Ihr euch nicht hunderprozentig sicher seit was Ihr da tut, lasst es lieber bleiben. Die Crawler sind heutzutage ohnehin intelligent genug, um selbst zu erkennen, welche Inhalte für eine Indexierung ungünstig sind. Falsch gesetzte Einträge können sogar eure Rankings gefährden.
  • Datei generieren lassen: Geht auf Nummer sicher und lasst euch durch Tools helfen. Nehmt Tools und Generatoren zu Hilfe um den Inhalt eurer robots.txt Datei zu erstellen und zu testen. Überlasst nichts dem Zufall. Selbst kleinere Fehler können gravierende Auswirkungen haben.

Weiterführende Inhalte zur robots.txt

Posted in:

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.