robots.txt

Die robots.txt ist eine Textdatei, die vom Webmaster erstellt wird. Sie wird im obersten Verzeichnis einer Webseite abgelegt, dem sogenannten Root-Verzeichnis. Diese Seite wird in UTF-8 kodiert.

UTF-8 bildet als internationaler Standard alle sinntragenden Zeichen in einem digitalen Code ab. Die robots.txt enthält Anweisungen für die Suchmaschinen, welche Seiten einer Webseite nicht zu durchsuchen sind, wenn der Crawler z.B. von Google seinen Suchlauf durchführt. Die robots.txt ist also ein wichtiges Element in jeder Webseite, damit z.B. eine Testumgebung nicht als doppelter Inhalt (duplicate content) und damit negativ gewertet wird. Wenn der Webmaster als weiteres Beispiel einen Textinhalt gleichzeitig zum Download anbietet, sollte diese Download Datei ebenfalls in die robots.txt aufgenommen sein. Die robots.txt wird klein geschrieben, nur so wird sie von der Suchmaschine in dieser Funktion akzeptiert.

Anweisungen für die Suchmaschine

Die Liste der möglichen Anweisungen für die Suchmaschine beinhaltet unter anderem:

  • Das Ausschließen einer Seite
  • Das Ausschließen eines ganzen Verzeichnisses
  • Das Ausschließen einer gesamten Webseite
  • Das Ausschließen bestimmter Datei-Endungen
  • Die Erlaubnis zum Crawlen nur für bestimmte Suchmaschinen

Ein oft gemachter Fehler besteht darin, wie robots.txt nicht regelmäßig nach Anpassungen der Webseite zu kontrollieren. Dann können möglicherweise Seiten gecrawlt werden, die negative Auswirkungen nach sich ziehen oder umgekehrt.

Über den Beitrag


Sie lesen gerade


Inhaltsverzeichnis


Unsere Leistungen


Sie haben Fragen?

Stichwörter zum Thema robots.txt: