robots.txt
Die robots.txt ist eine Textdatei, die vom Webmaster erstellt wird. Sie wird im obersten Verzeichnis einer Webseite abgelegt, dem sogenannten Root-Verzeichnis. Diese Seite wird in UTF-8 kodiert.
UTF-8 bildet als internationaler Standard alle sinntragenden Zeichen in einem digitalen Code ab. Die robots.txt enthält Anweisungen für die Suchmaschinen, welche Seiten einer Webseite nicht zu durchsuchen sind, wenn der Crawler z.B. von Google seinen Suchlauf durchführt. Die robots.txt ist also ein wichtiges Element in jeder Webseite, damit z.B. eine Testumgebung nicht als doppelter Inhalt (duplicate content) und damit negativ gewertet wird. Wenn der Webmaster als weiteres Beispiel einen Textinhalt gleichzeitig zum Download anbietet, sollte diese Download Datei ebenfalls in die robots.txt aufgenommen sein. Die robots.txt wird klein geschrieben, nur so wird sie von der Suchmaschine in dieser Funktion akzeptiert.
Anweisungen für die Suchmaschine
Die Liste der möglichen Anweisungen für die Suchmaschine beinhaltet unter anderem:
- Das Ausschließen einer Seite
- Das Ausschließen eines ganzen Verzeichnisses
- Das Ausschließen einer gesamten Webseite
- Das Ausschließen bestimmter Datei-Endungen
- Die Erlaubnis zum Crawlen nur für bestimmte Suchmaschinen
Ein oft gemachter Fehler besteht darin, wie robots.txt nicht regelmäßig nach Anpassungen der Webseite zu kontrollieren. Dann können möglicherweise Seiten gecrawlt werden, die negative Auswirkungen nach sich ziehen oder umgekehrt.
Über den Beitrag
Sie lesen gerade
Inhaltsverzeichnis
Unsere Leistungen
Sie haben Fragen?