Crawler
Ein Crawler ist ein Softwareprogramm, das das gesamte Internet automatisch durchsucht. Als Synonyme dazu gelten Webcrawler, Spider oder Bot. Die Inhalte der Websites wie Texte, Fotos oder Videos werden dabei analysiert und indexiert. Crawler werden hauptsächlich von Suchmaschinen-Providern verwendet.
Arten von Crawlern
Es gibt verschiedene Arten von Crawlern, abhängig von ihrer spezifischen Funktion und Anwendung. Personal-Website-Crawler sind einfachere Varianten, die von Einzelunternehmen für spezifische Aufgaben verwendet werden, wie beispielsweise die Überwachung der Häufigkeit bestimmter Suchbegriffe oder die Erreichbarkeit bestimmter URLs. Cloud-Website-Crawler speichern Daten nicht auf lokalen Servern, sondern in einer Cloud. Diese Art von Crawlern ist unabhängig von lokalen Computern und ermöglicht es Nutzern, sich von jedem Gerät in die Analysetools und Datenbanken einzuloggen. Desktop-Website-Crawler sind kleine Webcrawler, die auf dem eigenen PC oder Laptop laufen. Sie sind kostengünstig, aber nur begrenzt einsetzbar.
Funktionsweise von Crawlern
Crawler agieren autark und initiieren ihre Aufgaben eigenständig. Sie besuchen Websites über verschiedene Hyperlinks und speichern relevante URLs. Der virtuelle Weg, der hierfür beschritten wird, wird automatisiert erfasst und gespeichert. Die Suche ist in ihrem Umfang jedoch begrenzt. Dafür sorgen einerseits begrenzte Rechnerkapazitäten als andererseits auch die Frage der Wirtschaftlichkeit.
Verwendung von Crawlern
Crawler sind das Kerninstrument aller Suchmaschinen, um Inhalte im Internet aufzufinden und zu indizieren. Sie durchsuchen riesige Mengen an Websites pro Tag und kopieren die gesammelten Daten in eine Datenbank. Dieser Prozess führt u.a. zur Erstellung eines Index aller Wörter und ihrer jeweiligen Position, die auf der Website vorkommen. Sobald ein Nutzer eine Suchanfrage startet, durchsucht die Suchmaschine den Index nach übereinstimmenden Einträgen und zeigt sie in Form einer gewichteten Ergebnisliste an.
Herausforderungen und Einschränkungen von Crawlern
Nicht alle Elemente einer Website können von den Crawlern problemlos gelesen werden. Es gibt bestimmte Programmiertechniken, die vermieden werden sollten, um eine optimale Zugänglichkeit für einen Crawler zu gewährleisten. Beispielsweise können Flash-Seiten, JavaScript und andere Technologien für Crawler schwer zu interpretieren sein. Des Weiteren ist es möglich, Crawler auszuschließen oder ihren Zugriff auf bestimmte Bereiche einer Website zu beschränken. Damit kann der Webmaster das für diese Seite bestehende Crawl Budget besser ausnutzen und wichtigere Seiten hervorheben.
Über den Beitrag
Sie lesen gerade
Inhaltsverzeichnis
Unsere Leistungen
Sie haben Fragen?