Indexierung & Crawling
Es gibt grundsätzlich zwei Ansätze, die Indexierung und das Crawling einer Webseite von technischer Seite aus zu steuern. Die eine Möglichkeit ist die Verwendung einer robots.txt-Datei. Hierüber können bestimmte Verzeichnisse, Seiten oder Dateiformate vom Crawling ausgeschlossen werden. Dies hat den Effekt, dass der Inhalt der jeweiligen Seiten nicht durchsuchbar ist.
Es kann jedoch passieren, dass die URL trotzdem in den Index von Suchmaschinen aufgenommen wird. Wird in den Suchergebnissen eine Seite gelistet, die über die robots.txt gesperrt ist, wird in der Google-Suche der Hinweis „Aufgrund der robots.txt dieser Website ist keine Beschreibung für dieses Ergebnis verfügbar.“ angezeigt.
Ist die Webseite über die site:-Abfrage gar nicht oder nur partiell zu finden, sollte als erstes die robots.txt der Domain überprüft werden. Diese ist unter domain.de/robots.txt zu finden. Werden hier bestimmte Seiten, Verzeichnisse oder Dateien ausgeschlossen, die auch für die Darstellung in der Suchmaschine relevant sind, sollte die Anpassung der robots.txt-Datei in Betracht gezogen werden.
Ziel sollte es sein, dass der Crawler auf alle relevanten Seiten zugreifen kann. Andernfalls kann die Webseite mit diesen Inhalten nicht gefunden werden. Weitere Informationen über die Funktion der robots.txt-Datei liefern SELFHTML und robotstxt.org.
Ausschluss per NoIndex
Die zweite Möglichkeit, die Indexierung einer Webseite zu beeinflussen ist die Verwendung des Meta-Tags „noindex“. Die Angabe noindex führt dazu, dass die jeweilige Seite nicht in den Index einer Suchmaschine übernommen wird.
Wichtig: Ist die Seite über die robots.txt ausgeschlossen, kann das Meta-Tag nicht ausgelesen werden und die URL wird womöglich trotzdem in den Suchmaschinenindex aufgenommen. Die Anweisung noindex kann im HTML-Head der Webseite übergeben werden. Anders als die Anweisungen in der robots.txt wirkt sich die noindex-Angabe im HTML-Head immer nur auf die Seite aus, auf der die Angabe verwendet wird. So kann sehr feingranular festgelegt werden, welche Seiten in den Index aufgenommen werden sollen und welche nicht.
<meta name="robots" content="noindex" />
Alternativ kann die noindex Angabe auch über Hypertext Transfer Protocol (HTTP) übergeben werden. Diese Möglichkeit ist vorrangig für die Verwendung bei Dateien (z.B. PDF, DOC etc.) vorgesehen, kann aber auch für HTML-Seiten verwendet werden. Über diesen Ansatz lässt sich z.B. erreichen, dass bestimmte Dokumente nicht in den Index aufgenommen werden.
HTTP/1.1 200 OK
(…)
X-Robots-Tag: noindex
(…)
Ist die eigene Webseite über die site:-Abfrage nicht zu finden und die robots.txt wurde bereits geprüft, sollte die Webseite hinsichtlich der Verwendung der noindex-Angabe untersucht werden.
Tipp: Das kostenlose Plugin Seerobots hilft bei der Auswertung der robots-Angaben. Das Plugin ist für die Browser Chrome und Firefox verfügbar und kann Hinweise liefern, warum eine bestimmte Seite nicht im Index enthalten ist.
Lesen Sie im nächsten Teil des Workshops, welche Bedeutung Templates, Tags und Metadaten auf die Suchmaschinenoptimierung haben. (shu)