Workshop – SEO für Techniker

Das kann die IT zum SEO-Erfolg beitragen

17.09.2013

Von Boris Bergmann

Indexierung & Crawling

Es gibt grundsätzlich zwei Ansätze, die Indexierung und das Crawling einer Webseite von technischer Seite aus zu steuern. Die eine Möglichkeit ist die Verwendung einer robots.txt-Datei. Hierüber können bestimmte Verzeichnisse, Seiten oder Dateiformate vom Crawling ausgeschlossen werden. Dies hat den Effekt, dass der Inhalt der jeweiligen Seiten nicht durchsuchbar ist.

Es kann jedoch passieren, dass die URL trotzdem in den Index von Suchmaschinen aufgenommen wird. Wird in den Suchergebnissen eine Seite gelistet, die über die robots.txt gesperrt ist, wird in der Google-Suche der Hinweis „Aufgrund der robots.txt dieser Website ist keine Beschreibung für dieses Ergebnis verfügbar.“ angezeigt.

Beispiel einer robots.txt anhand der Website von Google.de

Ist die Webseite über die site:-Abfrage gar nicht oder nur partiell zu finden, sollte als erstes die robots.txt der Domain überprüft werden. Diese ist unter domain.de/robots.txt zu finden. Werden hier bestimmte Seiten, Verzeichnisse oder Dateien ausgeschlossen, die auch für die Darstellung in der Suchmaschine relevant sind, sollte die Anpassung der robots.txt-Datei in Betracht gezogen werden.

Ziel sollte es sein, dass der Crawler auf alle relevanten Seiten zugreifen kann. Andernfalls kann die Webseite mit diesen Inhalten nicht gefunden werden. Weitere Informationen über die Funktion der robots.txt-Datei liefern SELFHTML und robotstxt.org.

Ausschluss per NoIndex

Die zweite Möglichkeit, die Indexierung einer Webseite zu beeinflussen ist die Verwendung des Meta-Tags „noindex“. Die Angabe noindex führt dazu, dass die jeweilige Seite nicht in den Index einer Suchmaschine übernommen wird.

Wichtig: Ist die Seite über die robots.txt ausgeschlossen, kann das Meta-Tag nicht ausgelesen werden und die URL wird womöglich trotzdem in den Suchmaschinenindex aufgenommen. Die Anweisung noindex kann im HTML-Head der Webseite übergeben werden. Anders als die Anweisungen in der robots.txt wirkt sich die noindex-Angabe im HTML-Head immer nur auf die Seite aus, auf der die Angabe verwendet wird. So kann sehr feingranular festgelegt werden, welche Seiten in den Index aufgenommen werden sollen und welche nicht.

<meta name="robots" content="noindex" />

Alternativ kann die noindex Angabe auch über Hypertext Transfer Protocol (HTTP) übergeben werden. Diese Möglichkeit ist vorrangig für die Verwendung bei Dateien (z.B. PDF, DOC etc.) vorgesehen, kann aber auch für HTML-Seiten verwendet werden. Über diesen Ansatz lässt sich z.B. erreichen, dass bestimmte Dokumente nicht in den Index aufgenommen werden.

HTTP/1.1 200 OK (…) X-Robots-Tag: noindex (…)

Ist die eigene Webseite über die site:-Abfrage nicht zu finden und die robots.txt wurde bereits geprüft, sollte die Webseite hinsichtlich der Verwendung der noindex-Angabe untersucht werden.

Tipp: Das kostenlose Plugin Seerobots hilft bei der Auswertung der robots-Angaben. Das Plugin ist für die Browser Chrome und Firefox verfügbar und kann Hinweise liefern, warum eine bestimmte Seite nicht im Index enthalten ist.

Lesen Sie im nächsten Teil des Workshops, welche Bedeutung Templates, Tags und Metadaten auf die Suchmaschinenoptimierung haben. (shu)

Aktuelle IDG-Studien

An der Cloud Readiness und Bereitschaft zum Wandel der Unternehmen hierzulande gibt es keine Zweifel mehr. Die Transformation ist in vollem Gange.

Mehr zur Studie erfahren
Der Schutz vor Ransomware hat hohe Priorität, doch die ergriffenen Maßnahmen greifen zu kurz. Alles dazu in unserer Studie.

Mehr zur Studie erfahren
Das Gros der ERP-Anwender setzt mittlerweile auf SAP S/4HANA, um digital zu transformieren und Wettbewerbsvorteile zu erschließen. Mehr in der Studie.

Mehr zur Studie erfahren
Seit der Einführung von ChatGPT beherrscht kein anderes IT-Thema so die Schlagzeilen wie (generative) künstliche Intelligenz. Wir schauen auf Einsatzszenarien, Hintergründe und Folgen.

Mehr zur Studie erfahren
Der Einsatz von No-/Low-Code boomt. Lange dauert es wohl nicht mehr, bis Software-Entwicklung und Prozessmodellierung via grafischer UI das klassische Coding überholen. Mehr in der Studie.

Mehr zur Studie erfahren
Unternehmen rüsten auf: Je komplexer die Gefährdungslage, desto stärker der Bedarf an Security Services. Dazu alles zu Cyberattacken und Gegenmaßnahmen.

Mehr zur Studie erfahren
Hybrid Work: Wer als Arbeitgeber für die jungen Generationen interessant und attraktiv sein will, darf nicht auf eine moderne IT-Infrastruktur und -Arbeitsumgebung verzichten. Mehr in der Studie.

Mehr zur Studie erfahren
Das datengesteurte Unternehmen - Realität oder Hirngespinst? Erst wenige Firmen schaffen es, mithilfe von Daten-Insights neue Geschäftsmodelle auf die Beine zu stellen. Mehr in der Studie.

Mehr zur Studie erfahren
Für knapp neun von zehn Unternehmen kommt künftig eine Migration in die Cloud ohne strategischen Ansatz nicht infrage. Trends und Zahlen rund ums Thema in unserer Studie.

Mehr zur Studie erfahren
Unternehmen wollen energieeffizienter und nachhaltiger werden. Dazu müssen sie aber noch ihre IT-Strategien anpassen und die notwendige Datenbasis schaffen. Mehr dazu in der Studie.

Mehr zur Studie erfahren