Quantcast
Channel: Blog – Compboard Blog
Viewing all articles
Browse latest Browse all 12

WordPress Feeds mit robots.txt einfach aus dem Index fernhalten

$
0
0

In den letzten Wochen habe ich Orts- und Zeitbedingt wenig geschrieben, aber dennoch etwas “rumgebastelt”. Mein Ziel war es, die ganzen Seiten aus dem Supplemental Index zu bekommen und die Feeds und Trackbacks aus den Google Suchergebnissen zu entfernen, um die Besucher nicht zu verwirren.

Google hat die Abfrage des Supplemental Index jetzt abgeschaltet, aber durch Eingabe von “site:www.domain.tld” kann man sich alle indexierten Seiten einer Domain anschauen. Meistens findet man auf den hinteren Seiten (bei mir 8 und 9, da insgesamt nicht so viele Seiten im Index sind) viele Ergebnisse, bei denen man den Hinweis “- Zusätzliches Ergebnis -” lesen kann.

Screenshot eines Kommentar-Feeds in den Suchergebnissen

Wer nicht weiß, was der Supplemental Index ist, findet bei Sistrix eine ausführliche Erklärung.

So wie ich den Beitrag verstanden habe, befinden sich alle Einträge mit dem Hinweis “Zusätzliches Ergebnis” im Supplemental Index und werden nur sehr schlecht oder gar nicht gerankt. Bei den Kommentar-Feeds von WordPress (Screenshot) ist das sogar gut, denn es soll ja nur der eigentliche Beitrag in den Suchergebnissen erscheinen! Ansonsten entsteht sicher Verwirrung bei den Besuchern, wenn der Feed vor dem Beitrag rankt und beim Klick auf den Eintrag nur eine leere Feed-Seite erscheint.

Leerer WordPress Kommentar-Feed Kommentar-Feed im Internet Explorer

Viele Blogger haben jedoch das größte Problem mit dem “normalen” Haupt-Feed. Dieser Feed rankt normalerweise sehr gut und oft vor den entsprechenden Beiträgen. Ein Besucher, der etwas bestimmtes sucht, kann natürlich mit dem Feed für alle Beiträge nicht viel anfangen und wird die Seite schnell wieder verlassen. Dieses Problem lässt sich beispielsweise mit dem NoIndex Feed Plugin von JoostdeValk lösen.

Inzwischen kann man auch bei FeedBurner einstellen, dass der Feed nicht von den Suchmaschinen indexiert werden soll. Die entsprechende Einstellung findet man unter dem Menüpunkt “Publicize”.

FeedBurner NoIndex Option

Wenn man jedoch das Feed-Problem ein für alle mal (und für ALLE Feeds) aus der Welt schaffen will, sollte man das am besten und einfachsten mit einer entsprechenden robots.txt Datei machen.

Vom S-O-S SEO Blog wurde das Feed-Problem ebenfalls bemerkt und ich habe mich deshalb spontan dazu entschlossen auch mal meine robots.txt-experimentier-Ergebnisse in diesem Beitrag zu veröffentlichen.

Viele Quellen empfehlen für WordPress-Blogger die folgende robots.txt:

User-agent: Googlebot
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
User-agent: *
Disallow: /wp-
Disallow: /feed/
Disallow: /trackback/
Disallow: /rss/
Disallow: /comments/feed/
Disallow: /page/
Disallow: /date/
Disallow: /comments/

Warum Google und andere Suchmaschinenroboter getrennt behandelt werden sollen, verstehe ich allerdings nicht wirklich. “User-agent: Googlebot” habe ich deshalb aus der robots.txt-Vorlage entfernt und zusätzlich noch die Pfadangaben überarbeitet, da mein Blog in einem Unterverzeichnis installiert ist. Nach diesen Anpassungen war die robots.txt bereit für ein paar Tests mit den Google Webmaster Tools.

Mit der robots.txt – Analyse kann man sehr schön und mit direktem Ergebnis sehen, welcher Eintrag welche Folgen hat. Man muss einfach nur den Text der robots.txt in den Webmaster-Tools ändern und ihn mit verschiedenen URLs und den verschiedenen Google-User-Agents testen, und bekommt direkt das Ergebnis angezeigt, ohne dass Schaden entstehen kann.

Google Webmaster-Tools robots.txt-Analyse

Nachdem ich eine Weile mit verschiedenen robots.txt-Varianten und URLs von meinem Blog herumgespielt habe, bin ich zu folgendem Ergebnis gekommen:

User-agent: *
Disallow: /blog/wp-
Disallow: /blog/feed/
Disallow: /blog/*/feed/
Disallow: /blog/*/trackback/
Disallow: /blog/rss/
Disallow: *.css

Das “Disallow: /blog/wp-” habe ich reingenommen, weil bei mir wegen dem neuen Theme die Login- und die Admin-Seite indexiert wurden. Im S-O-S SEO Blog wird allerdings in den Kommentaren darauf hingewiesen, dass dies eventuell auch alles unter “/wp-content/” blockiert und somit die Bilder nicht mehr in der Google Bildersuche auftauchen werden. Ich habe das gerade mal getestet und es stimmt tatsächlich, Bilder im Blog werden vom Googlebot-Image nicht mehr gecrawled!

Googlebot Image Crawl-Test für “wp-”

Also, wer Wert darauf legt, dass seine Bilder in der Google Bildersuche auftauchen, sollte die erste Zeile mit “Disallow: /blog/wp-” nicht verwenden! Nachdem ich mir das ganze nochmal überlegt und mir die indexierten Seiten bei Google und Yahoo angesehen habe, bin ich zu dem Schluss gekommen, dass man diese Zeile eigentlich generell weglassen kann. Den Beiträgen wird auch eine indexierte Login-Seite kein Ranking wegnehmen. Oder kennt jemand noch einen anderen Grund, warum man man URLs mit “wp-” für Bots blockieren sollte?

Alle anderen Einträge in der robots.txt sollten eigentlich selbsterklärend sein. “Disallow: /blog/feed/” blockiert den Hauptfeed (kein Plugin mehr nötig) und “Disallow: /blog/*/feed/” blockiert all die lästigen Kommentar-Feeds der Beiträge. Bei mir indexiert Yahoo auch wie verrückt die Trackbacks für die Beiträge deshalb die Zeile “Disallow: /blog/*/trackback/”. Für CSS-Stylesheets scheint Yahoo ebenfalls eine Vorliebe zu haben, deshalb habe ich noch “Disallow: *.css” hinzugefügt.

Diese robots.txt habe ich nun seit dem 06. Juli im Einsatz und bisher wurden dadurch 28 URLs eingeschränkt. Unter den 28 URLs sind nur Trackbacks und Feeds sowie folgende URL “http://www.compboard.de/blog/wp-includes/js/prototype.js?ver=1.5.0-0″.

Ich denke, man kann also mit Sicherheit behaupten, dass diese robots.txt bedenkenlos einsetzbar ist um die Indexierung der Feeds verlässlich zu verhindern! Wer gegenteiliger Meinung ist, kann das gerne in den Kommentaren kundtun oder auch Verbesserungsvorschläge unterbreiten. ;-)


Copyright © Compboard Blog - Tipps zu Computer, Internet, Mobilfunk und Handy
Dieser Feed ist nur für den persönlichen, nicht gewerblichen Gebrauch bestimmt.
Eine Verwendung dieses Feeds auf anderen Webseiten verstößt gegen das Urheberrecht. Wenn Sie den Beitrag WordPress Feeds mit robots.txt einfach aus dem Index fernhalten nicht in Ihrem News-Reader lesen, so macht sich die Seite, die Sie betrachten, der Urheberrechtsverletzung schuldig.
( 8f4cb02f-3fa6-406b-aa6b-1395baf8678a )


Viewing all articles
Browse latest Browse all 12