Eine robots.txt für Magento 1.3

Der Magento-Shop ist online. Plötzlich kommt der Googlebot zu Besuch. Die ersten Seitenlinks schauen noch gut aus.

GET /gesichtspflege/aufbauen/blue-lagoon-hydrating-24h-serum.html.

Das lässt das SEO-Herz doch schneller schlagen. Doch was ist das?

GET /haarpflege/?SID=ldfo3osttg0gv50frmt65bd2b0zahlungsmoeglichkeiten

sieht nicht mehr so schön aus. Da kommt Panik auf. Auch nach 6 Stunden hört der Spider nicht auf Seiten zu ziehen. Leider Seiten die es alle nicht gibt oder nur DC (Duplicate-Content) sind.

DC ist aus SEO-Sicht schon ein größeres Problem. Magento produziert für einen identischen Artikel viele unterschiedliche URLs. Im Vitalityshop waren es zu Beginn 35 Artikel in gerade mal 8 Kategorien. Trotzdem haben Sitemap-Tools wie zum Beispiel www.xml-sitemaps.com nach 500 gefundenen Seiten aufgehört. Also der maximalen Anzahl die man bei der kostenlosen Variante spidern lassen kann. Lokale Tests mit Spidersoftware habe ich nach 2000 gefundenen Seiten abgebrochen.

Da der Googlebot ähnlich arbeitet, sieht auch dieser unendlich viele Seiten mit gleichen Inhalten innerhalb der Domain. Das sind keine guten Voraussetzungen für die organische Suche. Man muss also den Googlebot von diversen Seiten fernhalten.

Grobe Abhilfe schafft eine robots.txt. Das ich daran nicht gleich gedacht habe. Irgendwie hatte ich mich darauf verlassen das die bei Magento schon dabei ist.

Wichtiger Hinweis: Die robots.txt gilt für Magento 1.3. Bei 1.4 sollte auf jeden Fall erst Mal mit dem Feature Canonical-Tag gearbeitet werden (System -> Konfiguration -> Katalog -> Suchmaschinen Optimierung) und was dann noch übrig bleibt in der robots.txt behandelt werden. Tests dazu laufen noch. Ich werde dann einen neuen Artikel dazu erstellen.

Aus diversen Foren-Einträgen habe ich mir diese robots.txt gebaut:

User-agent: *
Disallow: /index.php/
Disallow: /*?
Disallow: /*.js$
Disallow: /*.css$
Disallow: /404/
Disallow: /admin/
Disallow: /api/
Disallow: /app/
Disallow: /catalog/category/view/
Disallow: /catalog/product/view/
Disallow: /catalog/product_compare/
Disallow: /catalogsearch/
Disallow: /cgi-bin/
Disallow: /checkout/
Disallow: /contacts/
Disallow: /customer/
Disallow: /downloader/
Disallow: /install/
Disallow: /images/
Disallow: /js/
Disallow: /lib/
Disallow: /magento/
Disallow: /media/
Disallow: /newsletter/
Disallow: /pkginfo/
Disallow: /private/
Disallow: /poll/
Disallow: /report/
Disallow: /review/
Disallow: /sendfriend/
Disallow: /skin/
Disallow: /tag/
Disallow: /var/
Disallow: /wishlist/
Sitemap: http://www.vitalityshop.de/sitemap.xml

Den Erfolg der Maßnahme prüft man dann nach einer Weile mit den Google Webmaster-Tools.

Der Spider läuft sich nun zwar nicht mehr tod, DC gibt es aber weiterhin. Ein Artikel kann weiterhin über mehrere URLs aufgerufen werden. So zum Beispiel über die Stamm-Url, aber auch über jede Kategorie in der der Artikel vorkommt. Hier ein Beispiel:

http://www.vitalityshop.de/blue-lagoon-mineral-foaming-cleanser.html
http://www.vitalityshop.de/gesichtspflege/reinigen/blue-lagoon-mineral-foaming-cleanser.html

Auch hierfür gibt es im Backend einen Schalter. Unter System / Konfiguration / Katalog / Suchmaschinen Optimierung findet man den Schalter Kategoriepfad für Produkt-URLs verwenden den man dann auf Nein stellen sollte.

Nun sieht die SEO-Welt schon etwas besser aus. Schöner wäre es natürlich wenn auch die Kategorie in der URL abgebildet wäre, spätestens wenn ein Artikel aber in mehreren Kategorien stecken würde, käme es hier zu neuen Problemen.

20 Responses to Eine robots.txt für Magento 1.3

  1. Dome sagt:

    Toller Beitrag,
    DANKE für die Mühen!

  2. Bathdeingner sagt:

    danke für denn Tip ich hätte mich wieder mal stundenlang im Magento Forum bemüht. 🙂

  3. Kai Köpke sagt:

    Dankeschön. Hat mir einige Arbeit erspart.

    Gruß, Kai

  4. Sendner sagt:

    Sollte man die Agb/ Datenschutz / Zahlungsmöglichkeien auch in die robots.txt?? Immerhin sind die bei fast jedem Online-Shop gleich..

    • Websolutions sagt:

      Das ist eine gute Idee. Damit kann man sich auch einige Abmahner vom Hals halten die über Google nach unglücklichen Formulierungen suchen.

  5. Andreas sagt:

    habt ihr es schon mal mit canonical tags versucht. das sollte das problem weitestgehend beheben….

  6. Bernd sagt:

    vielen Dank für die robots.txt; Ich verwende sie von Anfang an und es funktioniert geht.

    Nur eine Sache ist mir noch aufgefallen. Bei mir erscheint die Homepage sowohl unter http://www.glitzerladen.de als auch unter http://www.glitzerladen.de/home auf. Ist das problematisch? Wenn ja, wie kann ich das verhindern,

    Danke vorab und viele Grüße
    Bernd

    • Websolutions sagt:

      Ja, laut den Google Webmaster-Tools ist das DC. Es wird ein Doppelter Title-Tag für / und /home angemeckert.

      1. Lösung: In der .htaccess ganz oben einfügen: „Redirect permanent /home http://www.domain.de/„.

      2. Lösung: Im Backend den URL-Seitenbezeichner von home nach index.html umbenennen.

      • Bernd sagt:

        Super vielen Dank für die schnelle Hilfe. Ich habe mich für Variante 1 entschieden. Mit Variante 2 mag Magento nicht umgehen.

      • Chris sagt:

        Holla!
        Cooler Artikel, habe viele Tipps bei mir umgesetzt.
        Jedoch habe ich folgendes Problem.
        Obwohl ich Lösung 1 umgesetzt habe, werden in den Webmaster-Tools doppelte Titel- und Metatags bemängelt.
        Vor allem „Disallow: /index.php/“ in der robots.txt wird nicht beachtet.

        Habt ihr vielleicht noch eine Idee?
        Gruß Chris

  7. Jens sagt:

    Vielen, vielen Dank für die robots.txt.

    Ich habe das Problem, dass Google Links meiner Seite mit „?dir=“ und „?cat=“ indexiert.

    Ein Link sieht dann ungefähr so aus:
    http://www.domain.de/seite.html?dir=desc&manufacturer=1&order=position

    Lässt sich das verhindern?

  8. Jens sagt:

    Lösung: Im Backend den URL-Seitenbezeichner von home nach index.html umbenennen. führt bei mir zu folgendem Fehler:

    „There was no Home CMS page configured or found.“

    • Websolutions sagt:

      Prüfe mal die Einstellungen unter System -> Konfiguration -> Web -> Standardseiten. Und natürlich den Cache leeren nicht vergessen.

  9. Bernd sagt:

    Hallo,

    hast du dir schon zur Robots.txt mit Magento 1.4 weitere Gedanken gemacht.

    Ich habe aktuell das Problem, dass Yahoo nur 4 Seiten im Index hat und ich vermute, dass es an der Robots.txt in Verbindung mit Magento liegt.

    Viele Grüße
    Bernd

    • Websolutions sagt:

      Ich habe mir mal Deine robots.txt angeschaut und nichts Verdächtiges gefunden. Im Gegenteil: Sieht wirklich gut aus. Würde ich als Empfehlung für 1.4 nehmen.

      Bei Google ist Deine Seite ja auch normal vertreten. Muss also andere Gründe haben.

  10. aknet47 sagt:

    Ich warne alle vor dem Einsatz dieser robots.txt. Damit erreicht man höchstens eines, das Google eure Seite meidet. Ich möchte ein zwei kurze Beispiele anführen, damit das Ganze klarer wird.

    Disallow: /*.js$ – Google ist bemüht Javascript zu interpretieren, darum sollten Javascripts auf jeden Fall erreichbar sein!

    Disallow: /*.css$ – Google versucht Spammtechniken wie hidden-text… auf die Schliche zu kommen, darum erscheint es für Google höchstwahrscheinlich sehr verdächtig, wenn man die Suchmaschinen auf diese Weise an ihrer Arbeit hindern möchte

    Die Möglichkeit Bilder zu spidern ist ebenfalls von hoher Wichtigkeit… Der Einsatz der robots.txt sollte mit Bedacht ausgeführt werden, sonst schadet es ihrer Webseite nur, just my five cent worth

    • Websolutions sagt:

      Ich finde es gut, dass auch mal ein Verbesserungsvorschlag kommt. Die Argumente zu .js und .css kann ich nachvollziehen und finde sie logisch. Bei den Produktbildern kann man vielleicht noch kontrovers diskutieren.
      Inzwischen bin ich aber sowieso der Meinung, auf Einschränkungen in der robots.txt grundsätzlich zu verzichten. Insbesondere bei Magento >= 1.4 ist dies durch das Canonical-Tag auch einfach möglich.

  11. Andreas sagt:

    Danke an Websolutions für die Zusammenfassung und die Mühe!!!

    Der Beitrag von aknet47 machte mich jetzt schon ein bischen stutzig, wäre es jetzt besser bei 1.4 und aufwärts auf die Robots.txt einschränkungen zu verzichten???
    Gibt es vielleicht noch ein paar mehr Meinungen dazu???

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s

%d Bloggern gefällt das: