WakkaWiki: Googlebot einschränken

04. Januar 2004 - 21:23 Uhr - Moe
Für Administratoren von Wikis basierend auf dem CMS von WakkaWiki empfiehlt es sich, den Googlebot einzuschränken. Indem man folgende Angaben in die robots.txt aufnimmt und diese in Root-Verzeichnis des Web-Speicherplatzes hochlädt, kann man verhindern dass der Googlebot
  • Seiten im Editiermodus mit dem Text der Wikiseite im Editorfenster (damit niemand hineingooglet und versehentliche Änderungen vornimmt)
  • Seiten zur Versionskontrolle (da sie unsinnige Information für Suchende beinhalten)
  • Seiten mit den Referrers (damit Ref-Spammer nicht von erhöhten Pageranks durch falsche Referrers profitieren, die sonst vom Googlebot als Links erkannt würden)
in das Google-Angebot aufnimmt:
User-agent: Googlebot
Disallow: /wiki/*/edit
Disallow: /wiki/*/revisions
Disallow: /wiki/*/referrers
Disallow: /wiki/*/referrers_sites

wiki steht hier für den Namen des Ordners, in dem das Wiki installiert wurde (kann man den eigentlich auch weglassen, da eh ein Wildcard * verwendet wird?). Google-User landen nun nur noch auf für sie relevanten Wikiseiten.
Soweit ich das ersehen kann, funktioniert diese Lösung leider jedoch nur für den Googlebot, und nicht für Bots anderer Suchmaschinen. Der Grund dafür ist, dass Wildcards * in den Disallow-Angaben der robots.txt soweit mir bekannt ist keinen Standard darstellen, sondern erweiterte Kommandos für den Googlebot sind - siehe auch den robots.txt-Validator: Possible Missplaced Wildcard. Although Google supports wildcards in the Disallow field, it is nonstandard. Es empfiehlt sich also, Wildcards in den Disallows nur explizit für den Googlebot anzugeben. Für andere Suchmaschinen sehe ich bislang keine Lösung, da die Namen der Wikiseiten ja jeweils variieren, das liegt an der Architektur des Wakkawiki. Mein Versuch, das mit
User-agent: *
Disallow: /edit
Disallow: /revisions
Disallow: /referrers
Disallow: /referrers_sites

zu lösen hat anscheinend nicht funktioniert, was ja eigentlich auch logisch ist, da die jeweiligen URLs nicht mit diesen Angaben beginnen, sondern enden. Weiss jemand, ob und welche anderen Bots Wildcards unterstützen?

7 Kommentare:

  1. Experte ;) schrieb:
    wie wäre es mit;
    User-agent: *
    Disallow: wiki/Rk5/

    übrigens
    http://www.plasticthinking....
    ist nicht von Google indiziert, also dort scheint es zu funktionieren, kein pagerank.
    # 04. Januar 2004 - 21:40 Uhr
  2. Moe schrieb:
    wenn ich dein beispiel einsetzen würde, würde ich ja nur gezielt eine seite (samt inhalt, falls mal einer kommt) aussperren. was soll mir das bringen...?
    ich möchte, dass die refs etc von *allen* seiten nicht indiziert werden; die seiten selbst aber natürlich schon!
    die wirklich existenten seiten müssten eigentlich auch schon jetzt von google gefunden werden, denke ich: http://tinyurl.com/27baz
    # 04. Januar 2004 - 21:48 Uhr
  3. Experte ;) schrieb:
    so viel ich weiss wären dann alle Seiten nach /RK5/ nicht im Index, so zumindest funktioniert es bei phpBB Foren.
    # 04. Januar 2004 - 21:50 Uhr
  4. Moe schrieb:
    hmmm ich bin mir nicht sicher, ich glaube rk5 würde dann auch schon nicht mehr im index stehen. aber das problem ist, dass da wo rk5 steht ein beliebeigerseitenname stehen könnte, den ich ja in der robots.txt eben daher nicht fest angeben kann.
    # 04. Januar 2004 - 22:02 Uhr
  5. Moe schrieb:
    ich habe eine weitere lösung gefunden, die zwar nicht die robots.txt nutzt, aber dafür ein metatag mit robots:noindex in alle system-seiten des wakkawiki schreibt:

    <?php if ($this->GetMethod() != 'show')
    echo "<meta name=\"robots\" content=\"noindex, nofollow\"/>\n";?>

    einfach in die header.php nach dem title-tag einfügen! das sollte nun in kombination mit der robots.txt für mein wiki genügen ;)
    # 04. Januar 2004 - 22:19 Uhr
  6. Thiemo schrieb:
    * Ja, "/*/edit" funktioniert natürlich (Ordnername weglassen). Problem: Dieses Muster trifft auf alle Seiten zu, die "/edit" beinhalten (!), auch wenn sie nicht zum Wiki gehören. Deswegen sollte man den Ordner schon angeben.

    * "/wiki/*/edit^" wäre das korrekte Muster für "endet mit". Ohne den abschließenden Anker würde es "enthält" bedeuten (wobei das beim WakkaWiki natürlich egal ist).

    * So weit ich weiß, versteht kein anderer Agent diese Erweiterungen.
    # 04. Januar 2004 - 22:55 Uhr
  7. schurl schrieb:
    Wer Googlebot verstehen will muss ihn kennen!
    http://www.googlebot.de
    # 11. August 2005 - 10:51 Uhr

Kommentare werden moderiert und vor der Veröffentlichung manuell geprüft.

Kommentieren:

:

:
: