- Seiten im Editiermodus mit dem Text der Wikiseite im Editorfenster (damit niemand hineingooglet und versehentliche Änderungen vornimmt)
- Seiten zur Versionskontrolle (da sie unsinnige Information für Suchende beinhalten)
- Seiten mit den Referrers (damit Ref-Spammer nicht von erhöhten Pageranks durch falsche Referrers profitieren, die sonst vom Googlebot als Links erkannt würden)
User-agent: Googlebot
Disallow: /wiki/*/edit
Disallow: /wiki/*/revisions
Disallow: /wiki/*/referrers
Disallow: /wiki/*/referrers_sites
wiki steht hier für den Namen des Ordners, in dem das Wiki installiert wurde (kann man den eigentlich auch weglassen, da eh ein Wildcard * verwendet wird?). Google-User landen nun nur noch auf für sie relevanten Wikiseiten.
Soweit ich das ersehen kann, funktioniert diese Lösung leider jedoch nur für den Googlebot, und nicht für Bots anderer Suchmaschinen. Der Grund dafür ist, dass Wildcards * in den Disallow-Angaben der robots.txt soweit mir bekannt ist keinen Standard darstellen, sondern erweiterte Kommandos für den Googlebot sind - siehe auch den robots.txt-Validator: Possible Missplaced Wildcard. Although Google supports wildcards in the Disallow field, it is nonstandard. Es empfiehlt sich also, Wildcards in den Disallows nur explizit für den Googlebot anzugeben. Für andere Suchmaschinen sehe ich bislang keine Lösung, da die Namen der Wikiseiten ja jeweils variieren, das liegt an der Architektur des Wakkawiki. Mein Versuch, das mit
User-agent: *
Disallow: /edit
Disallow: /revisions
Disallow: /referrers
Disallow: /referrers_sites
zu lösen hat anscheinend nicht funktioniert, was ja eigentlich auch logisch ist, da die jeweiligen URLs nicht mit diesen Angaben beginnen, sondern enden. Weiss jemand, ob und welche anderen Bots Wildcards unterstützen?

User-agent: *
Disallow: wiki/Rk5/
übrigens
http://www.plasticthinking....
ist nicht von Google indiziert, also dort scheint es zu funktionieren, kein pagerank.
ich möchte, dass die refs etc von *allen* seiten nicht indiziert werden; die seiten selbst aber natürlich schon!
die wirklich existenten seiten müssten eigentlich auch schon jetzt von google gefunden werden, denke ich: http://tinyurl.com/27baz
<?php if ($this->GetMethod() != 'show')
echo "<meta name=\"robots\" content=\"noindex, nofollow\"/>\n";?>
einfach in die header.php nach dem title-tag einfügen! das sollte nun in kombination mit der robots.txt für mein wiki genügen ;)
* "/wiki/*/edit^" wäre das korrekte Muster für "endet mit". Ohne den abschließenden Anker würde es "enthält" bedeuten (wobei das beim WakkaWiki natürlich egal ist).
* So weit ich weiß, versteht kein anderer Agent diese Erweiterungen.
http://www.googlebot.de