Liebes Google, nein leider gibt es in meinem Wiki keine Sandkästen zu kaufen, auch wenn meine Testseite so heisst, und auch Xanga HTML Codes habe ich nicht im Angebot, auch wenn ich Xanga auf der Seite PlasticWiki:WebLog erwähne. Irgendwie lustig, wie selbst-referentiell Google da ist: Die Leute googlen nach "Xanga HTML Codes", landen damit irgendwie in meinem Wiki, dann zeigt die Referrer-Seite des Wikis in den URLs auch die Keywords dieser Searchqueries an, diese wiederum werden dann wieder vom Google-Bot indiziert, und dann deswegen bei neuen Suchanfragen wieder als Ergebnisse ausgegeben. =)
Man könnte jetzt sagen, ich pöser Pursche würde hierdurch BlogNoise oder WikiNoise verursachen, aber irgendwie scheint es mir hier eher, als würden sich hier die momentanen Grenzen der Google-Methode aufzeigen.
Dabei habe ich ja sogar versucht, eine robots.txt zu schreiben, damit Google nicht die Referrer-Seiten des Wikis indiziert. Da muss ich wohl irgendwas falsch gemacht haben, oder Google war noch nicht schnell genug. Das Problem dabei: Wie schreibe ich in die robots.txt, dass die URL http://www.plasticthinking.org/wiki/IRGENDWAS/referrers nicht von Bots indiziert werden soll, wenn sich IRGENDWAS ständig ändert, da es der Name der jeweiligen Wiki-Seite ist?
Das PlasticWiki, Sandkästen und Xanga
20. Juli 2003 - 16:51 Uhr - Moe10 Kommentare:
Kommentare werden moderiert und vor der Veröffentlichung manuell geprüft.

Disallow: referrers
oder
Disallow: referrers/
versuchst?
denn das
Disallow: /referrers
ist ja ausgehend vom wurzelverzeichnis.
wobei ich aber zugebe, das ich mir das RFC nicht zu gemüte geführt habe und deshalb nicht weiss, ob sowas erlaubt ist
irgendwie finde ich die robots.txt von tag zu tag unzureichender...
was wäre denn mit folgender idee:
- du lässt in jedes referrer-verzeichnis gleich eine .htaccess schreiben und verbietest in dieser den zugriff von überall her.
- damit sind dann http-zugriff auf den ordner gesperrt, aber über php oder perl kannst du noch immer auf die inhalte zugreifen
Ganz besonders interessant ist ein ähnliches Phänomen bei schlecht konfiguierten Mailinglisten und dummen Leuten mit Urlaubsbenachrichtigungsmails. Da können sich innerhalb von wenigen Minuten viele Tausende Mails ansammeln. Denn jede Urlaubsbenachrichtigung auf der Liste führt wieder zu einer Urlaubsbenachrichtigung, was wiederum zu einer Urlaubsbenachrichtigung führt, die wiederum eine Urlaubsbenachrichtigung auslöst ...
Momentan sicherste Lösung: <meta name="robots" content="noindex,follow"> (aber das ist natürlich Aufgabe der WakkaWiki-Entwickler).
also wenn ich richtig verstanden habe: laut der spezifikation für robots.txt kann man also nur angeben, mit welchem text eine URL *beginnen* muss, um nicht indiziert zu werden.
laut google allerdings versteht der google-bot aber auch wildcards, d.h. hier kann man auch komplette pfade angeben. ein "$"-Zeichen am ende braucht man nur dann, wenn die angabe genau so und nicht anders enden soll um exkludiert zu sagen (betrifft mich nicht, da zB bei den refs noch variablen angehängt werden).
also müsste die jetzige version meiner robots.txt das eigentlich regeln, oder?
-> http://www.plasticthinking....