robots.txt bei Crawl-Starts

Orbiter · 26.10.2005

ggf. gehört dieses Thema auch in den Suchmaschinen-Bereich, aber über die Frage entscheiden eher webmaster, daher hab ich dieses Suchmaschinen-relevante Thema hier eingestellt. (bitte ggf. verschieben)

Ich betreibe einen Crawler (ein yacy-peer) und habe das Problem das ein Crawl-Startpunkt vom Crawler nicht akzeptiert wird weil robots.txt diesen verbietet. Nun sind auf der entsprechenden Seite aber nur Links zu Seiten ausserhalb der von diesem robots.txt-kontollierten Domäne. (es handelt sich um http://del.icio.us/popular/)

Die Frage ist also: würde ein Webmaster es akzeptieren, wenn ein crawler einzige im Falle des Crawl-Startpunktes die robots.txt übergeht?

Wir haben das schon im YaCy-Forum breit diskutiert (http://www.yacy-forum.de/viewtopic.php?p=11664#11664) aber kommen nicht weiter.
Hier ist irgendwie die Frage ob der webmaster mit der robots.txt eher einen technischen Hinweis abgelegt hat oder ob er es prinzipiell nicht will das ein robot die Seiten liest.

Sascha Ahlers · 26.10.2005

Hallo,

QUOTE (Orbiter @ Mi 26.10.2005, 16:33)[...] Die Frage ist also: würde ein Webmaster es akzeptieren, wenn ein crawler einzige im Falle des Crawl-Startpunktes die robots.txt übergeht? [...]

Wir haben das schon im YaCy-Forum breit diskutiert (http://www.yacy-forum.de/viewtopic.php?p=11664#11664) aber kommen nicht weiter.
Hier ist irgendwie die Frage ob der webmaster mit der robots.txt eher einen technischen Hinweis abgelegt hat oder ob er es prinzipiell nicht will das ein robot die Seiten liest. [...]

ich weiß gar nicht, was es da groß zu diskutieren gibt, Ihr müsst Euch doch nur entscheiden, wie Ihr die robots.txt behandelt wollte.

Der Webmaster möchte wohl, dass jeglicher Crawler nur das Verzeichnis "/rss" indizieren darf, alle anderen Verzeichniss sollen nicht indiziert werden.
Nur da es keine RFC dazu gibt, wurde halt ein unoffizeller, abgesprochender Standard [1] entworfen, der besagt, dass ist die Disallow-Regeln vorrang vor den Allow-Regeln haben (also müssten erst die Allow Regeln und dann die Disallow-Regeln definiert werden -> korrekte Syntax nach der abgesprochenden Vereinheitlichung). Ihr habt nun "eigentlich" drei Möglichkeiten:

entsprechend des unoffizellen Standard mit der robots.txt zu verfahren, sprich nichts indizieren
entsprechend des vermutlichen Webmasterwunsches verfahren, sprich nur das Verzeichnis /rss indexieren, die letzte Regel gilt (man könnte dann natürlich auch eine 4 Entscheidungsmöglichkeit hinzunehmen, die ersten Regeln haben vorrang vor den letzen)
oder die robots.txt als ungültig zu bewerten und dafür eine entsprechende Behandlung der Website definieren (komplett indizieren, überhaupt nicht indizieren, nach den vermeindlichen Wunsch des Betreibers vorgehen usw.)

Immerhin muss jeder Webmaster damit rechnen, dass die robots.txt von einen Crawler ignoriert wird [2] oder anders behandelt wird, wie erwartet. Mehr Informationen zur robots.txt sind noch unter www.robotstext.org [3] zu finden.

Google hingegen scheint die Anweisung auf der Seite auch komplett zu ignorieren. Nebenbei verweißt auch Google auf robotstxt.org. [4]

Nur scheint Google allgemein die robots.txt zu ignorieren, besonders da die Google-Beschreibungen auf deren Website teilweise Fehlerhaft sind und ich immer mehr Hinweise finde, dass Google die robots.txt anscheinend überhaupt nicht beachtet. Aber in 2 Monaten werde ich wohl mehr darüber wissen, solange beobachte ich das mal.

MfG Sascha Ahlers

[1] Robottxt.org: A Method for Web Robots Control
[2] Selfhtml: robots.txt - Robots kontrollieren
[3] www.robotstxt.org
[4] Google verweißt auf: http://www.robotstxt.org/wc/exclusion.html, siehe: http://www.google.de/intl/de/webmasters/bot.html#robotsinfo

Orbiter · 27.10.2005

Hallo Sascha,

erstmal ein großes Danke für die sehr gut recherchierten Informationen.

Eine gewisse Verwirrung herrscht momentan bei uns crawler darüber ob
-a-) die robots.txt nun ein Admin-Wunsch zum nicht-indexieren ist, oder ob
-b-) es ein wohlwollender Hinweis des Admins ist so das sich der crawler nicht verzettelt und in endlose Schleifen gerät oder Seiten absucht die bald nicht mehr existieren

Dein Hinweis #1 unten sagt schlicht:
QUOTE The technique specified in this memo allows Web site administrators to indicate to visiting robots which parts of the site should be avoided.

Das bemerkenswerte daran ist das hier überhaupt keine Aussage übers Erfassen per Indexieren gemacht wird, sondern nur übers 'Besuchen', was insofern etwas ganz anderes meint weil es um die Funktionsweise des crawlens geht, und nicht um die Erfassung von Information.

Das würde bedeuten das mit robots.txt nur der Punkt -b-) oben gemeint ist, und der Admin eigentlich gar nicht entscheiden darf, will oder soll ob die Information indexiert wird oder nicht. Schliesslich stellt er es ja online, will also das man es liest.

Ich bin eigentlich der Meinung das es korrekt wäre sich über das robots.txt in meinem oben anfangs zitierten Fall hinwegzusetzten, da ja die Seite gar nicht gecrawlt wird, sondern lediglich die Information auf der Startseite genutzt wird um woanders zu crawlen. Warum sollte der mir das verbieten wollen? Ich sehe auch dass das gehen sollte wenn sich eben auch Google über robots.txt hinweg setzt. Aber wie reagiert der Administrator auf das Ignorieren der robots.txt? Sperren des Crawlers? Das wäre doch nur angebracht wenn der Crawler duch nicht-Beachten der robots.txt die Seite lahm legt, was in meinem Beispiel ja nicht passieren kann.

Und im Endeffekt wollen wir die robots.txt schon korrekt behandeln, nur scheint dies ein Grenzfall zu sein.

Sascha Ahlers · 27.10.2005

QUOTE (Orbiter @ Do 27.10.2005, 0:14)[...] Dein Hinweis #1 unten sagt schlicht:

QUOTE The technique specified in this memo allows Web site administrators to indicate to visiting robots which parts of the site should be avoided.

Das bemerkenswerte daran ist das hier überhaupt keine Aussage übers Erfassen per Indexieren gemacht wird, sondern nur übers 'Besuchen', was insofern etwas ganz anderes meint weil es um die Funktionsweise des crawlens geht, und nicht um die Erfassung von Information. [...]

Tja, nur sollte man bedenken, dass mit der Bezeichnung "robot" [1] (hier in der Mehrzahl "robots&quot

der Webcrawler gemeint ist [2].

Letzendlich erscheint es mir aber auch so, dass für die robots.txt die Anweisung "Allow" nicht wirklich vorgesehen war.

QUOTE [...] Ein Schlüsselwort Allow: wurde niemals definiert. [...]

Quelle: http://de.selfhtml.org/diverses/robots.htm...icherort_aufbau

Von daher ergibt sich eine weitere Möglichkeit, die "Allow"-Anweisungen einfach ganz zu ignorieren.

Ich würde nun entweder

die "Allow"-Anweisungen komplett ignorieren (annehmbare Lösung, wenn auch nicht ganz so komfortable für die Website-Betreiber),
die robots.txt als ungültig erklären und die Seite einfach indizieren (dadurch könnte viel Müll in den Index kommen) bzw. nicht indizieren (möglicherweise viel verlorener Inhalt, wegen falscher robots.txt's) oder
einfach entsprechende der anscheinenden Reihenfolge vorgehen, ein zuerst genanntes "Disallow" hat Vorrang vor einem später definierten "Allow" (dies wäre meine bevorzugte Variante, da ich die Allows nicht ausschließen wollte).

Dies ist halt die Entscheidung, was man selber gerne hätte. Die Entscheidung des anscheinbaren verlangten kann hierbei nicht gewährleistet werden, der Eine bewertet die Reihenfolge anders, der Nächste die Gewichtung der einzelnen Anweisungen.

MfG Sascha Ahlers

Alain Aubert · 27.10.2005

QUOTE Aber wie reagiert der Administrator auf das Ignorieren der robots.txt? Sperren des Crawlers? Das wäre doch nur angebracht wenn der Crawler duch nicht-Beachten der robots.txt die Seite lahm legt

Es scheint als gibt es da jemanden der es darauf anlegt mich zu nerven. Ich hab Yacy schon in derselben Liste wie Texasholdem und superviagrawhatever, aufgrund des schon besprochenen Referalspams. Hör damit auf.
Bezugnehmen auf http://del.icio.us/robots.txt teile ich Dir mit, dass Du /rss und sonst nichts zu spidern hast. Was genau in dem Word Disallow verstehst Du nicht?

Fürs Protokol: Google und alle anderen beachten die robots.txt. Schau doch in die SERPs. Und ja, Missachten meiner robots.txt führt sofort zur Sperrung. Ausserdem gibt's i.d.R. noch etwas bad publicity gratis dazu.

@Sacha, setz dem Jungen keine Flausen in den Kopf, man entscheidet sich nicht was man will, man respektiert die Wünsche des Webmasters, wenn er eine robots.txt oder meta noindex verwendet.

PS: Bitte Link der Yacy policies posten.

Orbiter · 27.10.2005

Hallo Alain,
QUOTE Bezugnehmen auf http://del.icio.us/robots.txt teile ich Dir mit, dass Du /rss und sonst nichts zu spidern hast. Was genau in dem Word Disallow verstehst Du nicht?

Das ist ja genau der Punkt den ich versuchte hervorzuarbeiten: robots.txt bezieht sich in der von Sascha genannten Doku eben aufs crawlen, dem 'automatischen besuchen'. Es hat nie was mit dem indexieren, dem Erfassen der Information zu tun, rein formal so wie ich es verstehe.

Daher ist ja hier auch das Problem: die genannte Startseite wird eben _nicht_ automatisch besucht (sie wird ja manuell vom Erfasser im Indexierer eingegeben). Es ist also -wenn die robots.txt sich eben auf das Besuchen wenn der Link dazu automatisch generiert wurde- hier gar kein Fall für die robots.txt.

Trotzdem würde die Seite vom crawler geladen werden, aber eben durch eine manuelle Eingabe (ist ja der Startpunkt) genau so wie wenn die Seite von einem Browser geladen werden würde. Bei allen weiteren Vorgängen hält sich YaCy natürlich an die robots.txt, das war ja auch gar nicht die Frage. Es geht lediglich um den Startpunkt.

Alain Aubert · 27.10.2005

Du betreibts Informationsverweigerung. Der von Dir vorgebrachte Gedankengang ist scheinheilig. Es geht einfach: Als erstes hohlst Du Dir robots.txt. Als zweites liest Du sie. Dann machst Du was drin steht. Alles andere ist eine Missachtung des Webmasters und wird Dir seine Ungnade einbringen.

QUOTE Es hat nie was mit dem indexieren, dem Erfassen der Information zu tun, rein formal so wie ich es verstehe.

Die Welt ist noch kein Ort, in der jeder alles verstehen darf wie er will. Ich kann z.B. in der robots.txt alles verbieten nur um Traffic zu sparen, meine Entscheidung.

Verzeih bitte meinen scharfen Ton, aber Deine Argumentation ist sehr selbstgefällig. Die robots.txt ist verbindlich, auch wenn technisch umgehbar.

Welche Position hälts Du bei Yacy inne und wann gibts Du mir die Policies von Yacy?

bull · 27.10.2005

QUOTE Google hingegen scheint die Anweisung auf der Seite auch komplett zu ignorieren. Nebenbei verweißt auch Google auf robotstxt.org. [4]

Starke Behauptung, leider - außer den obligatorischen Links zum Deppenlexikon - mit keinem Beleg untermauert.
Im Gegenteil, bei allen einschlägigen, stets von Googleguy mitbeantworteten Beiträgen auf webmasterworld (teilweise nur noch über Google-Cache zu erreichen) stellten sich Mißachtungen der robots.txt stets als kurzfristige technisch bedingte Mängel respektive als Fehler seitens der jeweiligen Seitenbetreiber heraus.

Dessenungeachtet ist das eventuelle Fehlverhalten einer "großen" Suchmaschine in keinem Falle ein Freibrief für irgendwelche selbstzusammengefrickelten Crawler, sich nun über robots.txt hinwegzusetzen. Solchen Bestrebungen muß klar und deutlich entgegengetreten werden.

Was den konkreten Fall Yacy betrifft, so ist das für mich persönlich ohne Relevanz, da ich Roboter, welche sich nicht benehmen, umgehend nach Kenntnisnahme mittels .htaccess sperre. Das Verunreinigen von Logs mit falschen Referern ist selbstredend ein Ausschlußgrund.

Gruß

Sascha Ahlers · 01.01.2006

QUOTE (bull @ Do 27.10.2005, 13:47)
QUOTE Google hingegen scheint die Anweisung auf der Seite auch komplett zu ignorieren. Nebenbei verweißt auch Google auf robotstxt.org. [4]

Starke Behauptung, leider - außer den obligatorischen Links zum Deppenlexikon - mit keinem Beleg untermauert. [...]

Was es alles ausmachen kann, wenn man das kleine Wort "scheint" überliest.

Nein, ich habe das nicht behauptet! Und nein, die robots.txt ist kein Standard, auch wenn es Personen gibt, die es gerne so hätten. Was ich durchaus verstehen kann und ich zweifle auch nicht an, dass es zum guten Ton gehört, aber es gibt nun mal halt nicht mehr als nur einen "beinahe" Standard dazu. Das ist aber noch lange kein Standard. Außerdem gibt es, wie man wohl gesehen hat unterschiedliche Aussagen zu der robots.txt.

Was mich nur mal interessiert, was Du als "Deppenlexikon" bezeichnest (wäre vielleicht sogar, wie es im Volksmund heißt: Rufmord), und wie Du darauf kommst, dass ich jeden Link als Beleg zu Untermauerung benutzen würde, vielleicht gebe ich den Link ja auch nur als Informationsquelle an.
Nach Deiner Zitierweise könnte man darauf schließen, dass Du mit dem "Deppenlexikon" Deinen so gewünschten Schein-Standard meinst, nur das wäre ja ein Widerspruch in sich.

MfG Sascha Ahlers

PS: Mittlerweile hat Google auch meine robots.txt endlich beachtet, wobei ich noch eine kleine Fehlbeschreibung auf der Google Seite zu dem gewünschten robotstxt.org Schein-Standard gefunden habe (hierbei handelt es sich um die Benutzung von Wildcards innerhalb der robots.txt, welche Google angeblich, nach Ihrer eigenen Aussage, damals noch unterstützen sollte).

robots.txt bei Crawl-Starts

Orbiter

Mitglied

Sascha Ahlers

Legendäres Mitglied

Orbiter

Mitglied

Sascha Ahlers

Legendäres Mitglied

Alain Aubert

Legendäres Mitglied

Orbiter

Mitglied

Alain Aubert

Legendäres Mitglied

bull

Angesehenes Mitglied

Sascha Ahlers

Legendäres Mitglied

Wir schützen Ihre Privatsphäre