ggf. gehört dieses Thema auch in den Suchmaschinen-Bereich, aber über die Frage entscheiden eher webmaster, daher hab ich dieses Suchmaschinen-relevante Thema hier eingestellt. (bitte ggf. verschieben)
Ich betreibe einen Crawler (ein yacy-peer) und habe das Problem das ein Crawl-Startpunkt vom Crawler nicht akzeptiert wird weil robots.txt diesen verbietet. Nun sind auf der entsprechenden Seite aber nur Links zu Seiten ausserhalb der von diesem robots.txt-kontollierten Domäne. (es handelt sich um http://del.icio.us/popular/)
Die Frage ist also: würde ein Webmaster es akzeptieren, wenn ein crawler einzige im Falle des Crawl-Startpunktes die robots.txt übergeht?
Wir haben das schon im YaCy-Forum breit diskutiert (http://www.yacy-forum.de/viewtopic.php?p=11664#11664) aber kommen nicht weiter.
Hier ist irgendwie die Frage ob der webmaster mit der robots.txt eher einen technischen Hinweis abgelegt hat oder ob er es prinzipiell nicht will das ein robot die Seiten liest.
Ich betreibe einen Crawler (ein yacy-peer) und habe das Problem das ein Crawl-Startpunkt vom Crawler nicht akzeptiert wird weil robots.txt diesen verbietet. Nun sind auf der entsprechenden Seite aber nur Links zu Seiten ausserhalb der von diesem robots.txt-kontollierten Domäne. (es handelt sich um http://del.icio.us/popular/)
Die Frage ist also: würde ein Webmaster es akzeptieren, wenn ein crawler einzige im Falle des Crawl-Startpunktes die robots.txt übergeht?
Wir haben das schon im YaCy-Forum breit diskutiert (http://www.yacy-forum.de/viewtopic.php?p=11664#11664) aber kommen nicht weiter.
Hier ist irgendwie die Frage ob der webmaster mit der robots.txt eher einen technischen Hinweis abgelegt hat oder ob er es prinzipiell nicht will das ein robot die Seiten liest.