robots.txt Frage

Sandro Feuillet · 13.03.2008

Hi,

Habe etwas spezielle Frage zur robots.txt.

Weiss jemand wie ich nur ein Listing verbietenkann, die darunter liegenden Seiten jedoch erlauben?

also

# http://beispiel.de/robots.txt

User-agent: *
Disallow: /foo/ #Seite in welcher alle Unterdateien aufgelistet sind, sollte nicht indexiert werden. Den Links solte jedoch gefolgt werden...
Allow: /foo/file.htm
Allow: /foo/*.htm

Geht sowas überhaupt? Möchte nicht dass die Listingseite in den Resultaten auftaucht, sie wurde nur für das Auflisten der darunter liegenden Seiten erstell. Die Listingseite ist für user nicht nützlich, die darunter liegenden Seiten schon.

Ach ja, es geht hier nicht um Doorwaypages oder sonstiges Suma-Tricksen, brauche das für eine Site-interne Google-Mini Suche, welche leider nur so alle gewünschten Seiten indexieren kann. Die gelisteten Seiten waren vorher nur via Suche erreichbar, nicht via Browsen.

omc · 13.03.2008

ich bin mittlerweile sehr vorichtig und verlass mich nicht mehr alleine auf die robots.txt.

hatte bei einer neuen seite per robots ein paar ausgesperrt, weil es DC gewesen wäre. google aber indexierte das zeug wie es ihr gerade lustig war. ob die sites auch ins ranking gekommen wären bleibt offen. ich habe anschliessend <META NAME="robots" CONTENT="NOINDEX,FOLLOW"> gesetzt und jetzt ist gut.

gruss ric

PS: das ist keine 2 wochen her

Jürgen Auer · 13.03.2008

So etwas geht bei mir: Die robots.txt hat

CODE User-agent: *
Allow: /
Allow: /xml/*.xsl$
Disallow: /xml/
Disallow: /temp/
Disallow: /xml-samples/
Disallow: /freeware-tools/*.xml$
Disallow: /freeware-tools/*.config$

Die Suche nach site:www.sql-und-xml.de/xml/ listet (zwar etwas unglücklich auch alles aus dem /xml-lernen/) ganz hinten die beiden Xsl-Dateien.

Die anderen Xml-Dateien, die es in diesem Unterverzeichnis und darunter (da existiert die gesamte Domain als Xml-Dateien) gibt, sind nicht im Index.

mlunow · 08.12.2008

Hey Leute!

Bin auch gerade dabei meine Robots.txt zu überarbeiten um folgendes zu erreichen:

> Der (Google)Bot soll keine .php Seiten crawlen, da ich mittels mod_rewrite alles auf .html umschreibe und ich sonst "double-content" hätte.
> Kein Bot soll eine URL mit "*?vote*" aufrufen - da nur User voten sollten und ich nicht will dass Bots das Ergebnis verfälschen.

meine robots.txt sieht nun so aus:

CODE
User-agent: *
Disallow: /*.php*
Disallow: /*.html?vote*

auf SelfHTML.org - Robots.txt lese ich nun aber dass wildcards (*,etc) laut spezifikation nicht erlaubt sind in den (Dis)allow einträgen.

Verwendet ihr sie trotzdem?
Ist es überhaupt nötig "double-content" zu vermeiden?
Sollte ich eine andere Strategie verfolgen um die Bot-Votes zu vermeiden?

Beste Grüße,
Mario

robots.txt Frage

Sandro Feuillet

Legendäres Mitglied

omc

Legendäres Mitglied

Jürgen Auer

Legendäres Mitglied

mlunow

Guest

Wir schützen Ihre Privatsphäre