Robots.txt

sd12

Legendäres Mitglied
Hi

Folgende Konstelation

Ich will domain.ch und www.domain.ch für Robots sperren.

www.blog.domain.ch und blog.domain.ch sollen aber auf jeden Fall gespidert werden.

Wer hat kreative Ideen?
 
Hallo

Jetzt bin ich mir nicht mehr sicher, aber soviel ich verstanden habe, kannst Du zwei verschiedene robots.txt einsetzen.

- eine für die Hauptdomain: www.domain.ch resp. domain.ch

direkt im root-Verzeichnis, mit dem Inhalt

User-agent: *
Disallow: /

und

- eine für die Subdomain: www.blog.domain.ch resp. blog.domain.ch

direkt im subdomain-Verzeichnis, mit dem Inhalt

User-agent: *
Disallow:

oder stimmt diese Annahme nicht?

Ansonsten gibts wohl nur die Möglichkeit, den Inhalt deiner Seite domain.ch in ein weiteres Unterverzeichnis zu legen und dieses für die Spider zu sperren.
 
Ich würde folgendes versuchen:

User-agent: *
Disallow: www.domain.ch
Disallow: domain.ch
Allow: www.blog.domain.ch
Allow: blog.domain.ch

Leider bin ich aber nicht 100% sicher
dry.gif


Cheers, René
 
</div><table border='0' align='center' width='95%' cellpadding='3' cellspacing='1'><tr><td>QUOTE ( @ Mo 30.10.2006, 10:53)</td></tr><tr><td id='QUOTE'><div style='overflow:auto;'>Wer hat kreative Ideen?[/QUOTE]
Kreative Ideen braucht man dazu nicht, das ist einfach nur der robots-Standard.

Und der besagt, daß die Lösung von @Jürg richtig ist. Die Sache läßt sich auch einfach im Browser testen:

http://blog.domain.ch/robots.txt

muß eine freigebende robots.txt liefern,

http://www.domain.ch/robots.txt

eine gesperrte.

Man muß darauf achten, daß hinter der letzten Textzeile immer noch ein Return eingefügt wird, das sieht der Standard vor.

Das

QUOTE User-agent: *
Disallow: www.domain.ch
Disallow: domain.ch
Allow: www.blog.domain.ch
Allow: blog.domain.ch


ist nix robots - in einer robots.txt gibt es nur Pfadangaben, keine Domainangaben. Das würde bsp. eine Datei /www.domain.ch.html oder einen Ordner /www.domain.ch/ ausschließen.
 
Zurück
Oben