robots.txt wird von Google nicht gefunden

sevenid · 02.01.2008

Folgende Frage, denn ich weiß zur Zeit nicht weiter.

ich betreibe eine u.a. eine News und Informationswebseite, die an sich auch bei den Google News aufgenommen ist. Seit ca. 5 Tagen werden die News jedoch nicht mehr bei den Google News gelistet. Also einen Blick bei den Webmastertools von google rein geschaut. Da steht, dass tatsächlich ein Fehler vorhanden ist.

"Vor dem Durchsuchen der Seiten Ihrer Website haben wir versucht, die Datei robots.txt zu überprüfen, um sicherzustellen, dass wir keine Seiten durchsuchen, die Sie durch robots.txt blockiert haben. Die Datei robots.txt war jedoch nicht erreichbar. Wir haben unser Crawling zurückgestellt, um sicherzustellen, dass wir keine in dieser Datei aufgeführten Seiten durchsuchen. Wenn dies auftritt, greifen wir zu einem späteren Zeitpunkt erneut auf Ihre Website zurück und durchsuchen sie, sobald wir die Datei robots.txt erreichen können. Beachten Sie, dass sich dies von einer 404-Antwort bei der Suche nach der Datei robots.txt unterscheidet. Wenn wir den Fehler 404 erhalten, gehen wir davon aus, dass die Datei robots.txt nicht vorhanden ist, und fahren mit dem Crawling fort."

Dann habe ich nachgeschaut im FTP Server. Die robots.txt ist jedoch noch vorhanden und auch nicht verändert. Also habe ich nochmal abgewartet. Aber am 30.12. und am 31.12. wurde diese Fehlermeldung nochmals raus gegeben. Im Robots.txt ist angegeben, dass alle Seiten gespidert werden können. Davor gabs damit auch keine Probleme. Seit dem sind weder die News aufgenommen worden, noch wurde die Webseite normal gespidert.

Nun habe ich robots.txt ganz raus genommen, um zu schauen, was passiert. Weil, wenn 404 ausgegeben wird, dann müßte eigentlich ganz normal das Crawling von Google gestartet werden. Was meint Ihr? Habt Ihr auch schon mal ein derartiges Problem gehabt?

P.s. Google Support habe ich kontaktiert. Bisher keine Antwort...

Duvi · 02.01.2008

bei solchen fällen liegt meistens ein problem mit den zugriffsrechten vor, verursacht durch den ftp transfer. mit mod_rewrite kann man die datei auch unerreichbar machen.

allgemein: wenn du die datei im browser aufrufen kannst, also www.example.com/robots.txt, dann ist alles in ordnung.

sevenid · 02.01.2008

hi,
danke für deine antwort. die datei robots.txt war zu jeder zeit erreichbar. ich hatte sie auch im browser geöffnet. nur die fehlermeldung wird auch nach 2 weiteren google crawler besuchen weiter raus gegeben. merkwürdig, oder?

Jürgen Auer · 02.01.2008

Nur so als Hinweis: Im Titel stand 'robot.txt', die Datei muß 'robots.txt' kleingeschrieben heißen.

Hol dir mal das Download.exe aus meinen Freeware-Tools und überprüfe, ob sich damit (1) die robots.txt korrekt runterladen läßt und (2) ob mit der Option -h der korrekte Header 200 geschickt wird.

Schon gesehen: robots.txt ist eine Word-Datei, Datei wird ausgeliefert, aber ein 404 oder anderes geschickt, es wird auf eine andere Datei weitergeleitet, der Browser zeigt diese sofort an, ohne den Statuscode auszugeben.

Das

QUOTE (Duvi @ Mi 2.01.2008, 13:24)allgemein: wenn du die datei im browser aufrufen kannst, also www.example.com/robots.txt, dann ist alles in ordnung.

habe ich früher auch gedacht - bis ich dann auf so Fälle - Content plus 404, 500 oder ähnliches gestoßen bin. Die Browser versuchen natürlich, manches davon trotzdem anzeigen zu lassen. Und 404 plus ein eigener Content geht wunderbar.

PS: Stelle mal einen Link rein - es gibt wahrscheinlich noch mehr Sackgassen.
PPS: Ich mache sowas ja sogar absichtlich: Eine neue Seite, die es noch nicht gibt, wird beim sd-Wiki mit einem Editierlink ausgeliefert - der Statuscode ist aber 404, dann fressen das die Sumas nicht.

sevenid · 02.01.2008

robots.txt war richtig eingestellt und korrekt benannt. davor gab es keine probleme und die webseite wurde bis zum 27.12. richtig indexiert. die url: www.gegen-hartz.de

sehe gerade, dass dies auch bei www.vegetarische-rezepte.com der Fall ist. Auch hier das selbige Problem seit dem 27.12.

Jürgen Auer · 02.01.2008

www.gegen-hartz.de/robots.txt liefert einen 404, die andere einen 200 - sieht auch soweit ok aus.

Eigentlich müßten beide Versionen ok sei.

sevenid · 02.01.2008

@jAuer: Genau. Bei gegen-hartz.de hatte ich ja die robots.txt jetzt raus genommen, um zu sehen, ob google dann ganz normal indexiert. es ist wirklich ungewöhnlich, dass beide webseiten seit dem 27.12. nicht mehr gespidert werden, obwohl es vorher auch keine probleme gab und nichts geändert worden ist.

Im Google forum hatte ein google mitarbeiter gepostet, dass dies öfter auftreten würde, es aber an dem hoster liegen muss. wende mich nun an den hoster...und dann auch gleich benannt, dass google die webseite ganz ausschließen wird, falls das problem weiterhin besteht. "super" sache sowas...

Jürgen Auer · 02.01.2008

QUOTE (sevenid @ Mi 2.01.2008, 15:59)Im Google forum hatte ein google mitarbeiter gepostet, dass dies öfter auftreten würde, es aber an dem hoster liegen muss.

Es gab auch schon das Gerücht, daß manche Hoster google-Spider zentral abblocken, um Traffic auf Webangeboten zu reduzieren.

So nach dem impliziten Motto: Ich biete vielen Domains Platz - aber Traffic ist limitiert, also wird google geblockt.

Da bekam google ein Timeout oder einen Fehlerstatus, während die Website oben war.

sevenid · 02.01.2008

QUOTE Es gab auch schon das Gerücht, daß manche Hoster google-Spider zentral abblocken, um Traffic auf Webangeboten zu reduzieren.

das wäre gelinde gesagt, ne riesen Sauerei! mein hoster hat sich bisher nicht gemeldet... das problem gab es allerdings vorher nicht..

Marcs · 02.01.2008

Glaube nicht, dass ein Anbieter das blockiert.. wäre sicher nicht gut für sein Image und legal wohl auch nicht wirklich...
Was für einen chmod hat deine robots.txt?
Was hast du bei User Agent drin?

Und sonst... melde dich bei Webmastertools von Google an, kannst damit die Robots prüfen.

Gruss Marc

marcX · 02.01.2008

QUOTE (sevenid @ Mi 2.01.2008, 20:15)
QUOTE Es gab auch schon das Gerücht, daß manche Hoster google-Spider zentral abblocken, um Traffic auf Webangeboten zu reduzieren.

das wäre gelinde gesagt, ne riesen Sauerei! mein hoster hat sich bisher nicht gemeldet... das problem gab es allerdings vorher nicht..

Nun ja, es müsste sich ja herausfinden lassen, ob der bot vom hoster geblockt wird.

Eigenartig ist das jedenfalls schon. Wie Marc Schuler tippe ich allerdings auch eher auf ein chmod problem (am Inhalt der robots.txt hast ja nichts verändert?).

Jürgen Auer · 02.01.2008

QUOTE (Marc Schuler @ Mi 2.01.2008, 19:25)melde dich bei Webmastertools von Google an, kannst damit die Robots prüfen.

Das ist er doch schon - steht im Eröffnungsbeitrag.

Und bei einem 404 bzw. 200 gibt es kein Berechtigungsproblem mehr.

Marcs · 02.01.2008

Habe ich überlesen, in dem Fall, kann nur dein Hoster helfen, sofern du nicht mit einer .htaccess deine Robots selbst blockierst

.

Gruss Marc

sevenid · 06.01.2008

Problem gelöst: Es lag am Hoster. Der Google Boot wurde automatisiert ausgeschlossen, da zu viel Traffic produziert worden ist. Ärgerlich: Der hoster reagierte lange Zeit nicht auf meine Email-Anfragen. Aber nun scheint alles wieder in Ordnung zu sein.

Das Problem scheint gar nicht so selten zu sein. Im Google Forum wurde dies von einigen berichtet. Richtig ärgerlich kann es werden, wenn dieses Problem längerfristig auftaucht, denn dann kann es sein, dass Google die "nicht erreichbaren" Webseiten aus dem Index verbannt, obwohl diese noch vorhanden sind. Alles schon passiert.

marcX · 06.01.2008

QUOTE (sevenid @ So 6.01.2008, 15:54) Problem gelöst: Es lag am Hoster. Der Google Boot wurde automatisiert ausgeschlossen, da zu viel Traffic produziert worden ist. Ärgerlich: Der hoster reagierte lange Zeit nicht auf meine Email-Anfragen. Aber nun scheint alles wieder in Ordnung zu sein.

Sorry, aber was ist das für ein Hoster?

Dem würd ich nen Arschtritt geben, so schnell könnte der nicht gucken, wie ich den gewechselt hätte ......

Jürgen Auer · 06.01.2008

QUOTE (sevenid @ So 6.01.2008, 14:54)Problem gelöst: Es lag am Hoster. Der Google Boot wurde automatisiert ausgeschlossen, da zu viel Traffic produziert worden ist.

Also tatsächlich wie oben spekuliert.

Hat der Hoster (den man ja leicht rausfinden kann) dir das bestätigt?

In den dortigen AGB habe ich übrigens keinen entsprechenden Passus gefunden.

Ansonsten: Hoster wechseln.

sevenid · 10.01.2008

der hoster rief mich an. sie können es sich nicht vorstellen, dass es an (kontent) liegen würde. Auf meine Nachfrage, ob ich denn der einzige betroffene gewesen wäre, meinten die, dass es noch 4 weitere Kunden gegeben hätte, die das selbige Problem hatten. Ah ja... Ich wechsel vorerst nicht (zu stressig bei derart vielen Domains). Bisher war ich ganz zu frieden. bei nächsten Mal werde ich jedoch konsequenter agieren.

Danke für eure Hinweise!!

Jürgen Auer · 10.01.2008

QUOTE (sevenid @ Do 10.01.2008, 09:55)der hoster rief mich an. sie können es sich nicht vorstellen, dass es an (kontent) liegen würde.

Die Frage ist noch, ob der Hoster selbst das Rechenzentrum betreibt, also auch für die gesamte Infrastruktur bis zur Anbindung an die 'großen Netze' verantwortlich ist oder nicht.

Es gibt ja genügend Hoster, die ihre eigenen Server in einem Rechenzentrum eines anderen Betreibers unterstellen. Prinzipiell kann dieser natürlich an den vorgeschalteten Coreroutern google-Anfragen ausfiltern - nicht fein, aber technisch denkbar.

robots.txt wird von Google nicht gefunden

sevenid

Angesehenes Mitglied

Duvi

Angesehenes Mitglied

sevenid

Angesehenes Mitglied

Jürgen Auer

Legendäres Mitglied

sevenid

Angesehenes Mitglied

Jürgen Auer

Legendäres Mitglied

sevenid

Angesehenes Mitglied

Jürgen Auer

Legendäres Mitglied

sevenid

Angesehenes Mitglied

Marcs

Legendäres Mitglied

marcX

Angesehenes Mitglied

Jürgen Auer

Legendäres Mitglied

Marcs

Legendäres Mitglied

sevenid

Angesehenes Mitglied

marcX

Angesehenes Mitglied

Jürgen Auer

Legendäres Mitglied

sevenid

Angesehenes Mitglied

Jürgen Auer

Legendäres Mitglied

Wir schützen Ihre Privatsphäre