Googlebot-Anomalie in Webserver-Logfile

Clavigo · 06.12.2019

Hallo zusammen, ich bin neu hier und bitte euch um Unterstützung zu einer speziellen Frage, zu der ich im Netz bisher keine Antwort gefunden habe.

Auf einer Website, auf der vermutlich alle Seiten nach einem Relaunch für einen gewissen Zeitraum irrtümlich auf NOINDEX,NOFOLLOW gesetzt waren, ist mir unter den Logfiles eines aufgefallen, das besonders hervorsticht. Meist hat Googlebot die Seiten nur ein paar Mal am Tag besucht, doch am 26.05.2017 hat er plötzlich im 10 Sekunden Takt über 700 Mal die Startseite abgerufen:

crawl-66-249-65-120.googlebot.com - - [26/May/2017:19:41:15 +0200] "GET / HTTP/1.1" 200 308596 …
crawl-66-249-65-120.googlebot.com - - [26/May/2017:19:41:24 +0200] "GET / HTTP/1.1" 200 305197 …
crawl-66-249-65-120.googlebot.com - - [26/May/2017:19:41:34 +0200] "GET / HTTP/1.1" 200 305197 …
[…]

Das zog sich noch in den nächsten Tag bis ca 6 Uhr morgens und dann war wieder alles wie vorher. Am übernächsten Tag waren es dann nur noch 5 Besuche auf der Startseite.

Hat jemand von euch eine Ahnung, was es damit auf sich haben könnte? Könnte es sein, dass dieses Verhalten etwas mit einem (irrtümlichen) Umschalten von INDEX auf NOINDEX zu tun hat?

Vielen Dank für euren Input!

Matthes · 06.12.2019

Das ist zweieinhalb Jahre her, was versprichst du dir von einer Aufklärung...?

Das kommt gelegentlich vor, aber eine offizielle Aussage dazu kenne ich nicht. Mir ist aufgefallen, dass diese Besuche in der Regel mit der robots.txt oder vergleichbaren Direktiven wie eben auch NOINDEX-Angaben zusammenhängen.

Clavigo · 06.12.2019

Hallo Matthes, danke für den Hinweis auf deine Beobachtungen. Wie manchmal im Leben, dauerte es auch in diesem Fall etwas länger, bis jemand Aufklärung über die Mysterien der Vergangenheit verlangte und ich mich jetzt damit beschäftigen darf ? Ich versuche dieses Ereignis mit anderen in Verbindung zu bringen, um die Frage zu beantworten, ob und falls ja wann nach dem Relaunch, die Seiten auf NOINDEX gesetzt wurden. Mehr als die Logfiles habe ich nicht.

Sebastian E · 06.12.2019

Du könntest auch einmal schauen ob die betreffende Webseite auf www.archive.org erfasst und gespeichert worden ist. Da archive.org aber nicht regelmäßig spidert ist diese Möglichkeit in der Aussagekraft sehr begrenzt. Die einzige Aussage die Du möglicherweise erhalten könntest wäre gegeben wenn:

Die Seite nicht auf nofollow gestanden und der Spider dann auch tatsächlich vorbeigekommen und die Seite aufgenommen hätte. Dann könntest Du zumindest zu den angezeigten Aufnahmezeiten eine Aussage treffen. Auf den angezeigten Webseiten kannst Du Dir den Quellcode ebenfalls mit rechtem Mausklick anzeigen lassen.

Clavigo · 07.12.2019

Vielen Dank, Sebastian für den Tipp! Eine spannende Sache. Ich finde nämlich die Seite mehrmals kurz nach der fraglichen Zeit auf archive.org, aber wenn ich mir den Quelltext ansehe, dann lese ich <meta name="robots" content="NOINDEX,NOFOLLOW"/> auch zu Zeitpunkten, wo (angeblich) bereits auf INDEX,FOLLOW umgestellt war.

Sebastian E · 07.12.2019

Dass archive.org den noindex-Tag ignoriert war mir bisher nicht bekannt. Man lernt täglich dazu...?

Matthes · 07.12.2019

Sebastian E schrieb:
Dass archive.org den noindex-Tag ignoriert war mir bisher nicht bekannt. Man lernt täglich dazu...?

Soweit ich weiß, beachten die nur die robots.txt

Clavigo schrieb:
Ich versuche dieses Ereignis mit anderen in Verbindung zu bringen, um die Frage zu beantworten, ob und falls ja wann nach dem Relaunch, die Seiten auf NOINDEX gesetzt wurden.

Geht es bei dieser Ermittlung um möglicherweise geschäftschädigendes Verhalten...?

Aus den Logfiles und dem darin protokollierten Crawler-Verhalten alleine wirst du das nicht zuverlässig ableiten können, das sind zu wenig Daten. Evtl. helfen die Snapshots auf archive.org wirklich, aber wie zuverlässig die in der Realität sind, kann ich nicht einschätzen. Ich weiß aus eigener Erfahrung, dass Snapshots durchaus nicht zu dem Zeitpunkt passen können, dem sie dort zugeordnet werden, selbst schon erlebt nach einem Relaunch.

Clavigo · 07.12.2019

Danke für die Hinweise.

arnego2 · 07.12.2019

Wie schon angesprochen gibt es große Unterschiede zwischen 2017 wo in den Index gelangen schwerer war als heute. Zudem Google heute auch gern direktiven ignoriert und auch dann Seiten in den Index packt die im header einen noindex directive haben. Ob das dann einen Einfluss hat auf andere Seiten ist unbekannt.

Clavigo · 12.12.2019

Danke arnego. Hoffentlich hat Goolge 2017 noindex nicht ignoriert, denn sonst gäb's noch einiges Unerklärliches mehr ? Heute schreibt Google jedenfalls das dazu: https://support.google.com/webmasters/answer/93710?hl=de Angeblich pflegt Google immer noch einen respektvollen Umgang mit den Indexierungsdirektiven.

Googlebot-Anomalie in Webserver-Logfile

Clavigo

Mitglied

Matthes

Angesehenes Mitglied

Clavigo

Mitglied

Sebastian E

Angesehenes Mitglied

Clavigo

Mitglied

Sebastian E

Angesehenes Mitglied

Matthes

Angesehenes Mitglied

Clavigo

Mitglied

arnego2

Moderator

Clavigo

Mitglied

Wir schützen Ihre Privatsphäre