Indexiert, obwohl durch robots.txt blockiert

Kathrin_9 · 07.08.2019

Bei mir scheinen in der Search Console 178 Seiten auf, die von der Google Search Console indexiert wurden, obwohl sie durch die robots.txt Datei blockiert wurden. Es sind in erster Linie Suchseiten, insbesondere meine Labels. Ich habe diese Seiten in den Blogger-Einstellungen bereits auf noindex, noarchiev und unavailable_after gesetzt und die Fehlerbehebung aktiviert. Aber diese scheitert jedes Mal mit der Begrüdung, dass auf irgendeinen Server nicht zugegriffen werden kann. Ich habe nun auch versucht diese Seiten manuell zu entfernen, aber auch das scheint nichts zu bringen. Wie kann man dieses Problem lösen?

LG Kathrin

Matthes · 07.08.2019

Kathrin_9 schrieb:
Aber diese scheitert jedes Mal mit der Begrüdung, dass auf irgendeinen Server nicht zugegriffen werden kann.

Bitte mehr Details, einen Screenshot oder eine Kopie bestenfalls.

Nutzt du die Webmastertools von Google? Da könntest du es gut testen.

Nur von deiner Aussage her kann man das relativ schwer nachprüfen gerade. Sind es definitiv URLs, die dem Schema in der robots.txt entsprechen?

Auf den Label-Seiten selbst gibt es keinerlei noindex-Tags.

arnego2 · 08.08.2019

Kathrin_9 schrieb:
Bei mir scheinen in der Search Console 178 Seiten auf, die von der Google Search Console indexiert wurden, obwohl sie durch die robots.txt Datei blockiert wurden.

Überprüfe mal die SERP ob sie indexiert wurden, der Weg zur Überprüfung ist: site:meine-domain.xxx

Der Robot Text wird vom Google Bot gern ignoriert. denn es gibt einen Metatag der mit <meta name="robots" content="noindex nofollow"> die in jeder der Vorhandenen und zu blockierenden Seiten im <head> tag stehen muss. Siehe: hermesthemes.com/meta-robots-noindex-nofollow/

Wenn die URLs im Index sind musst du mit remove url aus der Alten GSC (Google Search Console) arbeiten wenn es sich um Suchergebnisse handelt kannst du es dir einfach machen und willst die ablagen URL nehmen die mit blogspot.com/?wr= oder eben da wo der gemeinsame Nenner aufhört. Du musst nur aufpassen das du nichts erwischt das im Index bleiben soll.

Kris_SeoGuideline · 08.08.2019

Ich weiss nicht ob dies deinem Problem hilft: Google unterstützt Anweisungen noindex, nofollow & crawl delay innerhalb der robots.txt nicht mehr. Das soll zwar erst ab september greifen, womöglich gilt es jetzt schon vereinzelt.

arnego2 schrieb:
Der Robot Text wird vom Google Bot gern ignoriert. denn es gibt einen Metatag der mit <meta name="robots" content="noindex nofollow"> die in jeder der Vorhandenen und zu blockierenden Seiten im <head> tag stehen muss. Siehe: hermesthemes.com/meta-robots-noindex-nofollow/

Das wäre in deinem Fall die richtige Vorgehensweise.

Matthes · 08.08.2019

arnego2 schrieb:
Der Robot Text wird vom Google Bot gern ignoriert.

Woher nimmst du diese Behauptung?

Google selbst sagt, dass jeder seriöse Crawler die robots.txt befolgt.

Die Erfahrung habe ich auch ausnahmslos gemacht. Wenn es Probleme gab, dann meist wegen fehlerhafter robots.txt.

Kris_SeoGuideline schrieb:
Ich weiss nicht ob dies deinem Problem hilft: Google unterstützt Anweisungen noindex, nofollow & crawl delay innerhalb der robots.txt nicht mehr. Das soll zwar erst ab september greifen, womöglich gilt es jetzt schon vereinzelt.

Hat mit ihrem Problem nichts zu tun.

Ich kann mir eher vorstellen, dass der dritte Punkt der "Einschränkungen von robots.txt" greift:

https://support.google.com/webmasters/answer/6062608?hl=de

Wenn ich mir die Suchergebnisse zu den ausgeschlossenen Seiten so ansehe, scheint das zuzutreffen, es ist praktisch nur die URL und der Linktext (in dem Fall der Titel der Seite) in den Suchergebnissen. Kein Vorschausnippet, nur " Für diese Seite sind keine Informationen verfügbar."

D.h. Google bekommt die URL und den Titel aus den Links zu diesen gesperrten Seiten und indexiert diese Info. Die Zielseite selbst jedoch nicht.

Alles funktioniert, wie es das soll, genaugenommen. ?

arnego2 · 08.08.2019

Matthes schrieb:
Woher nimmst du diese Behauptung?

Google selbst

You should not use robots.txt as a means to hide your web pages from Google Search results.

https://support.google.com/webmasters/answer/6062608?hl=en

Matthes · 08.08.2019

Das bezieht sich auf das, was ich oben gesagt habe.

Google indexiert die Seite selbst nicht, aber sich auf die robots.txt zu verlassen, um zu verhindern, dass eine Seite in den Suchergebnissen auftaucht, reicht eben nicht, weil Google Links auch indexiert, ohne die Seite selbst zu crawlen.

Das bedeutet, der Bot befolgt die robots.txt und besucht die Seite nicht, aber sobald ein Link auf sie zeigt, kann sie mit URL und Ankertext trotzdem in den Suchergebnissen gelistet werden.

Kathrin_9 · 14.08.2019

Ich habe es erst heute wieder ins Forum geschafft. Vielen Dank für die Infos. Ich habe versucht, jene Seiten, die Google indexiert hat, obwohl durch robots.txt verboten, manuell über die alte Search Console zu löschen. Das geht aber auch nicht wirklich, denn nun erscheint in der Search Console die Meldung: "Gesendete URL als "noindex" gekennzeichnet", zudem blieb die alte Warnung aufrecht und die Seiten sind noch immer im Index.

Wie sollte ich das mit dem Head machen? Es betrifft ja lediglich einzelne Seiten meines Blogs...

Ich habe die Seiten auch auf nosnippet gestellt, falls das hilft...

LG Kathrin

webverbesserer · 15.08.2019

Kenne dieses Problem auch. Wenn du die Seiten wirklich dringend aus dem Index haben willst, würde ich dir folgendes Vorgehen empfehlen:

"noindex, noarchive, unvailable_after" wieder entfernen. Dann in der .htaccess mit folgendem arbeiten: Redirect 410 /kategorie/post.html

Damit sollten die Seiten aus dem Index gelöscht werden.

Matthes · 15.08.2019

webverbesserer schrieb:
Dann in der .htaccess mit folgendem arbeiten: Redirect 410 /kategorie/post.html

Das ist korrekt, aber dann ist die Seite auch für ihre Besucher nicht mehr verfügbar.

webverbesserer · 15.08.2019

Matthes schrieb:
Das ist korrekt, aber dann ist die Seite auch für ihre Besucher nicht mehr verfügbar.

Achso, ich dachte genau darauf zielte die Frage ab.

In dem Falle würde ich dann (wobei hier Informationen zu den Inhalten der Seiten nützlich wären), wohl tatsächlich Google die Entscheidung über die Indexierung überlassen und die noindex etc. Einstellungen wieder entfernen. Eine andere Lösung ist mir da aktuell nicht bekannt.

Kathrin_9 · 15.08.2019

Hmm, ok. Das mit unavailable_after habe ich auch bei allen diesen Beiträgen gemacht. Das Problem ist, dass diese alten Beiträge zum Teil zu einem Problem für die neuen Beiträge werden, da ich vor fast 10 Jahren mir oft nicht viel bei den Überschriften überlegt habe. Ich möchte sie eigentlich nicht mehr im Index haben. Aber was ist nun mit der Warnung von Google, dass die gesendete URL mit noindex versehen ist? Hier bekomme ich nicht nur eine Warnung, sondern einen Fehler.

LG Kathrin

arnego2 · 15.08.2019

Kathrin_9 schrieb:
Warnung von Google, dass die gesendete URL mit noindex versehen ist? Hier bekomme ich nicht nur eine Warnung, sondern einen Fehler.

Nun versuch es mal mit oder besser ohne den Robots,txt und versuche dann über die GSC die Remove URL Funktion. Einen Tag später kannst du die Robots.txt wieder einsetzen. Solange noch eine Robots.txt drin ist die Google in diesem Augenblick behindert wird die GSC nichts tun.

Matthes schrieb:
Das bedeutet, der Bot befolgt die robots.txt und besucht die Seite nicht, aber sobald ein Link auf sie zeigt, kann sie mit URL und Ankertext trotzdem in den Suchergebnissen gelistet werden.

Wie hier beschrieben wird ist es die IMHO korrekte Schlussfolgerung/Übersetzung/Auslegung der Google Worte. ?

Kathrin_9 · 16.08.2019

Hmm, ok. Dann versuche ich es bei diesen 5 Artikeln mal so, dass ich die robots.txt entferne, sie via alte GSC entferne und dann die robots.txt wieder einsetze.

Vielen Dank!

LG Kathrin

Indexiert, obwohl durch robots.txt blockiert

Kathrin_9

Aktives Mitglied

Matthes

Angesehenes Mitglied

arnego2

Moderator

Kris_SeoGuideline

Mitglied

Matthes

Angesehenes Mitglied

arnego2

Moderator

Matthes

Angesehenes Mitglied

Kathrin_9

Aktives Mitglied

webverbesserer

Aktives Mitglied

Matthes

Angesehenes Mitglied

webverbesserer

Aktives Mitglied

Kathrin_9

Aktives Mitglied

arnego2

Moderator

Kathrin_9

Aktives Mitglied

Wir schützen Ihre Privatsphäre