Google soll nun 60 Milliarden Dokumente indexieren

Sandro Feuillet

Legendäres Mitglied
Die Suchmaschine Google hat ja heute geprotzt, ihr Index sei dreimal "länger" als der "aller anderen Suchmaschinen". Stutzig habe ich danach auf meinen seo-scanner geschaut und festgestellt, dass Google seit anfangs September so ziemlich alles was eine eindeutige URI hat, egal ob Parameter oder clean-URI's in den Index schaufelt:

http://feuman.net/wmf/google-index-growth.jpg

Ist jemandem Ähnliches aufgefallen? Was haltet Ihr von derlei künstlichen Indexaufblähungen? Muss Google das machen? Hilft es dem Nutzer?

Gruss Sandro
 
Googles Index ist vollgemüllt mit vielen toten URLS, die es seit Jahre nicht mehr gibt, und vielen PP-Ref-Links. Mittlerweile finde ich sogar MSN noch besser als Yahoo, weil in MSN nicht jede dahergelaufene Unterseite reinkommt.
 
Mit meiner bescheidenen Erfahrung als Suchmaschinenbauer kann ich sagen: Der Anspruch an die Ranking-Engine steigt mit der Anzahl der Links in der Datenbank. Wenn also eine Suchmaschine sprunghaft seinen Index vergrößert, müßte eigentlich die Qualität der Ergebnisse sinken, nicht steigen. Natürlich steigt die Vielfalt, aber bei Suchanfragen die zu sehr großen Ergebnismengen führen muss intelligenter sortiert werden, und der Rechenaufwand steigt.
 
Wir müssen hier differenzieren. Sicherlich spidert und erweitert Goolge fortlaufend.

QUOTE Stutzig habe ich danach auf meinen seo-scanner geschaut und festgestellt, dass Google seit anfangs September so ziemlich alles was eine eindeutige URI hat, egal ob Parameter oder clean-URI's in den Index schaufelt:

Trotzdem hat das aber nichts mit grandioser Nacht-und-Nebel-Indexerweiterung zu tun. Am Beispiel von Ayom fällt auf, dass wir ~80k Seiten indexiert haben.

Es ist also dergleiche Beschiss wie bei Yahoo.

Was oben rechts bei Suchen angezeigt wird ist nur eine grobe Schätzung der vorhandenen Seiten.

Es ist doch alles eine Frage der Auffassung (bzw. der Statistik). Zurück zum Beispiel ayom.com. Zufälligerweise weiss ich genau wieviele Seiten vorhanden sind und wieviele in den regulären SERPs erscheinen. Es sind weniger als 80 Tausend. Wie also kommt das zustande? Es wird einfach alles gezählt. Fertig.
Einige Beispiele. Wir waren ja mit >20k Seiten wf.ch in Google, die werden dazugezählt. Nicht mehr angezeigt (ausser API), aber dazugezählt. Seiten mit fehlerhaften Parametern, Seiten mit noindex, Seiten die aufgrund dynamischer Webseiten Dubletten sind, alles wird gezählt. Der Effekt auf den (Otto-Normal-)Benutzer ist auch besser, wenn er hört 550PS anstelle von 90...

Man möge mich nicht falsch verstehen, ich mag Zahlenspielereien... Für die blogsearch scheint ein neuer Index angelegt worden zu sein (die schon im normal Index sind, -> nochmal doppelt zählen ;-), und das beste Beispiel ist immernoch der Kern selber. Google ist durch die Linkanalyse gross geworden. Also ich spidere Seite A mit 100 Links und schon hab ich 101 Dokumente im Index...

Alles eine Frage des Blickwinkels.


QUOTE Mit meiner bescheidenen Erfahrung als Suchmaschinenbauer kann ich sagen: Der Anspruch an die Ranking-Engine steigt mit der Anzahl der Links in der Datenbank.

Das liegt in der Natur der Sache, ja ;-) (Blockrank soll helfen), aber um es auf den Punkt zu bringen, ich traue dieser Zahl genau so wenig wie der von Yahoo.

Und es mit dazu absolut egal, wieviele Seiten indexiert sind, solange das was ich sehen will unter den ersten 10 ist ;-)

Eigentlich sollte mal jeder mit dem &filter=0 herumspielen... ;-) Das ist ein an und abstellen von gewissen Filtern und nicht schlagartige Massenindizierung... Vgl. http://www.google.com/search?q=site%3Aayom.com&filter=1 mit http://www.google.com/search?q=site%3Aayom.com&filter=0. Irgendwann im August wars aber shcon.
 
Zurück
Oben