Für wie aktuell haltet ihr diesen Artikel?

Über die größe des Deep-Web wird nun schon seit Jahren gestritten. Wer den nun recht hat, ist mir relativ egal. Eine Frage, die mich mehr beschäftigt ist, sind die Daten des Deep Web wirklich so interessant für Informationssuchende?

Daten, die nur über ein Webformular zugänglich sind, zum Beispiel Bibliothekskataloge, eignen sich nicht für Suchmaschinen. Welche Mengen an Spam würden wir in den Ergebnisseiten haben, wenn solche Informationen auch indexiert würden? Lieber ein Link zum Formular und ich kümmere mich selbst um die Auswertung.

Generell sollten die meisten Suchmaschinenbetreiber daran arbeiten ihre Auswertungsalgorithmen zu verbessern, statt sich mit noch mehr Daten zu belasten.
 
Ich halte den Artikel für ziemlich schwach.

1. google spidert schon seit längerer Zeit auch größere Dokumente. Die Suche nach

"HALFWIDTH HANGUL LETTER I" "Letter Other"

listet die Seite zur Kategorie Letter, Other aus meiner Unicode-Datenbank - und die Seite ist 672 KB groß, 'Halfwidth Hangul Letter I' steht ganz am Ende. Man kann auch noch meinen Nachnamen dazunehmen und dann in den Cache gucken. Ich meine, daß das mindestens schon zwei Jahre so ist.

2. Die Aussage, daß es 'technische Barrieren' in Form von Suchmasken gäbe, ist falsch. Es gibt genügend Spammer, die Suchen ihrer Nutzer mitschneiden und diese geeignet verlinken - dann indiziert die google auch.

3. Die 'zeitliche Barriere' ist ein merkwürdiges Argument: Wenn die Informationen nur so kurzlebig sind, daß sie nach zwei Tagen (bis sie gelistet sind) schon wieder veraltet sind, dann braucht man sie eigentlich gar nicht spidern.

4. Spezialsuchmaschinen mögen ja toll sein. Aber erstens stehen sie vor genau denselben Problemen, zweitens muß ich dann wieder jedes einzelne Portal aufsuchen und dort manuell suchen. Genau diese Arbeit sollen ja Suchmaschinen, die domainübergreifend arbeiten, abnehmen.

Oh, grade kann ich es mir nicht verkneifen, nach

"sql-und-xml.de" filetype:pdf

zu googeln, also nach meiner Hauptdomain plus dem PDF-Dateityp.

Ergebnis: Ein Dokument aus Potsdam mit knapp 500 KB, etwas aus Dresden mit 730 KB, wohl eine Magisterarbeit aus Köln mit 865 KB, etwas von der Uni Graz mit 1.78 MB - und irgendetwas aus Heidelberg mit schlappen 5.98 MB. Cool - da ist sogar ein Screenshot von meiner Xml-Unicode-Seite drin - wußte ich bis jetzt gar nicht.

Wenn man also unter 'Suchen' google versteht, dann ist der Artikel schwach.

PS: Kleine Ergänzung zum Verständnis des letzten Beispiels: Der Artikel schreibt, daß doch wichtige wissenschaftliche Dokumente als PDF abgelegt seien - mit Linklisten ganz hinten, also jenseits der 100-KB-Grenze. Dann hätte ich ja diese Beispiele gar nicht über google gefunden.
 
QUOTE Die Indexierungsprogramme der Suchmaschinen folgen nur den Links auf Internetseiten. Sie können keine Internet-Adressen selber eingeben oder Stichwörter in einer Suchmaske eintragen. Deshalb bleibt dieser Bereich für sie unsichtbar.

Das ist heute nicht mehr so. Googles Spider gibt sehr wohl Stichworte in Suchmasken ein.

Der Artikel ist einfach nicht mehr aktuell - da hat sich in den letzten Jahren doch sehr viel getan.
 
Hallo, dazu habe ich im März 2007 einen Artikel geschrieben. Da die Anzahl der Webseiten exponentiell zunimmt und Google aber nicht parallel seine Bots ausbaut, sowie die Tatsache, dass viele gecachten Seiten nicht mehr aktuell im Index vorliegen, glaube ich schon das an der Tendenz nach wie vor was dran ist. Es gibt zwei Betrachtungen. 1. Was ist für mich als SEO wichtig und 2. was ist für mich als Mensch wichtig. Bei 1. spielt die Betrachtung fast keine Rolle, aber bei 2. schon. Finde ich.

Da Suchmaschinen zu einem Wirtschaftsfaktor geworden sind, sollte auch eine möglichst hohe Informationstransparenz vorliegen. Das ist zur Zeit nicht so. Das wiederum birgt grosse Gefahren für uns alle.

lg
pepe
 
QUOTE (koki @ Fr 11.01.2008, 08:42)
QUOTE Die Indexierungsprogramme der Suchmaschinen folgen nur den Links auf Internetseiten. Sie können keine Internet-Adressen selber eingeben oder Stichwörter in einer Suchmaske eintragen. Deshalb bleibt dieser Bereich für sie unsichtbar.



Der Artikel ist einfach nicht mehr aktuell - da hat sich in den letzten Jahren doch sehr viel getan.


QUOTE Das ist heute nicht mehr so. Googles Spider gibt sehr wohl Stichworte in Suchmasken ein.


Gibts dafür eine Quelle
huh.gif
? Welche Stichworte werden in wessen Suchmaske eingegeben? ALLE
ohmy.gif
? In JEDES Suchfeld ? WIE OFT?

Ich glaube, das würde doch den einen oder anderen Suchfeldbetreiber etwas annerven
mad.gif
, oder?

Wie gesagt, wenns stimmt, auch wenns nur ein bisschen stimmt, wäre eine Quellenangabe für diese Info ganz wichtig.

Vielen dank
smile.gif
 
QUOTE Googles Spider gibt sehr wohl Stichworte in Suchmasken ein.


Keine Ahnung, aber Skripte bei denen die Anfrage URL-encodiert ist - mit eingebettetem Adsense - kommen problemlos in die Google-Suche...
 
QUOTE (Peter Schneider @ Mo 14.01.2008, 14:42)
QUOTE Googles Spider gibt sehr wohl Stichworte in Suchmasken ein.


Keine Ahnung, aber Skripte bei denen die Anfrage URL-encodiert ist - mit eingebettetem Adsense - kommen problemlos in die Google-Suche...

Nee, das ist was anderes, da muss erstmal irgendwo eine URL mit Parametern drin da sein, dann folgt der Spider diesem Link (aber nicht immer, Kriterien sind undurchsichtig), und das (genau diesen einen "Treffer") gibts dann auch in der Trefferliste.

Das heißt immer noch: Treffer aus dem deep web gibts nur dort, wo auch ein Link hinführt.

Ein Verlinken auf Datenbankinhalte ist oftmals aber nicht möglich, da die Suchfeld-Skripte nur POST- Anfragen akzeptieren.

Und google gibt - hoffentlich? - nach wie vor nichts in Suchfelder ein.
 
Ich habe in meinen Suchformularen eine zeitlang protokolliert was der Nutzer in das Suchfeld eingibt um die Suche zu optimieren. Zuerst ist mir aufgefallen, dass Einträge von Google im Logfile erscheinen.

Nachdem ich das etwas genauer beobachtet hatte stellte sich folgendes heraus:
- Google folgte mir wie ein Schatten bei jeder Aktion.
- Alle von mir vorgenommenen Eintragungen in die Suchmaske hat der Google- Spider ebenfalls in das Suchformular eingegeben - egal was es für ein Quatsch war.

Der Google-Bot kommt täglich immer noch ein paar mal vorbei und sucht nach den Keywords. Es scheint jedoch so zu sein, dass er nur meine Sucheingaben protokolliert hat. Vielleicht weil ich der Betreiber der Seite bin - keine Ahnung.

Und übrigens: zu der damaligen Zeit gab es auf der Seite noch keine Adsense-Werbung und es war auch nicht der Adsense-Bot sondern der übliche Googlebot.
 
QUOTE (koki @ Mo 14.01.2008, 15:29) Nachdem ich das etwas genauer beobachtet hatte stellte sich folgendes heraus:
- Google folgte mir wie ein Schatten bei jeder Aktion.
- Alle von mir vorgenommenen Eintragungen in die Suchmaske hat der Google- Spider ebenfalls in das Suchformular eingegeben - egal was es für ein Quatsch war.


Wie folgte er wie ein Schatten?
Soll das heissen, das die GoogleToolbar die Eingaben protokolliert oder wie?
 
QUOTE Nee, das ist was anderes, da muss erstmal irgendwo eine URL mit Parametern drin da sein, dann folgt der Spider diesem Link (aber nicht immer, Kriterien sind undurchsichtig), und das (genau diesen einen "Treffer") gibts dann auch in der Trefferliste.

Das heißt immer noch: Treffer aus dem deep web gibts nur dort, wo auch ein Link hinführt.


Sage ich: eine URL mit Parametern:
suche.cgi?q="keyword" zusammen mit Adsense auf der Seite reicht.
Da muss kein LINK rein führen.

Aber mir egal, was Du meinst, währenddessen habe ich 10 000 solcher Seiten im Index und mach Geld damit...
Ist mir doch schnuppe, was DU meinst, solange ich den Feldversuch seit einigen Monaten mit meiner eigenen Seite durchziehe.
 
Zurück
Oben