google: Filtern von wiederkehrenden Phrasen

Jürgen Auer

Legendäres Mitglied
Vor einigen Wochen hatte ich meinen Ayom-Footer geändert und den ersten Hauptsatz auf meiner Domainstartseite in den Footer übernommen (für die meisten Kunden baue ich inzwischen Datenbanken zusammen, weniger Selbstbauer, auf die sich der ältere Footer bezog).

Nun könnte man vermuten, daß damit Ayom unter dieser Phrase 'Konz* entrieren Sie sich a*uf I*hr Haup*tgeschäft' irgendwie auftauchen würde, weil diese Phrase nun diverse Male vorkommt.

Sucht man tatsächlich nach dieser Phrase in Anführungszeichen (12.700 Fundstellen), so taucht meine Startseite irgendwo zwischen 11 - 30 auf (da war sie davor auch schon, die Phrase kommt sonst nirgends auf der Domain vor) - und Ayom existiert nicht unter den ersten 1000 Ergebnissen. Sucht man zusätzlich nach 'Ayom', werden zwei Ergebnisse + 'Suche unter Einbeziehung der übersprungenen Ergebnisse wiederholen' angezeigt, beim Klick auf den Link natürlich hunderte. google kennt also diese Seiten.

Sprich: google scheint aufgrund der immer gleichen Umgebung zu erkennen, daß es sich bei diesem Text - bezogen auf Ayom - um so etwas wie einen Footer eines Mitglieds handelt, der nur vom Mitglied formuliert ist, so daß dessen Inhalt in bezug auf Ayom irrelevant ist, Ayom folglich nicht unter den ersten 1000 erscheint. Weil die Phrase wiederholt und immer gleichartig auftaucht, ist sie nicht wichtig - obwohl die Worte damit häufig vorkommen.

Und solange die Phrase nicht im eigentlichen Content eines Beitrages vorkommt (deshalb oben *), müßte das auch so bleiben.

Sucht man dagegen nach dem neulich hier erwähnten sd-telephone, so taucht Ayom bei 135.000 Ergebnissen etwa auf Platz 50 auf. Und diese Phrase kommt natürlich nur in diesem Beitrag, also sehr viel seltener als der eigene Footer vor.

Sprich: Reine, wiederholte Masse wird - gerade deshalb - ausgefiltert. Einzelne, sehr seltene Phrasen können dagegen sehr hoch bewertet sein, wenn die Domain global stark ist.

Soeben suche ich noch bei Yahoo: Da ist (Suche nach der Phrase) weder meine Domain noch Ayom unter den ersten 150 zu finden (danach nicht mehr weitergesucht). Sucht man zusätzlich nach 'Sql', dann ist Ayom top, meine Domain auf Platz 10 - und das bei 109 Ergebnissen. Sprich: Das Wort 'Kern*geschäft' kommt auf meiner Domain nur auf der Startseite vor - das ist für Yahoo offenbar viel zu wenig. Und bei der Kombination gilt für Yahoo die reine Masse - man könnte auch sagen: Yahoo ist empfänglicher für Footer-Beeinflussungen.

Bei MSN ist das Bild ähnlich - nichts zu finden nur mit der Phrase, mit 'Sql' ist die Startseite auf 10 und auf 14, dazwischen ein Heise-Eintrag von mir, Ayom auf 16/17.

Für das sd-telephone ist das Ergebnis bei allen drei Sumas oben praktisch identisch - erst der kürzlich erzeugte Eintrag im Heise-Softwareverzeichnis, darunter die eigene Domain. Ayom ist bei den anderen beiden nicht unter den ersten 100.
 
Ich hatte es an anderer Stelle schon mal gesagt - wäre gut, wenn Alain oder Remo einmal etwas dazu sagen würde. Ich kann das eigentlich nicht glauben. Alain sagt sogar irgendwann einmal etwas Gegensätzliches, soweit ich mich erinnern kann.
 
???

Ich hatte vor einigen Wochen meine Signatur geändert, die Phrase der alten Signatur hatte ich noch nicht einmal überprüft.

Und als ich in der letzten Woche das mal mehr aus Neugierde überprüfte, verblüffte es mich, daß google so präzise diese Phrase in bezug auf Ayom (nicht in bezug auf meine Domain) ausfiltert (bei 12.000 Fundstellen nicht unter den ersten 1000 - im Gegensatz zu sd-telephone, Platz 50 bei 135.000 Fundstellen). Meine Domain ist ja unter dieser Phrase nicht schlechter geworden, auch nicht von Ayom verdrängt worden.

Folglich:

QUOTE Was genau schliesst Du konkret daraus bzw. was sollte man ändern


Oben habe ich Beobachtungen geschildert, die jeder per google nachvollziehen kann. Und warum etwas ändern?

Weil das nach einer Woche weiterhin so war, habe ich diese Beobachtungen aufgeschrieben, da ich sie spannend finde. Und während dem Schreiben bin ich auf die Idee gekommen, in den anderen Sumas nachzugucken - die gehen ja ganz anders damit um.

Sprich: Ich halte es für eine ziemlich heftige algorithmische Leistung, solche wiederkehrenden, von Nutzern definierten Footer aus den Beiträgen herauszufischen und die Domain, auf der diese Beiträge sind (Ayom) nicht zu diesen Footerphrasen plötzlich hochzuranken. Yahoo / MSN schaffen das offenbar nicht.
 
QUOTE Was denkst Du warum ich keine Signatur mehr habe?


Mit den Linktexten: Web-....DB und online-....DB ist die Seite von jAuer an erster bzw. dritter Position bei google.

Die nicht verlinkten Texte sind winzig, fast bedeutungslos.
 
Hallo

1. @ jAuer - danke dass du sowas preisgibst!
2. Zu den Linktexten - g++gle macht's nun anders, mehr dazu hier
Für ayom kann das aber nicht schlecht sein - die Site ist zuuu stark.
3. Zu der Beschreibung - ich sehe eigentlich kein Problem hier. Sowie auch kein Grund warum ayom mit dem Text aus deiner Signatur überhaupt oben sein könnte. Es geht doch nicht nur um Datenbanke hier. Oder stimmt was mit meinen Überlegungen nicht?
4. QUOTE Ich hatte vor einigen Wochen meine Signatur geändert, die Phrase der alten Signatur hatte ich noch nicht einmal überprüft.
Das wäre aber interessant, vielleicht weiß du später einmal wie die war..
 
Gute Beobachtungen.

http://www.google.com/search?hl=de&client=...arch&lr=lang_de

Das legt recht nahe wie es gelöst ist. Es ist m.E. keine grandiose algorithmische Leistung. Zerlege in Teile und checksummiere.

QUOTE 2. Zu den Linktexten - g++gle macht's nun anders, mehr dazu hier

Bin so frei pauschal zu widersprechen. Die Aussage könnte man zwar begründen... aber insb. Deine Darlegung in der gängigen Nomenklatur ist nicht nur verwirrend.

Anyway, schauen wir nochmal Jürgens Query an. Oben hab ich alle Füllwörter gestrichen. Jetzt wollen wir wissen wie viel aus der Mitte wir loswerden können.

Es reicht gerade noch
http://www.google.com/search?hl=de&client=...uche&lr=lang_de

Abgeschnitten:
http://www.google.com/search?hl=de&client=...uche&lr=lang_de

Extrem:
http://www.google.com/search?hl=de&client=...uche&lr=lang_de
 
Ich meinte dass die Linktexte seit kurzer Zeit mehr der Seite "nützen" auf der sie platziert sind, als der auf die sie verweisen. Früher war das nicht so, wenn Ihr versteht was ich meine. Beweise kann ich hier leider nicht posten, ihr könnt aber bestimmt selbst sehr gut analysieren
wink.gif
 
QUOTE (VoinG @ Sa 21.07.2007, 13:15)3. Zu der Beschreibung - ich sehe eigentlich kein Problem hier. Sowie auch kein Grund warum ayom mit dem Text aus deiner Signatur überhaupt oben sein könnte. Es geht doch nicht nur um Datenbanke hier. Oder stimmt was mit meinen Überlegungen nicht?


Die Überlegung stimmt schon - nur ist es offenkundig nicht so einfach, wie die Beispiele der beiden anderen Sumas lehrt.


QUOTE (Alain Aubert @ Sa 21.07.2007, 15:13)http://www.google.com/search?hl=de&client=...arch&lr=lang_de

Das legt recht nahe wie es gelöst ist. Es ist m.E. keine grandiose Algorithmische Leistung. Zerlege in Teile und checksummiere.

Wenn man die ganze Phrase nimmt (Konzen*trieren ... Daten*bank ... Stand*orten), dann kommt diese Kombination nur auf etwa 15 Domains vor, da verhält sich auch google klassisch: Viel hilft viel, meine Domain fehlt, wird von Ayom geschluckt. Beim 'Wiederholen der Suche unter Einbeziehung der übersprungenen Ergebnisse' gibt es praktisch nur Ayom

100 Ergebnisse

da ist sogar meine Domain auf Platz 99, die anderen 15 Domains kommen ganz hinten.

Deshalb hatte ich oben nur den ersten Teil der Phrase verwendet. Wenn mir vor einem Jahr jemand gesagt hätte, daß Ayom bei einer sechs Worte umfassenden Phrase, die hundertfach vorkommt und für die es bloß 12.000 Ergebnisse gibt, nicht vorne mitspielt, dann hätte ich ungläubig geguckt und den Kopf geschüttelt.

Wenn man sich die Fundstellen ansieht: Viele PDF-Dokumente, tiefe Unterseiten. Es gab ja manchmal schon den Vorwurf gegen google, daß starke Domains zu bald jedem Begriff oben seien, der nur irgendwo auf der Seite auftaucht. Das scheint sich im (vielleicht) letzten Jahr schrittweise geändert zu haben, ohne daß deshalb eine starke Domain bei einem seltenen Einzelbegriff (wie sd-telephone) verschwindet.
 
QUOTE Die Überlegung stimmt schon - nur ist es offenkundig nicht so einfach, wie die Beispiele der beiden anderen Sumas lehrt.

Du hast Recht, ich geb zu, ich hab mich zu oberflächlich eingelesen... Und wenn das auch
QUOTE keine grandiose Algorithmische Leistung
ist, stellt das in Verbindung damit was ich erwähnt habe (Links) die Hälfte der Optimierungsmaßnahmen für mich auf den Kopf... Ich warte erst ab und schaue mal was so mit den anderen passiert, hab keine Ahnung was nun richtig ist und was nicht besonders richtig
wink.gif
 
Eh, nicht daß wir uns da mißverstehen:

Ich halte das für eine ziemlich heftige algorithmische Leistung.

Und selbst wenn die eigentliche Formel (als mathematische Idee) nur simpel sein mag (wobei ich eher tippe, daß das sehr viel komplexer ist als der obige Ansatz), ist die Berechnung von solchen Dingen auf so einem Datenvolumen noch einmal ein ganz eigenständiges Problem.

Und es gibt ja nicht bloß einen oder ein paar Footer, sondern die gibt es ja reihenweise - und natürlich auch in anderen Foren.
 
Ist aber die logische Konsequenz auf die Flut von Forenspam, immerhin ein Milliardenunternehmen mit fähigen Experten. Google ist eine Suchmaschine, besser gesagt: die Suchmaschine. Ich denke google möchte es auch bleiben. Solche Dinge sollten in der Zeit von Iss und Harald Lesch selbstverständlich sein.
 
Zurück
Oben