Duplicate Content - Wirklich gefährlich?

Daniel newyouth · 06.03.2005

Hallo,

Ich hab' da mal 'ne Frage:
Ist doppelter Content wirklich so gefährlich?

Folgendes Problem, ich bin bei Google ziemlich gut gelistet, besser gesagt sehr gut. Nun möchte ich eine E-Learning Kategorie einbauen, mit fertigen Artikeln. Die Artikel werden auch von anderen Seiten verwendet.

Also, die Seite ist www.onlyfree.de.
Ich wollte dann halt nur noch eine Elearning Kategorie einführen,
das wären dann schon ca. 50 Seiten mit Artikel rund ums Internet die auch auf anderen Seiten vorhanden sind.

Gleiches wollte ich als Mehrwert für meine Besucher Teile euer Webmaster FAQ mit Hinweis auf euch einbauen.

Schadet das meinen guten Platzierungen?
Danke.

Euer
Daniel

Alain Aubert · 06.03.2005

Nein.

Deine Rankings für irgendwelche Keywords ist eines. Der DC Filter pro Suchbegriff würde daran nichts ändern. DC ist kein SPAM Filter sondern ein SERPs Filter. Wenn Du das PHP Manual auf deine Seite einbindest wird dieses sobald (und falls) erkannt bei Suchbegriffen wie "php manual" hinter php.net landen, weil sie als Mirror erkannt wird. Das hat mit deinen Rankings für irgendwelche Keywords nichts zu tun. Da seeehr viele hinter dem ayom.com Problem DC vermuteten lässt deutlich werden wie gross die Verwirrung ist.

Ich schulde Dir jetzt noch 1-2 Links, ich werde sie nachreichen.

Daniel newyouth · 06.03.2005

Ich habe allgemein ein gutes Ranking bei Google. Eine Seite mit einem Begriff einbauen und eine Woche später bin ich mir der Unterseite in den Top10 des Begriffes.

Diesen Ranking möchte ich nicht verlieren, deswegen bin ich so mißtrauisch. Einige Leute meinten schon, dass es sein könnte, dass durch den DC ich an Ranking verlieren werde. Diese stammten unter anderem von Abakus Internet Marketing.

Alain Aubert · 06.03.2005

Um obige Aussage noch zu präzisieren, DC ist kein Problem, wenn von Dir beschriebener Umstand gegeben ist. Anders sieht es aus, wenn Du einen Amazon Mirror* aufbaust, dessen logisches Ende es sein soll im DC Filter der Suchmaschine (als Kopie von Amazon) hängen zu bleiben.

Wichtig ist zu verstehen, dass DC von der Suche abhängig ist. Erst wenn der krasse Fall wie bei * eintritt, und somit quasi (fast) alle Seiten DC sind, wird die ganze Site folgerichtig als Mirror angesehen.

Schematisch: Volltext Suche unter den (nicht thematisch starken, PR), dann wird hinten irgendwo abgeschnitten (einfach zu viele Ergebnisse), dann werden alle Dubletten (erkannte Dubletten zum Suchergebnis, mit Ausnahme der Stärksten) ausgeblendet, dann wird etwas Interlinking berechnet, und fertig ist das Google Ranking ;-) (Reihenfolge ab dem 2ten Schritt fiktiv, wie erwähnt, Schema&#33

Das heisst für Dich, dass Du keinerlei bestehende Rankings verlierst, weil Du Deinen Content auch auf anderen Seiten hast.
Weiter musst Du Dich fragen, ob ein Artikel Deinen Originalartikel für das bestimme Keyword aus den SERPs verdrängen wird, wenn Du es an einen Seite mit grosser Popularität abgibst. Diese Frage lässt sich so lange mit Nein beantworten, wie Du mit Deinem Originalartikel für diese Suche die stärkste Seite bist. Die stärkste Seite in der Community der Query bist Du als Original i.d.R. da Du von allen Mirrors einen Backlink erhalten sollst.
Ausnahmen würden Seiten bilden, die sehr schlecht verlinkt sind etc... Allgem. kannst Du im schlimmsten Fall die Rankings der einzelnen Artikel einbüssen, was aus oben erwähnten Gründen recht unwahrscheinlich ist.
Dies ist auch eine dicke Spammasche, aber darüber möchten wir nicht reden.

Eigentlich wollte ich selber etwas darüber schreiben (schon angefangen), aber ich werde es wohl hiermit belassen, da es einfach schon genug Gutes gibt (Englisch)
Hier ein Beispiel:

QUOTE
Achtung schon 2-3 Wochen alt, die Caches sind wahrscheinlich veraltet
2.1.2. Interne Dubletten am Beispiel fussball-forum.de
In SEO Foren wird oft gewarnt, dass es zu Nachteilen in Suchmaschinen (namentlich Google) kommen kann, wenn eigene identische Inhalte auf mehreren URIs der Domain abrufbar sind.
Bsp: http://www.fussball-forum.de/viewtopic.php?t=9476
http://216.239.59.104/search?q=cache:9VQhA...lient=firefox-a
http://www.fussball-forum.de/viewtopic.php?p=110984
http://216.239.59.104/search?q=cache:KSxPD...lient=firefox-a
In diesem Fall haben wir eine nahezu eindeutige Übereinstimmung. Wie man leicht selber sieht ist jede Seite jedes Themas doppelt vorhanden.
Wenn man in Google nach „site:fussball-forum.de damenfussball forum“ sucht sieht man, dass Google die Redundanzen erkennt und nur die wichtigsten Resultate anzeigt.
http://www.google.ch/search?hl=de&client=f...ozilla%3Ade-DE% 3Aofficial&q=site%3Afussball-forum.de+damenfussball&btnG=Suche&meta=
Wenn man den Filter ausschaltet, sieht man alle Resultate.
http://www.google.ch/search?q=site:fussbal...ficial&filter=0
Eine Suche bei Google nach „frauenfussball forum“ fördert zeigt genau das Dokument auf dem ersten Platz, von dem nachweislich Dubletten existieren. Von genau der Domain, dass nachweislich systematisch Dubletten produziert.

Hier ein paar lesenswerte Sachen (Forschung, Theorie und so ;-):
(möchte die Liste vervollständigen und in die WissensDB stellen)

Shivakumar, N.; Garcia-Molina, H.
Finding near-replicas of documents on the web
http://dbpubs.stanford.edu/pub/1998-31
Kapitel 1 erklärt schön den Sinn.

"Fortsetzung"
http://dbpubs.stanford.edu:8090/pub/1999-39

"Inoffiziell" - William Pugh
"Google: I can finally talk about the research I did for Google"
http://www.cs.umd.edu/~pugh/google/
Nette Folienpräsentation, aber etwas zusammenhangslos

Vergleich der Techniken - Bharat, Henzinger et al
A Comparison of Techniques to Find Mirrored Hosts on the WWW
http://ftp.digital.com/pub/Digital/SRC/pub...r/DL99-WOWS.pdf

Mirror, Mirror on the Web - Bharat und Broder
http://www8.org/w8-papers/4c-server/mirror/mirror.html

Beim Zusammensuchen bin ich noch über das gestolpert:

Fettely et al von Microsoft 2003
http://www.la-web.org/2003/stamped/05_fetterly_d.pdf
Nur kurz überflogen....

Finding Related Pages Using the Link Structure of theWWW
http://www.l3s.de/~olmedilla/pub/hubsWI04.pdf
Gar nicht angeschaut.

QUOTE 3.1. Google Patente
Hier sollen relevante Patente und Wissenschaftliche Publikationen gesammelt werden.
768947 Detecting duplicate and near-duplicate files
684542 Detecting query-specific duplicate documents
Amerikanische Patente können hier nachgeschlagen werden: http://patft.uspto.gov/netahtml/search-bool.html

Um nochmal auf die Ayom.com Diskussion zurückzukommen (nicht das letzte mal), möchte ich noch erwähnen, dass es nicht so ist, dass irgendwelche Domains nicht gespidert werden, weil sie DC enthalten. Die ganze Foreninformationspolitik ist suboptimal.

Wichtig ist Kapitel 1 aus der ersten Quelle um zu verstehen, dass es nicht darum geht Sites abzustrafen, weil sie auf ihren Seiten DC hat, sondern darum den grossen Vorkommen an DC aus den SERPs zu halten.

Alain Aubert · 06.03.2005

Um es nochmal für alle Faulen auf den Punkt zu bringen (Deinen 2ten Beitrag hatte ich noch nicht gelesen gehabt):

Wenn Du z.B. Artikel aus unserer Wissensdatenbank kopierst, riskierst Du im schlimmsten Falle (in dem Falle, dass Deine Site aus nicht nur dem besteht), dass die kopierten Artikel für die entspechenden Queries, bei denen Redundanzen festgestellt werden "aus den SERPs fallen". Dies ist angesichts des Sachverhaltes relativ natürlich ;-) Das hat mit Deinen Rankings für andere Suchbegriffe solange nichts zu tun, als es nicht überhand nimmt. Dies ist aber nur bei Spam-Seiten der Fall. Ausnahmen (Nebenwirkungen) gibt es anscheinend sehr wenige.

Als es in den SEO Foren hiess, man solle starke Seiten linken (z.B. Google.com), da es gut fürs Ranking sei, haben dies alle gemacht. Als es hiess man solle den #-Anchor missbrauchen, haben es alle gemacht, etc... Mir ist schon klar, dass Amazon, Dmoz, Wikipedia Klone aus den SERPs fallen wegen den DC Filter, aber mal ehrlich, das ist der Sinn der Sache. Dass sich daraus eine seriöse Unsicherheit entwickelt, ist dem Halbwissen zu verdanken, das so rumschwirrt. Viele Webmaster denken plötzlich Duplicate Content würde ihnen schaden. Wieso fragt sich dann niemand, nach dem eigentilchen Sinn von "DC-Filtern". Da kommt viel Licht ins Dunkel.

Ich empfehle jedem Interessierten Textpassagen aus dem DMOZ in Google einzugeben und sich dann alle Suchergebnisse anzeigen zu lassen (&filter=0 in der Googleurl anhängen). Sehr erleuchtend.

Daniel newyouth · 07.03.2005

Wow! Cooler und informativer Text, besten Dank.
Alle meine Sorgen sind behoben

Alain Aubert · 07.03.2005

Ich danke Dir.

Wichtig aber unerwähnt weil eigentlich selbstverständlich: Die DC Filter greifen in Abhängigkeit der "Stärke der Seite". D.h. es ist zu vermuten, dass dir.google.com ewig neben dmoz.org existieren wird, währen der Dmoz-Klon von Herrn Maier nach einiger Zeit nicht aus dem Index, aber aus dem SERPs gestrichen wird.

Kleines recht eingeschränktes Beispiel am DMOZ, 10 Ergebnisse 7 gefiltert.
http://www.google.ch/search?q=++++*+Arbeit...

e-DE

fficial
Die 3 Ergebnisse sind Dmoz und 2 Sites mit ca 800 und 20k (davon 150 dmoz) Seiten im Index.
3 von den Gefilterten getestet: >100k, 50k, 50k Seiten im Index.

Wenige Seiten indexiert -> Erkennungswahrscheinlichkeit klieiner.

Kürze ich die Query
http://www.google.ch/search?hl=de&client=f...tnG=Suche&meta=
Verändert sich das Bild: 15 Ergebnisse 13 gefiltert.

Im Vergleich stellt man fest, dass jetzt Seiten von Sites gefiltert werden, die vorher angezeigt wurden. Und jetzt kommts ;-) im 2ten Fall wird die Seite von DMOZ gefiltert ;-)) D.h. DC wird pro Query (=Suchbegriffe) berechnet.

Das Ranking ist die Gesamtheit deiner Plazierungen von einer Menge Keyords (=Querys). Das hat nichts damit zu tun ob Du Dir ein paar Opentexte auf deine Homepage stellst, die dann teilweise für bestimmte Querys erkannt und ausgeblendet werden.

Anschliessend betrachten wir eine Suche nach "Gesundheit Public Health"
http://www.google.ch/search?hl=de&client=f...tnG=Suche&meta=

Dort sehen wir just den im 2ten Fall ausgefilterten Eintrag an 3ter Stelle.

Ich hoffe diese Beispiele machen das Bild etwas runder und freue mich auf Rückmeldungen und Meinungen allerseits, denn das ist ja wenig mehr als meine Meinung ;-)

simonius · 20.10.2005

Sorry, dass ich diesen etwas älteren Thread aus seinem Grab hole. Habe mir aktuell nämlich eine ähnliche Frage gestellt. Und zwar inwiefern DC schadet. Vielen Dank an Alain, für diese ausführlichen Ausführungen

Eine Frage hätte ich allerdings noch:
Wann ist DC DC? Gibt es da einen prozentualen Richtwert? Es würde sich um eine Bildergallerie handeln, also praktisch kein Text...

Alain Aubert · 20.10.2005

Ein prozentualer Richtwert. Google spielt recht damit rum aber es ist nicht die Frage nach dem Richtwert. DC im IR gabs schon vor Spam, da hats einfach niemanden gekümmert. DC ist nicht hinreichend um von Google gekickt zu werden.
Die Faustregel in einfach. Stell Dir Deine Seite als Baum vor, mit Ästen. Wenn der grösste Teil der Äste eigentlich fast gleich noch ein paar mal im Web vorkommt, wird von der Suma versucht eine Beziehung herzustellen und das Original zu zeigen. Es gibt auch Ansätze die Scores der Collections (abgeschwächt) zum Primären zu kompilieren (Idee ist ein Dokument das oft kopiert wird ist wichtig). Das vergleichen der einzelnen Seiten ist z.B. ein auseinanderschneiden (stell Dir die Seite ohne Navigation und repetitive Elemente) des Inhalts vor (z.B. Sätze) und ein vergleichen der Sätze. Den Richtwert könntest Du Dir über Blog Beiträge veranschaulichen die ofmals gleiche Sachen zitieren und mehr oder weniger hinzufügen. Da wird sofort klar, dass Du besser fährst, je mehr Du selber hinzufügst. Zurück zu den Ästen sehen wir schnell dass die Erkennung von doppelten Sammlungen sehr viel einfacher ist, wenn die ursprüngliche Linkstruktur erhalten bleibt. Die Panik um den Spezialfall der multiplen Domains die auf den gleichen Server zeigen ist auch nicht so ernst zu nehmen. Die SEOs leben da in einer Scheinwelt, aber das Resultat ist trotzdem iO weil es schöne Konvention ist Spider als DAU zu behandeln, und allgem. "overhead vermeided" (d.h. Konzentration von Links..).
Ich denke als Begriff "DC" hat sich eine Webcollection etabliert, die eigentlich zu grössten Teilen unverändert (marginal verändert~) übernommen wurde. Eine Bildergalerie hat sowieso wenig Text zum vergleichen, und wenig Potential um von Sumas referenziert zu werden. Ich weiss nicht wie Goolge spärliche Daten handhabt im Bezug auf DC, ich könnte mir sogar vorstellen, dass die Grundlage für eine Berechnung zu schmal ist, was aber mit sich bringt, dass der "nicht-inhalt" gut verlinkt werden muss. Hast Du z.B. eine Kopie einer Gelerie im gleichen CMS mit Bildernamen und Unterschriften. Das ist wenig Content also musst Du auch wenig hinzufügen um "Deinen Beitrag zu leisten".
Grundsätzlich gilt, dass Du allen in den SERPs halten kannst, wenn Du die guten Links dazu hast.

Duplicate Content - Wirklich gefährlich?

Daniel newyouth

Angesehenes Mitglied

Alain Aubert

Legendäres Mitglied

Daniel newyouth

Angesehenes Mitglied

Alain Aubert

Legendäres Mitglied

Alain Aubert

Legendäres Mitglied

Daniel newyouth

Angesehenes Mitglied

Alain Aubert

Legendäres Mitglied

simonius

Aktives Mitglied

Alain Aubert

Legendäres Mitglied

Wir schützen Ihre Privatsphäre