Um obige Aussage noch zu präzisieren, DC ist kein Problem, wenn von Dir beschriebener Umstand gegeben ist. Anders sieht es aus, wenn Du einen Amazon Mirror* aufbaust, dessen logisches Ende es sein soll im DC Filter der Suchmaschine (als Kopie von Amazon) hängen zu bleiben.
Wichtig ist zu verstehen, dass DC von der Suche abhängig ist. Erst wenn der krasse Fall wie bei * eintritt, und somit quasi (fast) alle Seiten DC sind, wird die ganze Site folgerichtig als Mirror angesehen.
Schematisch: Volltext Suche unter den (nicht thematisch starken, PR), dann wird hinten irgendwo abgeschnitten (einfach zu viele Ergebnisse), dann werden alle Dubletten (erkannte Dubletten zum Suchergebnis, mit Ausnahme der Stärksten) ausgeblendet, dann wird etwas Interlinking berechnet, und fertig ist das Google Ranking ;-) (Reihenfolge ab dem 2ten Schritt fiktiv, wie erwähnt, Schema!
Das heisst für Dich, dass Du keinerlei bestehende Rankings verlierst, weil Du Deinen Content auch auf anderen Seiten hast.
Weiter musst Du Dich fragen, ob ein Artikel Deinen Originalartikel für das bestimme Keyword aus den SERPs verdrängen wird, wenn Du es an einen Seite mit grosser Popularität abgibst. Diese Frage lässt sich so lange mit Nein beantworten, wie Du mit Deinem Originalartikel für diese Suche die stärkste Seite bist. Die stärkste Seite in der Community der Query bist Du als Original i.d.R. da Du von allen Mirrors einen Backlink erhalten sollst.
Ausnahmen würden Seiten bilden, die sehr schlecht verlinkt sind etc... Allgem. kannst Du im schlimmsten Fall die Rankings der einzelnen Artikel einbüssen, was aus oben erwähnten Gründen recht unwahrscheinlich ist.
Dies ist auch eine dicke Spammasche, aber darüber möchten wir nicht reden.
Eigentlich wollte ich selber etwas darüber schreiben (schon angefangen), aber ich werde es wohl hiermit belassen, da es einfach schon genug Gutes gibt (Englisch)
Hier ein Beispiel:
QUOTE
Achtung schon 2-3 Wochen alt, die Caches sind wahrscheinlich veraltet
2.1.2. Interne Dubletten am Beispiel fussball-forum.de
In SEO Foren wird oft gewarnt, dass es zu Nachteilen in Suchmaschinen (namentlich Google) kommen kann, wenn eigene identische Inhalte auf mehreren URIs der Domain abrufbar sind.
Bsp:
http://www.fussball-forum.de/viewtopic.php?t=9476
http://216.239.59.104/search?q=cache:9VQhA...lient=firefox-a
http://www.fussball-forum.de/viewtopic.php?p=110984
http://216.239.59.104/search?q=cache:KSxPD...lient=firefox-a
In diesem Fall haben wir eine nahezu eindeutige Übereinstimmung. Wie man leicht selber sieht ist jede Seite jedes Themas doppelt vorhanden.
Wenn man in Google nach „site:fussball-forum.de damenfussball forum“ sucht sieht man, dass Google die Redundanzen erkennt und nur die wichtigsten Resultate anzeigt.
http://www.google.ch/search?hl=de&client=f...ozilla%3Ade-DE% 3Aofficial&q=site%3Afussball-forum.de+damenfussball&btnG=Suche&meta=
Wenn man den Filter ausschaltet, sieht man alle Resultate.
http://www.google.ch/search?q=site:fussbal...ficial&filter=0
Eine Suche bei Google nach „frauenfussball forum“ fördert zeigt genau das Dokument auf dem ersten Platz, von dem nachweislich Dubletten existieren. Von genau der Domain, dass nachweislich systematisch Dubletten produziert.
Hier ein paar lesenswerte Sachen (Forschung, Theorie und so ;-):
(möchte die Liste vervollständigen und in die
WissensDB stellen)
Shivakumar, N.; Garcia-Molina, H.
Finding near-replicas of documents on the web
http://dbpubs.stanford.edu/pub/1998-31
Kapitel 1 erklärt schön den Sinn.
"Fortsetzung"
http://dbpubs.stanford.edu:8090/pub/1999-39
"Inoffiziell" - William Pugh
"Google: I can finally talk about the research I did for Google"
http://www.cs.umd.edu/~pugh/google/
Nette Folienpräsentation, aber etwas zusammenhangslos
Vergleich der Techniken - Bharat, Henzinger et al
A Comparison of Techniques to Find Mirrored Hosts on the WWW
http://ftp.digital.com/pub/Digital/SRC/pub...r/DL99-WOWS.pdf
Mirror, Mirror on the Web - Bharat und Broder
http://www8.org/w8-papers/4c-server/mirror/mirror.html
Beim Zusammensuchen bin ich noch über das gestolpert:
Fettely et al von Microsoft 2003
http://www.la-web.org/2003/stamped/05_fetterly_d.pdf
Nur kurz überflogen....
Finding Related Pages Using the Link Structure of theWWW
http://www.l3s.de/~olmedilla/pub/hubsWI04.pdf
Gar nicht angeschaut.
QUOTE 3.1. Google Patente
Hier sollen relevante Patente und Wissenschaftliche Publikationen gesammelt werden.
768947 Detecting duplicate and near-duplicate files
684542 Detecting query-specific duplicate documents
Amerikanische Patente können hier nachgeschlagen werden:
http://patft.uspto.gov/netahtml/search-bool.html
Um nochmal auf die Ayom.com Diskussion zurückzukommen (nicht das letzte mal), möchte ich noch erwähnen, dass es nicht so ist, dass irgendwelche Domains nicht gespidert werden, weil sie DC enthalten. Die ganze Foreninformationspolitik ist suboptimal.
Wichtig ist Kapitel 1 aus der ersten Quelle um zu verstehen, dass es nicht darum geht Sites abzustrafen, weil sie auf ihren Seiten DC hat, sondern darum den grossen Vorkommen an DC aus den SERPs zu halten.