HTTrack und Co.

  • Ersteller Matthias_Zimmermann
  • Erstellt am
M

Matthias_Zimmermann

Guest
Hi !
Bei mir auf der Seite mit sehr viel Content laufen häufiger Webkopierer wie Httrack oder heute Webreaper rum und kopieren einige tausende Seiten.
Dabei laufen sie ja auch unwillkürlich auf die Links von Adsense und Co.

Kann z.B. Google dies ausblenden?

Gruß
Matthias
 
Können Httrack und Webreaper wirklich JavaScript? Was für User-Agends benutzen sie? Schau doch mal in dein Logfile, was erzählt es?
 
QUOTE Httrack und Webreaper

Was ist das überhaupt? Ja, ich könnte auch im Gockel suchen. Aber gerade keine Lust. Ist das Software, die automatisch ganze Homepages runterlädt?
 
Httrack in das Googlesuchfenster kopieren hätte dich weniger Zeit gekostet, als diese Frage zu stellen ;-)

Ja.
 
@Alain,

lt. Logs folgen sie schon Javascript. Allerdings werden sie scheinbar nicht von Adsense gewertet. Nur ob Adsense diese als versuchte Manipulation erkennt...?

Auf der anderen Seite will Google ja grad volle Contentseiten und diese werden eben öfter mal "abgezogen".

Gruß
Matthias
 
Ich traue Adsense zu, das als Spider zu erkennen.

Dies würde heissen, dass Google sie nicht als versuchte Manipulation wertet.

Mit welchen User-Agents (zB Mozilla...) melden sich die Crawler denn an?
 
@Alain,

hier ein Auszug von Montag

Prozent Name
1 5079 10,60 % WebReaper
2 212 0,44 % Googlebot
3 151 0,32 % ia_archiver
4 57 0,12 % Tomorrow
5 39 0,08 % Slurp
6 33 0,07 % ScreenSurfer
7 31 0,06 % Wanadoo
8 17 0,04 % Trovatore
9 16 0,03 % BaiDuSpider
10 15 0,03 % TECOMAC
11 13 0,03 % Ask Jeeves
12 5 0,01 % Cafi
13 3 0,01 % grub.org


Nr.1 ist so ein Vertreter

Gruß
Matthias
 
Holy....

Hast du auch reguläre Besucher...? ;-)

In diesem Falle würde ich mir mindesten mal überlegen für all diese User-Agends Adsense nicht anzeigen zu lassen, evtl sogar diesen User-Agents gar nichts mehr zu schicken. Ich weiss zwar nicht was für eine Seite du hast, aber ich kann mir schlecht vorstellen, dass es dein Ziel ist, dass jeder deine ganze Seite zieht und dir nur die Trafickosten bleiben.

Aber wenn du nur sichergehen willst, dass Adsense sauber läuft, check auf die dir bekannten Spider.
 
CODE
// WebCopier blocken
if(eregi("WebCopier",$HTTP_USER_AGENT)){
echo "WebCopier nicht erlaubt<br>";
exit();
}



Hab mal so ein script gefunden!
Weiss aber nicht ob der geht ;-)
 
QUOTE (p4y @ Do 11.11.2004, 19:46)
CODE
// WebCopier blocken
if(eregi("WebCopier",$HTTP_USER_AGENT)){
   echo "WebCopier nicht erlaubt<br>";
   exit();
}




Hab mal so ein script gefunden!
Weiss aber nicht ob der geht ;-)

Na ja, das hilft auch nicht, geb ich halt einfach eine andere ID an.


CODE wget -m -U "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)" www.mirrorsite.de

Wget gibt es sowohl für Windows, wie auch Linux und diverse andere System. Einziges Problem, wget unterstütz leider noch nicht HTTP/1.1, aber was dies Programm nicht schafft, kann ein anderes und HTTP/1.0 sollte bisher doch noch besser aktiv sein.


Da kann wohl eher das Apache Modul namens "mod_spambot" (für Version 1.3.x) verwenden oder ein kleines serverseitiges Script schreiben, was diese Eigenschaften simuliert, wobei das Modul bestimmt prefomanter ist.


MfG Sascha Ahlers

Links:
mod_spambot (englisch)
wget FAQ (englisch)
 
Zurück
Oben