Anzeige - [Interessiert an einer Anzeige?]
(?) Tags raten (?) httrack, webreaper (edit)
 
Reply to this topicStart new topicStart Poll
> HTTrack und Co.
Matthias_Zimmermann
Geschrieben am: Mi 2.06.2004, 20:04
Report PostQuote Post

AyomRank 1
**

Gruppe: Member (inaktiv)
Beiträge: 4
Mitglied seit: 1.06.2004


Hi !
Bei mir auf der Seite mit sehr viel Content laufen häufiger Webkopierer wie Httrack oder heute Webreaper rum und kopieren einige tausende Seiten.
Dabei laufen sie ja auch unwillkürlich auf die Links von Adsense und Co.

Kann z.B. Google dies ausblenden?

Gruß
Matthias
Top
PMEmail PosterUsers Website
Top
 
 
Shopping
#2 Geschrieben am: Mi 2.06.2004, 20:08 (+00:04)
Report PostQuote Post

AyomRank 8
Group Icon

Gruppe: Experten Marketing (Mod)
Beiträge: 1836
Mitglied seit: 11.12.2003


Frag besser Google direkt.


--------------------
Bei Pligg, da verdient jeder mit! - Neuanmeldungen jetzt wieder moeglich!

Das Schweizer Shopping Portal seit 1999

Bist Du sexy oder nicht? - Hier findest Du es heraus!
Top
PMEmail PosterUsers Website
Top
 
Alain_Aubert
#3 Geschrieben am: Fr 4.06.2004, 14:30 (+42:21)
Report PostQuote Post

Ayom Slave
Group Icon

Gruppe: Admin
Beiträge: 4721
Mitglied seit: 25.09.2003


Können Httrack und Webreaper wirklich JavaScript? Was für User-Agends benutzen sie? Schau doch mal in dein Logfile, was erzählt es?
Top
PMEmail PosterUsers Website
Top
 
Rainer
#4 Geschrieben am: Fr 4.06.2004, 14:36 (+00:06)
Report PostQuote Post

AyomRank 10
Group Icon

Gruppe: Moderatoren
Beiträge: 5186
Mitglied seit: 5.12.2003


QUOTE
Httrack und Webreaper


Was ist das überhaupt? Ja, ich könnte auch im Gockel suchen. Aber gerade keine Lust. Ist das Software, die automatisch ganze Homepages runterlädt?
Top
PM
Top
 
Alain_Aubert
#5 Geschrieben am: Fr 4.06.2004, 14:41 (+00:04)
Report PostQuote Post

Ayom Slave
Group Icon

Gruppe: Admin
Beiträge: 4721
Mitglied seit: 25.09.2003


Httrack in das Googlesuchfenster kopieren hätte dich weniger Zeit gekostet, als diese Frage zu stellen ;-)

Ja.
Top
PMEmail PosterUsers Website
Top
 
Matthias_Zimmermann
#6 Geschrieben am: Fr 4.06.2004, 14:50 (+00:09)
Report PostQuote Post

AyomRank 1
**

Gruppe: Member (inaktiv)
Beiträge: 4
Mitglied seit: 1.06.2004


@Alain,

lt. Logs folgen sie schon Javascript. Allerdings werden sie scheinbar nicht von Adsense gewertet. Nur ob Adsense diese als versuchte Manipulation erkennt...?

Auf der anderen Seite will Google ja grad volle Contentseiten und diese werden eben öfter mal "abgezogen".

Gruß
Matthias
Top
PMEmail PosterUsers Website
Top
 
Alain_Aubert
#7 Geschrieben am: Fr 4.06.2004, 15:31 (+00:41)
Report PostQuote Post

Ayom Slave
Group Icon

Gruppe: Admin
Beiträge: 4721
Mitglied seit: 25.09.2003


Ich traue Adsense zu, das als Spider zu erkennen.

Dies würde heissen, dass Google sie nicht als versuchte Manipulation wertet.

Mit welchen User-Agents (zB Mozilla...) melden sich die Crawler denn an?
Top
PMEmail PosterUsers Website
Top
 
Matthias_Zimmermann
#8 Geschrieben am: Fr 4.06.2004, 15:51 (+00:19)
Report PostQuote Post

AyomRank 1
**

Gruppe: Member (inaktiv)
Beiträge: 4
Mitglied seit: 1.06.2004


@Alain,

hier ein Auszug von Montag

Prozent Name
1 5079 10,60 % WebReaper
2 212 0,44 % Googlebot
3 151 0,32 % ia_archiver
4 57 0,12 % Tomorrow
5 39 0,08 % Slurp
6 33 0,07 % ScreenSurfer
7 31 0,06 % Wanadoo
8 17 0,04 % Trovatore
9 16 0,03 % BaiDuSpider
10 15 0,03 % TECOMAC
11 13 0,03 % Ask Jeeves
12 5 0,01 % Cafi
13 3 0,01 % grub.org


Nr.1 ist so ein Vertreter

Gruß
Matthias
Top
PMEmail PosterUsers Website
Top
 
Alain_Aubert
#9 Geschrieben am: Fr 4.06.2004, 15:59 (+00:07)
Report PostQuote Post

Ayom Slave
Group Icon

Gruppe: Admin
Beiträge: 4721
Mitglied seit: 25.09.2003


Holy....

Hast du auch reguläre Besucher...? ;-)

In diesem Falle würde ich mir mindesten mal überlegen für all diese User-Agends Adsense nicht anzeigen zu lassen, evtl sogar diesen User-Agents gar nichts mehr zu schicken. Ich weiss zwar nicht was für eine Seite du hast, aber ich kann mir schlecht vorstellen, dass es dein Ziel ist, dass jeder deine ganze Seite zieht und dir nur die Trafickosten bleiben.

Aber wenn du nur sichergehen willst, dass Adsense sauber läuft, check auf die dir bekannten Spider.
Top
PMEmail PosterUsers Website
Top
 
Matthias_Zimmermann
#10 Geschrieben am: Fr 4.06.2004, 16:34 (+00:35)
Report PostQuote Post

AyomRank 1
**

Gruppe: Member (inaktiv)
Beiträge: 4
Mitglied seit: 1.06.2004


:-)
Wieso Besucher, meine Zielgruppe sind Spider....

Im Ernst sieh mal hier meine realen Besucher:
http://www.natur-lexikon.com/Statistik.pdf

Gruß
Matthias
Top
PMEmail PosterUsers Website
Top
5 Monate später...
p4y
#11 Geschrieben am: Do 11.11.2004, 19:46 (+5m )
Report PostQuote Post

AyomRank 1
**

Gruppe: Member (inaktiv)
Beiträge: 4
Mitglied seit: 10.11.2004


CODE

// WebCopier blocken
if(eregi("WebCopier",$HTTP_USER_AGENT)){
   echo "WebCopier nicht erlaubt<br>";
   exit();
}



Hab mal so ein script gefunden!
Weiss aber nicht ob der geht ;-)
Top
PMEmail Poster
Top
 
bull
#12 Geschrieben am: Fr 12.11.2004, 16:09 (+20:23)
Report PostQuote Post

AyomRank 5
**********

Gruppe: Member (aktiv)
Beiträge: 259
Mitglied seit: 18.08.2004


Top
PMEmail PosterUsers Website
Top
6 Monate später...
Sascha Ahlers
#13 Geschrieben am: Fr 13.05.2005, 21:53 (+6m )
Report PostQuote Post

AyomRank 8
Group Icon

Gruppe: Experten Entwicklung
Beiträge: 1699
Mitglied seit: 27.12.2004


QUOTE (p4y @ Do 11.11.2004, 19:46)
CODE

// WebCopier blocken
if(eregi("WebCopier",$HTTP_USER_AGENT)){
   echo "WebCopier nicht erlaubt<br>";
   exit();
}



Hab mal so ein script gefunden!
Weiss aber nicht ob der geht ;-)

Na ja, das hilft auch nicht, geb ich halt einfach eine andere ID an.

CODE
wget -m -U "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)" www.mirrorsite.de

Wget gibt es sowohl für Windows, wie auch Linux und diverse andere System. Einziges Problem, wget unterstütz leider noch nicht HTTP/1.1, aber was dies Programm nicht schafft, kann ein anderes und HTTP/1.0 sollte bisher doch noch besser aktiv sein.


Da kann wohl eher das Apache Modul namens "mod_spambot" (für Version 1.3.x) verwenden oder ein kleines serverseitiges Script schreiben, was diese Eigenschaften simuliert, wobei das Modul bestimmt prefomanter ist.


MfG Sascha Ahlers

Links:
mod_spambot (englisch)
wget FAQ (englisch)


--------------------
Joseph Joubert: "Der Verstand kann uns sagen, was wir unterlassen sollen. - Aber das Herz kann uns sagen, was wir tun müssen."

Sicherheit beim Programmieren: Top 10 application vulnerabilities in 2007
Top
PMEmail PosterUsers WebsiteICQ
Top
 
Thema wird von 0 Benutzer(n) gelesen (0 Gäste und 0 anonyme Benutzer)
0 Mitglieder:
Trackback-Url: http://www.ayom.com/track/t/1617

Topic Options Reply to this topicStart new topicStart Poll

 





Anzeige - [Interessiert an einer Anzeige?]



Anzeigen


[Interessiert an einer Anzeige?]