Anzeige - [Interessiert an einer Anzeige?]
(?) Tags raten (?) (edit)
 
Reply to this topicStart new topicStart Poll
> robots.txt wird von Google nicht gefunden, Fehler beim Spidern
sevenid
  Geschrieben am: Mi 2.01.2008, 13:08
Report PostQuote Post

AyomRank 4
********

Gruppe: Member (aktiv)
Beiträge: 168
Mitglied seit: 2.08.2007


Folgende Frage, denn ich weiß zur Zeit nicht weiter.

ich betreibe eine u.a. eine News und Informationswebseite, die an sich auch bei den Google News aufgenommen ist. Seit ca. 5 Tagen werden die News jedoch nicht mehr bei den Google News gelistet. Also einen Blick bei den Webmastertools von google rein geschaut. Da steht, dass tatsächlich ein Fehler vorhanden ist.

"Vor dem Durchsuchen der Seiten Ihrer Website haben wir versucht, die Datei robots.txt zu überprüfen, um sicherzustellen, dass wir keine Seiten durchsuchen, die Sie durch robots.txt blockiert haben. Die Datei robots.txt war jedoch nicht erreichbar. Wir haben unser Crawling zurückgestellt, um sicherzustellen, dass wir keine in dieser Datei aufgeführten Seiten durchsuchen. Wenn dies auftritt, greifen wir zu einem späteren Zeitpunkt erneut auf Ihre Website zurück und durchsuchen sie, sobald wir die Datei robots.txt erreichen können. Beachten Sie, dass sich dies von einer 404-Antwort bei der Suche nach der Datei robots.txt unterscheidet. Wenn wir den Fehler 404 erhalten, gehen wir davon aus, dass die Datei robots.txt nicht vorhanden ist, und fahren mit dem Crawling fort."

Dann habe ich nachgeschaut im FTP Server. Die robots.txt ist jedoch noch vorhanden und auch nicht verändert. Also habe ich nochmal abgewartet. Aber am 30.12. und am 31.12. wurde diese Fehlermeldung nochmals raus gegeben. Im Robots.txt ist angegeben, dass alle Seiten gespidert werden können. Davor gabs damit auch keine Probleme. Seit dem sind weder die News aufgenommen worden, noch wurde die Webseite normal gespidert.

Nun habe ich robots.txt ganz raus genommen, um zu schauen, was passiert. Weil, wenn 404 ausgegeben wird, dann müßte eigentlich ganz normal das Crawling von Google gestartet werden. Was meint Ihr? Habt Ihr auch schon mal ein derartiges Problem gehabt?

P.s. Google Support habe ich kontaktiert. Bisher keine Antwort... sad.gif


--------------------
Top
PMEmail PosterUsers Website
Top
 
 
Duvi
#2 Geschrieben am: Mi 2.01.2008, 13:24 (+00:16)
Report PostQuote Post

AyomRank 5
**********

Gruppe: Member (aktiv)
Beiträge: 489
Mitglied seit: 4.10.2006


bei solchen fällen liegt meistens ein problem mit den zugriffsrechten vor, verursacht durch den ftp transfer. mit mod_rewrite kann man die datei auch unerreichbar machen.

allgemein: wenn du die datei im browser aufrufen kannst, also www.example.com/robots.txt, dann ist alles in ordnung.
Top
PMEmail Poster
Top
 
sevenid
#3 Geschrieben am: Mi 2.01.2008, 13:40 (+00:15)
Report PostQuote Post

AyomRank 4
********

Gruppe: Member (aktiv)
Beiträge: 168
Mitglied seit: 2.08.2007


hi,
danke für deine antwort. die datei robots.txt war zu jeder zeit erreichbar. ich hatte sie auch im browser geöffnet. nur die fehlermeldung wird auch nach 2 weiteren google crawler besuchen weiter raus gegeben. merkwürdig, oder?


--------------------
Top
PMEmail PosterUsers Website
Top
 
jAuer
Jürgen Auer - freiberufl. Programmierer
#4 Geschrieben am: Mi 2.01.2008, 15:00 (+01:20)
Report PostQuote Post

AyomRank 9
Group Icon

Gruppe: Experten Entwicklung
Beiträge: 2206
Mitglied seit: 4.02.2006


Nur so als Hinweis: Im Titel stand 'robot.txt', die Datei muß 'robots.txt' kleingeschrieben heißen.

Hol dir mal das Download.exe aus meinen Freeware-Tools und überprüfe, ob sich damit (1) die robots.txt korrekt runterladen läßt und (2) ob mit der Option -h der korrekte Header 200 geschickt wird.

Schon gesehen: robots.txt ist eine Word-Datei, Datei wird ausgeliefert, aber ein 404 oder anderes geschickt, es wird auf eine andere Datei weitergeleitet, der Browser zeigt diese sofort an, ohne den Statuscode auszugeben.

Das

QUOTE (Duvi @ Mi 2.01.2008, 13:24)
allgemein: wenn du die datei im browser aufrufen kannst, also www.example.com/robots.txt, dann ist alles in ordnung.


habe ich früher auch gedacht - bis ich dann auf so Fälle - Content plus 404, 500 oder ähnliches gestoßen bin. Die Browser versuchen natürlich, manches davon trotzdem anzeigen zu lassen. Und 404 plus ein eigener Content geht wunderbar.

PS: Stelle mal einen Link rein - es gibt wahrscheinlich noch mehr Sackgassen.
PPS: Ich mache sowas ja sogar absichtlich: Eine neue Seite, die es noch nicht gibt, wird beim sd-Wiki mit einem Editierlink ausgeliefert - der Statuscode ist aber 404, dann fressen das die Sumas nicht.


--------------------
Web-Anwendung 3.0: Ein Online-Kalender für Termine vieler Filialen.

server-daten: Web-Datenbanken als Online - CRM - Lösung.
Konzentrieren Sie sich auf Ihr Kerngeschäft - nutzen Sie eine schlanke, schnelle Online-Datenbank von verschiedenen Standorten.
Top
PMEmail PosterUsers Website
Top
 
sevenid
#5 Geschrieben am: Mi 2.01.2008, 15:13 (+00:13)
Report PostQuote Post

AyomRank 4
********

Gruppe: Member (aktiv)
Beiträge: 168
Mitglied seit: 2.08.2007


robots.txt war richtig eingestellt und korrekt benannt. davor gab es keine probleme und die webseite wurde bis zum 27.12. richtig indexiert. die url: www.gegen-hartz.de

sehe gerade, dass dies auch bei www.vegetarische-rezepte.com der Fall ist. Auch hier das selbige Problem seit dem 27.12.


--------------------
Top
PMEmail PosterUsers Website
Top
 
jAuer
Jürgen Auer - freiberufl. Programmierer
#6 Geschrieben am: Mi 2.01.2008, 15:19 (+00:05)
Report PostQuote Post

AyomRank 9
Group Icon

Gruppe: Experten Entwicklung
Beiträge: 2206
Mitglied seit: 4.02.2006


www.gegen-hartz.de/robots.txt liefert einen 404, die andere einen 200 - sieht auch soweit ok aus.

Eigentlich müßten beide Versionen ok sei.


--------------------
Web-Anwendung 3.0: Ein Online-Kalender für Termine vieler Filialen.

server-daten: Web-Datenbanken als Online - CRM - Lösung.
Konzentrieren Sie sich auf Ihr Kerngeschäft - nutzen Sie eine schlanke, schnelle Online-Datenbank von verschiedenen Standorten.
Top
PMEmail PosterUsers Website
Top
 
sevenid
#7 Geschrieben am: Mi 2.01.2008, 15:59 (+00:40)
Report PostQuote Post

AyomRank 4
********

Gruppe: Member (aktiv)
Beiträge: 168
Mitglied seit: 2.08.2007


@jAuer: Genau. Bei gegen-hartz.de hatte ich ja die robots.txt jetzt raus genommen, um zu sehen, ob google dann ganz normal indexiert. es ist wirklich ungewöhnlich, dass beide webseiten seit dem 27.12. nicht mehr gespidert werden, obwohl es vorher auch keine probleme gab und nichts geändert worden ist.

Im Google forum hatte ein google mitarbeiter gepostet, dass dies öfter auftreten würde, es aber an dem hoster liegen muss. wende mich nun an den hoster...und dann auch gleich benannt, dass google die webseite ganz ausschließen wird, falls das problem weiterhin besteht. "super" sache sowas...



--------------------
Top
PMEmail PosterUsers Website
Top
 
jAuer
Jürgen Auer - freiberufl. Programmierer
#8 Geschrieben am: Mi 2.01.2008, 19:04 (+03:04)
Report PostQuote Post

AyomRank 9
Group Icon

Gruppe: Experten Entwicklung
Beiträge: 2206
Mitglied seit: 4.02.2006


QUOTE (sevenid @ Mi 2.01.2008, 15:59)
Im Google forum hatte ein google mitarbeiter gepostet, dass dies öfter auftreten würde, es aber an dem hoster liegen muss.

Es gab auch schon das Gerücht, daß manche Hoster google-Spider zentral abblocken, um Traffic auf Webangeboten zu reduzieren.

So nach dem impliziten Motto: Ich biete vielen Domains Platz - aber Traffic ist limitiert, also wird google geblockt.

Da bekam google ein Timeout oder einen Fehlerstatus, während die Website oben war.


--------------------
Web-Anwendung 3.0: Ein Online-Kalender für Termine vieler Filialen.

server-daten: Web-Datenbanken als Online - CRM - Lösung.
Konzentrieren Sie sich auf Ihr Kerngeschäft - nutzen Sie eine schlanke, schnelle Online-Datenbank von verschiedenen Standorten.
Top
PMEmail PosterUsers Website
Top
 
sevenid
#9 Geschrieben am: Mi 2.01.2008, 19:15 (+00:10)
Report PostQuote Post

AyomRank 4
********

Gruppe: Member (aktiv)
Beiträge: 168
Mitglied seit: 2.08.2007


QUOTE
Es gab auch schon das Gerücht, daß manche Hoster google-Spider zentral abblocken, um Traffic auf Webangeboten zu reduzieren.


das wäre gelinde gesagt, ne riesen Sauerei! mein hoster hat sich bisher nicht gemeldet... das problem gab es allerdings vorher nicht..


--------------------
Top
PMEmail PosterUsers Website
Top
 
Marc Schuler
Host2Day ISP International
#10 Geschrieben am: Mi 2.01.2008, 19:25 (+00:10)
Report PostQuote Post

AyomRank 7
**************

Gruppe: Member (aktiv)
Beiträge: 1439
Mitglied seit: 1.11.2005


Glaube nicht, dass ein Anbieter das blockiert.. wäre sicher nicht gut für sein Image und legal wohl auch nicht wirklich...
Was für einen chmod hat deine robots.txt?
Was hast du bei User Agent drin?

Und sonst... melde dich bei Webmastertools von Google an, kannst damit die Robots prüfen.

Gruss Marc


--------------------
Top
PMEmail PosterUsers Website
Top
 
MX
#11 Geschrieben am: Mi 2.01.2008, 19:39 (+00:13)
Report PostQuote Post

AyomRank 4
********

Gruppe: Member (aktiv)
Beiträge: 122
Mitglied seit: 2.01.2008


QUOTE (sevenid @ Mi 2.01.2008, 20:15)
QUOTE
Es gab auch schon das Gerücht, daß manche Hoster google-Spider zentral abblocken, um Traffic auf Webangeboten zu reduzieren.


das wäre gelinde gesagt, ne riesen Sauerei! mein hoster hat sich bisher nicht gemeldet... das problem gab es allerdings vorher nicht..

Nun ja, es müsste sich ja herausfinden lassen, ob der bot vom hoster geblockt wird.

Eigenartig ist das jedenfalls schon. Wie Marc Schuler tippe ich allerdings auch eher auf ein chmod problem (am Inhalt der robots.txt hast ja nichts verändert?).
Top
PM
Top
 
jAuer
Jürgen Auer - freiberufl. Programmierer
#12 Geschrieben am: Mi 2.01.2008, 19:53 (+00:14)
Report PostQuote Post

AyomRank 9
Group Icon

Gruppe: Experten Entwicklung
Beiträge: 2206
Mitglied seit: 4.02.2006


QUOTE (Marc Schuler @ Mi 2.01.2008, 19:25)
melde dich bei Webmastertools von Google an, kannst damit die Robots prüfen.

Das ist er doch schon - steht im Eröffnungsbeitrag.

Und bei einem 404 bzw. 200 gibt es kein Berechtigungsproblem mehr.


--------------------
Web-Anwendung 3.0: Ein Online-Kalender für Termine vieler Filialen.

server-daten: Web-Datenbanken als Online - CRM - Lösung.
Konzentrieren Sie sich auf Ihr Kerngeschäft - nutzen Sie eine schlanke, schnelle Online-Datenbank von verschiedenen Standorten.
Top
PMEmail PosterUsers Website
Top
 
Marc Schuler
Host2Day ISP International
#13 Geschrieben am: Mi 2.01.2008, 20:31 (+00:38)
Report PostQuote Post

AyomRank 7
**************

Gruppe: Member (aktiv)
Beiträge: 1439
Mitglied seit: 1.11.2005


Habe ich überlesen, in dem Fall, kann nur dein Hoster helfen, sofern du nicht mit einer .htaccess deine Robots selbst blockierst wink.gif.

Gruss Marc


--------------------
Top
PMEmail PosterUsers Website
Top
 
sevenid
#14 Geschrieben am: So 6.01.2008, 14:54 (+3d 18:23)
Report PostQuote Post

AyomRank 4
********

Gruppe: Member (aktiv)
Beiträge: 168
Mitglied seit: 2.08.2007


Problem gelöst: Es lag am Hoster. Der Google Boot wurde automatisiert ausgeschlossen, da zu viel Traffic produziert worden ist. Ärgerlich: Der hoster reagierte lange Zeit nicht auf meine Email-Anfragen. Aber nun scheint alles wieder in Ordnung zu sein.

Das Problem scheint gar nicht so selten zu sein. Im Google Forum wurde dies von einigen berichtet. Richtig ärgerlich kann es werden, wenn dieses Problem längerfristig auftaucht, denn dann kann es sein, dass Google die "nicht erreichbaren" Webseiten aus dem Index verbannt, obwohl diese noch vorhanden sind. Alles schon passiert.


--------------------
Top
PMEmail PosterUsers Website
Top
 
MX
#15 Geschrieben am: So 6.01.2008, 15:20 (+00:25)
Report PostQuote Post

AyomRank 4
********

Gruppe: Member (aktiv)
Beiträge: 122
Mitglied seit: 2.01.2008


QUOTE (sevenid @ So 6.01.2008, 15:54)
Problem gelöst: Es lag am Hoster. Der Google Boot wurde automatisiert ausgeschlossen, da zu viel Traffic produziert worden ist. Ärgerlich: Der hoster reagierte lange Zeit nicht auf meine Email-Anfragen. Aber nun scheint alles wieder in Ordnung zu sein.

Sorry, aber was ist das für ein Hoster?

Dem würd ich nen Arschtritt geben, so schnell könnte der nicht gucken, wie ich den gewechselt hätte ...... mad.gif
Top
PM
Top
 
jAuer
Jürgen Auer - freiberufl. Programmierer
#16 Geschrieben am: So 6.01.2008, 15:25 (+00:05)
Report PostQuote Post

AyomRank 9
Group Icon

Gruppe: Experten Entwicklung
Beiträge: 2206
Mitglied seit: 4.02.2006


QUOTE (sevenid @ So 6.01.2008, 14:54)
Problem gelöst: Es lag am Hoster. Der Google Boot wurde automatisiert ausgeschlossen, da zu viel Traffic produziert worden ist.

Also tatsächlich wie oben spekuliert.

Hat der Hoster (den man ja leicht rausfinden kann) dir das bestätigt?

In den dortigen AGB habe ich übrigens keinen entsprechenden Passus gefunden.

Ansonsten: Hoster wechseln.


--------------------
Web-Anwendung 3.0: Ein Online-Kalender für Termine vieler Filialen.

server-daten: Web-Datenbanken als Online - CRM - Lösung.
Konzentrieren Sie sich auf Ihr Kerngeschäft - nutzen Sie eine schlanke, schnelle Online-Datenbank von verschiedenen Standorten.
Top
PMEmail PosterUsers Website
Top
 
sevenid
#17 Geschrieben am: Do 10.01.2008, 09:55 (+3d 18:29)
Report PostQuote Post

AyomRank 4
********

Gruppe: Member (aktiv)
Beiträge: 168
Mitglied seit: 2.08.2007


der hoster rief mich an. sie können es sich nicht vorstellen, dass es an (kontent) liegen würde. Auf meine Nachfrage, ob ich denn der einzige betroffene gewesen wäre, meinten die, dass es noch 4 weitere Kunden gegeben hätte, die das selbige Problem hatten. Ah ja... Ich wechsel vorerst nicht (zu stressig bei derart vielen Domains). Bisher war ich ganz zu frieden. bei nächsten Mal werde ich jedoch konsequenter agieren.

Danke für eure Hinweise!!


--------------------
Top
PMEmail PosterUsers Website
Top
 
jAuer
Jürgen Auer - freiberufl. Programmierer
#18 Geschrieben am: Do 10.01.2008, 21:22 (+11:26)
Report PostQuote Post

AyomRank 9
Group Icon

Gruppe: Experten Entwicklung
Beiträge: 2206
Mitglied seit: 4.02.2006


QUOTE (sevenid @ Do 10.01.2008, 09:55)
der hoster rief mich an. sie können es sich nicht vorstellen, dass es an (kontent) liegen würde.

Die Frage ist noch, ob der Hoster selbst das Rechenzentrum betreibt, also auch für die gesamte Infrastruktur bis zur Anbindung an die 'großen Netze' verantwortlich ist oder nicht.

Es gibt ja genügend Hoster, die ihre eigenen Server in einem Rechenzentrum eines anderen Betreibers unterstellen. Prinzipiell kann dieser natürlich an den vorgeschalteten Coreroutern google-Anfragen ausfiltern - nicht fein, aber technisch denkbar.


--------------------
Web-Anwendung 3.0: Ein Online-Kalender für Termine vieler Filialen.

server-daten: Web-Datenbanken als Online - CRM - Lösung.
Konzentrieren Sie sich auf Ihr Kerngeschäft - nutzen Sie eine schlanke, schnelle Online-Datenbank von verschiedenen Standorten.
Top
PMEmail PosterUsers Website
Top
 
Thema wird von 0 Benutzer(n) gelesen (0 Gäste und 0 anonyme Benutzer)
0 Mitglieder:
Trackback-Url: http://www.ayom.com/track/t/22278

Topic Options Reply to this topicStart new topicStart Poll

 


> Ähnliche Themen
Seite seit einigen Tagen aus Google verschwunden 1A-webspace 153 5 Sa 6.09.2008, 16:29
Google Chrome Sacha 2306 98 Sa 6.09.2008, 15:58
Glaub-ich-nicht.de Hannes_W 322 11 Mo 1.09.2008, 14:50
Sehr unzufrieden mit Google Adwords PH 114 1 Mo 1.09.2008, 07:49
Google Suggest hatschi1810 120 4 So 31.08.2008, 20:48
CD-Laufwerk funktioniert nicht mehr LindaXtra 108 3 Sa 30.08.2008, 12:28
Google kann Hacken. Mark_L 270 5 Fr 29.08.2008, 17:35
Google Checkout Seth.Gecko 109 2 Fr 29.08.2008, 10:27




Anzeige - [Interessiert an einer Anzeige?]



Anzeigen


[Interessiert an einer Anzeige?]