Anzeige - [Hier werben / Mediadaten]
(?) Tags raten (?) (edit)
 
Reply to this topicStart new topicStart Poll
> Robots.txt
sd12
Geschrieben am: Mo 18.12.2006, 11:24
Report PostQuote Post

AyomRank 9
Group Icon

Gruppe: Moderatoren
Beiträge: 3581
Mitglied seit: 3.03.2004


Was robots.txt angeht, schaff ich es immer wieder, google ungewollt auszuschliessen...

So bin ich derzeit nicht mehr im google index und bei Technorati rausgefallen.

Nachdem ich das File gelöscht habe, bin ich bei Technorati wieder drinn, bei google dürfte es etwas länger dauern...

Wo ist hier der Hund begraben?
CODE
User-agent: ia_archiver
Disallow: /

User-agent: *
Allow: /


Ich will damit verhindern, dass die Seite bei archive.org auftaucht...


--------------------
************************
Treiber f[r das Kezboard ist [berfl[ssig.
Top
PMEmail PosterICQMSN
Top
 
 
Rainer
#2 Geschrieben am: Mo 18.12.2006, 11:50 (+00:25)
Report PostQuote Post

AyomRank 10
Group Icon

Gruppe: Moderatoren
Beiträge: 5272
Mitglied seit: 5.12.2003


Vielleicht hebt sich das bei dir gegenseitig auf.

Ich habe:

CODE
User-agent: ia_archiver
User-agent: psbot
User-agent: Googlebot-Image
Disallow: /

User-agent: *

Disallow: /url.php
Disallow: /grafiken/


Und es klappt einwandfrei. Es gibt nichts im IA Archiver zu schnüffeln, die Bilderdiebe verschonen mich auch und in den normalen Suchergebnissen sind meine Seiten drin.

Uberprüfe mal mit dem Robots.txt Checker deine robots.txt. Vielleicht hast du ein Return nicht richtig gemacht. Der Checker zeigt so etwas als Fehler an. Wie kleinlich da die Suchmaschinen sind weis ich nicht.


--------------------
Top
PM
Top
 
Duvi
#3 Geschrieben am: Mo 18.12.2006, 12:48 (+00:58)
Report PostQuote Post

AyomRank 5
**********

Gruppe: Member (aktiv)
Beiträge: 499
Mitglied seit: 4.10.2006


den zweiten teil mit "allow" kannst du auch weglassen.

"Hinter jeder Zeile, die mit Disallow: beginnt, können Sie jeweils eine Pfadangabe notieren. Die Robots werden diese Pfade auf Ihrer Seite dann nicht indizieren. Es besteht übrigens keine Möglichkeit, Verzeichnisse explizit für die Indizierung zu erlauben. Ein Schlüsselwort Allow: wurde niemals definiert."
aus: http://de.selfhtml.org/diverses/robots.htm

laut http://www.google.de/support/webmasters/bi...py?answer=40364 versteht google das zwar, aber wer weiss?!?!?
wenn schon "allow", dann würde ich zur sicherheit auch den user-agent googlebot angeben, da andere robots damit vielleicht nicht klar kommen.
und laut den beispielen auf dieser seite ist auch "allow:" richtig (ohne schrägstrich!)
Top
PMEmail Poster
Top
 
jAuer
Jürgen Auer - freiberufl. Programmierer
#4 Geschrieben am: Mo 18.12.2006, 14:47 (+01:58)
Report PostQuote Post

AyomRank 9
Group Icon

Gruppe: Experten Entwicklung
Beiträge: 2432
Mitglied seit: 4.02.2006


QUOTE (sd12 @ Mo 18.12.2006, 11:24)
Wo ist hier der Hund begraben?
CODE
User-agent: ia_archiver
Disallow: /

User-agent: *
Allow: /

google hält sich - nach meinen Beobachtungen - ziemlich streng an den Standard http://www.robotstxt.org/wc/norobots.html . Und dies ist ein Beispiel dafür:

QUOTE
Disallow
    The value of this field specifies a partial URL that is not to be visited. This can be a full path, or a partial path; any URL that starts with this value will not be retrieved. For example, Disallow: /help disallows both /help.html and /help/index.html, whereas Disallow: /help/ would disallow /help/index.html but allow /help.html.

    Any empty value, indicates that all URLs can be retrieved. At least one Disallow field needs to be present in a record (Hervorhebung von mir)


Bei dir fehlt dieses eine Disallow-Feld. Sprich: Füge ein

QUOTE
Disallow:
mit anschließendem Return dazu

Ich mache das seit jeher so, daß ich immer eine Zeile

QUOTE
Disallow: /temp/


hinzufüge, auch wenn es das Verzeichnis noch gar nicht gibt. Die Allow-Zeile ist - für google - schon ok. Allerdings muß jede Zeile durch ein Return abgeschlossen sein.


--------------------
Web-Anwendung 3.0: Ein Online-Kalender für Termine vieler Filialen.

server-daten - die Single-Data-Solution: Web-Datenbanken als Online - CRM - Lösung.
Ihre Geschäftsprozesse entscheiden, was Ihre Online-Datenbank macht. Sie konzentrieren sich auf Ihr Kerngeschäft - Ihre Datenbank funktioniert.
Top
PMEmail PosterUsers Website
Top
 
sd12
#5 Geschrieben am: Mo 18.12.2006, 22:01 (+07:13)
Report PostQuote Post

AyomRank 9
Group Icon

Gruppe: Moderatoren
Beiträge: 3581
Mitglied seit: 3.03.2004


Google kennt den Parameter Allow: offensichtlich nicht!

Soeben hab ich in der URL Konsole folgende Fehlermeldung von Google erhalten:
We cannot process robots.txt files that contain Allow: lines.


--------------------
************************
Treiber f[r das Kezboard ist [berfl[ssig.
Top
PMEmail PosterICQMSN
Top
 
jAuer
Jürgen Auer - freiberufl. Programmierer
#6 Geschrieben am: Mo 18.12.2006, 22:26 (+00:25)
Report PostQuote Post

AyomRank 9
Group Icon

Gruppe: Experten Entwicklung
Beiträge: 2432
Mitglied seit: 4.02.2006


QUOTE (sd12 @ Mo 18.12.2006, 22:01)
Google kennt den Parameter Allow: offensichtlich nicht!

Soeben hab ich in der URL Konsole folgende Fehlermeldung von Google erhalten:
We cannot process robots.txt files that contain Allow: lines.

Das Allow hatte google schon vor langer Zeit einmal eingeführt und das auch auf seiner Website so erläutert.

Es wird bsp. hier verwendet und da erläutert.

Wenn sich die Url-Konsole nun strikt an den Standard hält, dann ist das einerseits zu begrüßen. Andererseits sind ein paar dieser Wildcard-Erweiterungen auch nicht schlecht.


--------------------
Web-Anwendung 3.0: Ein Online-Kalender für Termine vieler Filialen.

server-daten - die Single-Data-Solution: Web-Datenbanken als Online - CRM - Lösung.
Ihre Geschäftsprozesse entscheiden, was Ihre Online-Datenbank macht. Sie konzentrieren sich auf Ihr Kerngeschäft - Ihre Datenbank funktioniert.
Top
PMEmail PosterUsers Website
Top
 
Thema wird von 0 Benutzer(n) gelesen (0 Gäste und 0 anonyme Benutzer)
0 Mitglieder:
Trackback-Url: http://www.ayom.com/track/t/15625

Topic Options Reply to this topicStart new topicStart Poll

 


> Ähnliche Themen
robots.txt Was bedeutet sie? Sancheck 242 4 Sa 28.06.2008, 17:26
robots.txt Frage Sandro Feuillet 234 2 Do 13.03.2008, 12:03
robots.txt wird von Google nicht gefunden sevenid 449 17 Do 10.01.2008, 21:22
robots.txt - Unterverzeichnis Felix Weber 536 6 Fr 21.09.2007, 20:02
robots.txt hk 333 2 Mi 8.08.2007, 19:29
Robots.txt Holger Klass 368 1 Mo 30.07.2007, 04:07
Wieviele Zugriffe auf die robots.txt? cusco_ii 265 3 Mo 30.07.2007, 03:21
robots.txt - alles sperren ausser eine Datei?! HPI-Service 480 4 Do 21.06.2007, 09:53
Backlinks auf robots.txt gesperrte URLs Holger Klass 340 2 So 10.06.2007, 18:27
Frage zu ROBOTS.TXT (revisit after...) Dominic 1371 4 Di 8.05.2007, 19:24




Anzeige - [Hier werben / Mediadaten]



Anzeigen


[Hier werben / Mediadaten]