Seite 1 von 1

Ignoriert auch Google robots.txt?

Verfasst: Mi 05.Mär, 2008 13:59
von Holger
Ich habe in meiner robots.txt folgende Einträge:
User-agent: *
Disallow: /admin/
Disallow: /db/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /templates/
Disallow: /shoppen/
Disallow: /vykort/
Disallow: /config.php
Disallow: /profile.php
Disallow: /groupcp.php
Disallow: /memberlist.php
Disallow: /modcp.php
Disallow: /posting.php
Disallow: /privmsg.php
Disallow: /viewonline.php
Disallow: /viewtopic.php
Disallow: /faq.php
Disallow: /downloads.php
Disallow: /download.php
Disallow: /linkdb.php
Disallow: /adverts.php
Disallow: /album.php
Trotzdem sehe ich meinen Logs und Fehlermeldungsemails, dass ein GoogleBotCrawler sich an der modcp.php zu schaffen macht und nur mit einem Invalid Session zurückgewiesen wurde.

Gruss
Holger

Verfasst: Mi 05.Mär, 2008 15:37
von oxpus
Ein Crawler muss sich nicht an die robots.txt halten, es ist nur schön, wenn er es tut!
Daher wird dieser es auch nicht getan haben ;)

Verfasst: Mi 05.Mär, 2008 15:46
von Holger
Tja, und ich hielt Google für eines der letzten seriöseren Unternehmen ... böser Fehler!

Verfasst: Mi 05.Mär, 2008 16:47
von KeineAhnung
naja seriös bei dem datenschutz, und btw. nur weil google die seite aufruft heißt es ja ncith das er sie speichert...

http://www.google.de/search?&q=maskinis ... uche&meta=

Verfasst: Mi 05.Mär, 2008 18:05
von JaneDoe
Kann man sich z.B bei den Google Webmaster Tools anzeigen lassen.
Dort sind alle per robots.txt verweigerten Urls fein aufgelistet.