Ignoriert auch Google robots.txt?

Sicherheit des Webservers, der Server und rund um phpBB
Antworten
Holger
Beiträge: 2253
Registriert: Mi 17.Mär, 2004 18:09

Ignoriert auch Google robots.txt?

Beitrag von Holger »

Ich habe in meiner robots.txt folgende Einträge:
User-agent: *
Disallow: /admin/
Disallow: /db/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /templates/
Disallow: /shoppen/
Disallow: /vykort/
Disallow: /config.php
Disallow: /profile.php
Disallow: /groupcp.php
Disallow: /memberlist.php
Disallow: /modcp.php
Disallow: /posting.php
Disallow: /privmsg.php
Disallow: /viewonline.php
Disallow: /viewtopic.php
Disallow: /faq.php
Disallow: /downloads.php
Disallow: /download.php
Disallow: /linkdb.php
Disallow: /adverts.php
Disallow: /album.php
Trotzdem sehe ich meinen Logs und Fehlermeldungsemails, dass ein GoogleBotCrawler sich an der modcp.php zu schaffen macht und nur mit einem Invalid Session zurückgewiesen wurde.

Gruss
Holger
Benutzeravatar
oxpus
Administrator
Beiträge: 28737
Registriert: Mo 27.Jan, 2003 22:13
Wohnort: Bad Wildungen
Kontaktdaten:

Beitrag von oxpus »

Ein Crawler muss sich nicht an die robots.txt halten, es ist nur schön, wenn er es tut!
Daher wird dieser es auch nicht getan haben ;)
Karsten Ude
-={ Das Mädchen für alles }=-
Kein Support per Messenger, Email oder PN! Unaufgeforderte Nachrichten werden ignoriert!
No support per Messenger, Email or PM. Each unasked message will be ignored!
Holger
Beiträge: 2253
Registriert: Mi 17.Mär, 2004 18:09

Beitrag von Holger »

Tja, und ich hielt Google für eines der letzten seriöseren Unternehmen ... böser Fehler!
Benutzeravatar
KeineAhnung
Beiträge: 349
Registriert: Di 29.Mai, 2007 17:35
Wohnort: NRW
Kontaktdaten:

Beitrag von KeineAhnung »

naja seriös bei dem datenschutz, und btw. nur weil google die seite aufruft heißt es ja ncith das er sie speichert...

http://www.google.de/search?&q=maskinis ... uche&meta=
JaneDoe
Beiträge: 230
Registriert: Sa 16.Jul, 2005 12:18

Beitrag von JaneDoe »

Kann man sich z.B bei den Google Webmaster Tools anzeigen lassen.
Dort sind alle per robots.txt verweigerten Urls fein aufgelistet.
Dieser Satz kein Verb.
Antworten