Este es el robot que utiliza el Engine Google para poder segirle la pista a los webs, detectar los cambios que estos han tenido e indexar el nuevo material. Verifica tanto html com material multimedia y extrae de ellos toda la información necearia para catalogar los contenidos de las paginas. El bot de Google revisa las páginas periodicamente y la frecuencia tiene relación directa con el págerank de una página. Entre mas voluminoso sea un sitio web mas frecuentemente el bot revisara la web. Para reconocer cuanod este revisa nuestro sitio debemos revisar los logs de acceso y ver las drecciones web de los vistantes y buscar cualquira de las siguientes:
SERVIDOR
DIRECCION IP
crawl1.googlebot.com
216.239.46.20
crawl2.googlebot.com
216.239.46.39
crawl3.googlebot.com
216.239.46.61
crawl4.googlebot.com
216.239.46.82
...
...
crawl9.googlebot.com
216.239.46.234
crawler1.googlebot.com
64.68.86.9
crawler2.googlebot.com
64.68.86.55
...
...
crawler14.googlebot.com
64.68.82.138
Para controlar la forma que los robots acceden tu web debes editar un archivo txt llamado robots.txt y colcarlo en el root de tu sitio los parametros de cofiguración los pedes encontrar en : www.robotstxt.org.
Existe además de Googlebot existe otro llamado Freshbot que se encarga de rastrear noticias recientes e indexarlas.
No hay comentarios:
Publicar un comentario