|

Servicios:
-
PageRank™
en tu web
-
AlexaRank™
en tu web
-
Ranking PageRank
-
Ranking Alexa Rank
Tutoriales:
-
Historia de Google
-
El PageRank™
de Google
-
Manual de Google Adsense™
-
Manual de Google Adwords™
-
YPN Yahoo Publisher Network
-
Evitar Penalizaciones
-
Optimizar Web para Búsqueda
-
Conseguir links para tu Web
-
Temáticas: Las más buscadas
-
Famosos: Los más buscados
-
Lista de Directorios
-
Diccionario de Publicidad
Recursos:
Chequear - Dominios
- Ranking de Tráfico
Alexa
- Dominios Disponibles
- Whois de Dominios
- Test de Pings
- Resolver IP
- Estado de Servidor
- Test de Velocidad
Buscadores
- Ver Backlinks
- Chequear Baneos
Google
- Predecir PageRank
- Keywords Sugeridas
- Links de
Popularidad
- Chequeador Multi-Rank
- Chequear PageRank
- Previa en
Buscadores
- Visor de Spiders
HTML
- Encriptar HTML
- Optimizar HTML
- Cabeceros HTTP
- Extractor de Links
- Extractor de Meta-tags
- Generador de Meta-tags
- Visor de Código
Varios
- Encriptador de
Links
- Encriptador md5
- Calculadora Online
- Detalles de su Navegador
Google:
-
¿Que es y como funciona?
-
¿Como ser encontrado?
-
¿Que es PageRank?
-
¿Que es Googlebot?
-
Trucos de Búsqueda
-
Curiosidades Google
-
Logos de
Google
-
Lo Mejor Pagado Adsense EN
-
Lo Mejor Pagado Adsense ES
-
Lo más buscado
Foros:
-
Dominios
-
Zona Comercial
-
Google
-
Cooperación entre Webs
Enlaces de Interés:
Añadir a Favoritos | | | | | | |
GOOGLEBOT: EL RASTREADOR WEB DE GOOGLE | |
Googlebot es el robot de rastreo web de
Google. También se denomina “spider” (araña). Recopila documentos de la
web para crear un índice en que se puedan realizar búsquedas (Google.com).
En este tema veremos las respuestas a las preguntas más frecuentes
acerca de cómo funciona este rastreador web.
-
¿Con qué frecuencia viene Googlebot a
mis páginas web?
En la mayoría de los sitios, Googlebot no debería acceder a su sitio
más de una media estimada de una vez al cabo de unos segundos. Sin
embargo, a causa de retrasos en la red, es posible que el porcentaje
parezca ligeramente superior en períodos cortos de tiempo
-
¿Cómo puedo solicitar que Google no
rastree mi sitio o una parte de él?
robots.txt es un documento estándar que notifica a Googlebot que no
debe descargar información total o parcialmente desde su servidor
web. El formato del archivo robots.txt está especificado en el Robot
Exclusion Standard. Para obtener instrucciones detalladas acerca de
cómo evitar que Googlebot realice el rastreo de todo su sitio o de
parte de éste, consulte la página Cómo eliminar elementos del índice
de Google. Recuerde que los cambios en el archivo robots.txt de su
servidor no se reflejarán inmediatamente en Google. Se detectarán y
propagarán la próxima ocasión que Googlebot rastree su sitio
-
Googlebot rastrea mi sitio demasiado
rápido. ¿Qué puedo hacer?
Ante esta situación, se debe enviar un mensaje a Google en el que
les indique la URL de su sitio y una descripción pormenorizada del
problema. Incluya también una parte del registro web que muestra los
accesos a Google.
-
¿Por qué Googlebot solicita un archivo
denominado robots.txt que no se encuentra en mi servidor?
robots.txt es un documento estándar que notifica a Googlebot que no
debe descargar información total o parcialmente desde su servidor
web. Para obtener información acerca de cómo crear un archivo
robots.txt, consulte el Robot Exclusion Standard. Si lo único que
quiere es evitar que aparezcan en el registro de su servidor web los
mensajes de error "no se ha encontrado el archivo", puede crear un
archivo vacío que se llame robots.txt.
-
¿Por qué Googlebot intenta descargar
vínculos incorrectos de mi servidor o de un servidor que no existe?
Es un hecho que muchos vínculos de la web estarán rotos u obsoletos
en un momento concreto. Cuando un usuario publica un vínculo
incorrecto hacia su sitio (debido quizá a un error tipográfico o de
ortografía) o no actualice sus vínculos para reflejar los cambios en
su servidor, Googlebot intentará descargar un vínculo incorrecto
desde su sitio. Ésta es la razón por la cual puede obtener
resultados en una máquina que no es un servidor web.
-
¿Por qué Googlebot descarga
información de nuestro servidor web "secreto"?
Es casi imposible mantener un servidor web "secreto" no publicando
vínculos hacia él. Cuando un usuario sigue un vínculo desde su
servidor "secreto" a otro servidor web, es probable que su URL
"secreta" se incluya en el código de referencia, por lo que podrá
ser almacenada y posiblemente publicada por el otro servidor web en
su registro de referencia. Por lo tanto, si existe un vínculo a su
servidor o página web "secretos" en cualquier lugar de la web, es
probable que Googlebot y otros rastreadores web lo encuentren.
-
¿Por qué Googlebot no obedece a mi
archivo robots.txt?
Para ahorrar ancho de banda, Googlebot sólo descarga el archivo
robots.txt una vez al día o cuando han recogido un número importante
de páginas del servidor. Por lo tanto, es posible que a Googlebot le
lleve un tiempo ponerse al corriente de los cambios en su archivo
robots.txt. Además, Googlebot se encuentra distribuido en varias
máquinas, cada una de las cuales mantiene un registro propio de su
archivo robots.txt.
Siempre sugerimos que se compruebe si la sintaxis es correcta,
comparándolo con el estándar en http://www.robotstxt.org/wc/exclusion.html#robotstxt.
Una fuente habitual de problemas es que el archivo robots.txt no
está ubicado en el directorio principal del servidor (por ejemplo,
www.mihost.com/robots.txt); situar el archivo en un subdirectorio no
tendrá ningún efecto.
Igualmente, existe una pequeña diferencia entre la manera en que
Googlebot utiliza el archivo robots.txt y la manera en que se
debería utilizar según el estándar robots.txt (sin olvidar la
distinción entre "debería" y "debe"). El estándar indica que
deberíamos utilizar la primera regla aplicable, pero Googlebot
obedece a la más larga (es decir, la más específica). Esta práctica
que resulta más intuitiva hace coincidir lo que las personas hacen
en realidad con lo que esperan que hagamos. Por ejemplo, tenga en
cuenta el siguiente archivo robots.txt:
User-Agent: *
Allow: /
Disallow: /cgi-bin
Es evidente que la intención del webmaster es permitir que los
robots rastreen todo excepto el directorio /cgi-bin. En
consecuencia, es lo que en Google hacen.
-
¿Por qué se producen resultados desde
varias máquinas en Google.com, todas con el agente usuario Googlebot?
Googlebot se ha diseñado para distribuirse en varias máquinas para
mejorar el rendimiento y adaptarse al crecimiento de la web. Además,
para reducir el uso de ancho de banda, ejecutan varios rastreadores
en máquinas situadas cerca de los sitios que están indexando en la
red.
-
¿Pueden facilitarme las direcciones IP
desde las que Googlebot realiza los rastreos para que pueda filtrar
mis registros?
Las direcciones IP utilizadas por Googlebot cambian de vez en
cuando. La mejor manera de identificar los accesos de Googlebot es
utilizar el agente usuario (Googlebot).
-
¿Por qué descarga Googlebot en mi
sitio la misma página varias veces?
En general, Googlebot deberá descargar únicamente una copia de cada
uno de los archivos de su sitio en un rastreo dado. De manera
ocasional, el rastreador se detiene y se reinicia, lo que puede
provocar que realice el rastreo de páginas que ha recuperado
recientemente.
-
¿Por qué las páginas de mi sitio que
ha rastreado Googlebot no aparecen en su índice?
No se preocupe si no puede encontrar inmediatamente documentos que
Googlebot ha rastreado en el motor de búsqueda de Google. Los
documentos se introducen en nuestro índice poco después de haber
sido rastreados. En ocasiones, los documentos obtenidos por
Googlebot no se incluyen por diversas razones (por ejemplo, por
parecer duplicados de otras páginas de la web).
-
¿Qué tipo de vínculos rastrea
Googlebot?
Googlebot rastrea los vínculos HREF y SRC.
-
¿Cómo puedo evitar que Googlebot
rastree los vínculos de mis páginas?
Para evitar que Googlebot rastree vínculos de sus páginas que
enlazan con otras páginas o documentos, deberá insertar el siguiente
metacódigo en la cabecera de su documento HTML:
<META NAME="Googlebot" CONTENT="nofollow">
Si desea obtener más información acerca de los metacódigos, consulte
http://www.robotstxt.org/wc/exclusion.html#meta; también puede leer
lo que indican los estándares HTML al respecto. Recuerde que los
cambios que aplique en su sitio no se reflejarán inmediatamente en
Google, sino que se detectarán y propagarán la próxima ocasión que
Googlebot rastree su sitio.
-
¿Cómo le especifico a Googlebot que no
rastree un vínculo que aparece solo en una página?
Los metacódigos pueden excluir todos los vínculos salientes de una
página, pero también puede indicar a Googlebot que no rastree los
vínculos individuales añadiendo rel="nofollow" a un hipervínculo.
Cuando Google detecte el atributo rel="nofollow" en algún
hipervínculo, éste se omitirá en la clasificación de sitios web en
nuestros resultados de búsqueda. Por ejemplo, el vínculo
<a href=http://www.ejemplo.com/>¡Un vínculo excepcional!</a>
se podría sustituir por
<a href=http://www.ejemplo.com/ rel="nofollow"> No puedo responder
por este vínculo</a>.
|
|
|