Записи Друзья Комментарии

Weiss Matthiesen Weiss Matthiesen

Аватар Weiss_Matthiesen

-Поиск по дневнику

-Подписка по e-mail

-Статистика

Создан: 26.04.2020
Записей:
Комментариев:
Написано: 200

Отчеты:
Посетители
Поисковые фразы

Errores y soluciones al configurar el fichero robots.txt

Понедельник, 01 Июня 2020 г. 23:43 + в цитатник

Google aconseja eo el sitemap (por poner un ejemplo en formato xml) para
hacer un mejor rastreo de la informaciónque compone nuestros sitios. Esto teóricamente les facilita bastante la vida pues “guía” a sus
arañas o bien robotsrastreadores hasta el contenido relevante en un tiempo más reducido que si únicamente siguiesen enlaces o bien si tuvieran que determinar de forma autónoma qué contenido no debe ser indexado. Hasta aquí todo bien.

En la práctica la verdad es que
no es extraño encontrarse con Google saltándose a la torera el contenido de un fichero robots.txt, indexando páginas y archivos en él contenidos, de la misma manera que son ignoradas de forma casi aleatoria las metaetiquetas robots que incluimos en el código de nuestras páginas. publicidad en google adwords y en todo momento, pero más con frecuencia de lo que debería (que debería ser “nunca”). Dicho esto, habrá que conformarse con las herramientas que tenemos y aprender a manejarlas mejor.

Y es que a veces
se configura incorrectamente el fichero robotsporque damos por supuestas ciertas cosas, aguardamos que con este artículo se aclaren ciertos conceptos importantes que a menudo afectan al tratamiento que Google hace de nuestros sitios. Empezaremos por lo más sencillo…

Configuración básica de robots.txt

El renombrado “robots” es un fichero en formato .TXT que
podemos crear y editar con un simple bloc de notas o bien editor de textobásico (wordpad, notepad). Una vez creado habrá que darle ese nombre concreto (robots.txt) y colgarlo en el directorio raíz de nuestro sitio web, puesto que es el único sitio donde lo podrán hallar sin problemas los buscadores. La
configuración básica del ficheros robotses bastante sencilla, incluye únicamente dos parámetros: el robot al que nos dirigimos, y una instrucción dándole o bien quitándole permiso para indexar algo (un fichero, una carpetita, todo, nada).

En otras palabras, se trata de decirle a cada Bot (una especie de rastreadores – arañas – que Google tiene bullendo por los millones de páginas web que existen para estar al día de su contenido y poder mostrarlo apropiadamente en los resultados de búsqueda) a qué información expresamente puede (o NO puede) acceder para leer y también indexar dicha información. Ni que decir tiene que, por defecto, si no se le dice nada Google devorará toda la información a su paso y la incluirá en su mastodóntico índice de contenidos web.

Un
ejemplo fácil y básicodel contenido de un archivo robots.txt sería el siguiente:

Como puede apreciarse, primero se define el “user-agent” o bien Bot al que se dirige la orden (bien el de Google web search, o bien Google Images, o Bing…) y después qué páginas han de ser ignoradas (con el comando
Disallow) o bien explícitamente indizadas (
Allow). En un caso así se dice que para todos y cada uno de los robots (con un asterisco) deberán ignorarse -no indexarse- todas y cada una de las páginas (con la barra “del siete”, así sin nada más detrás, le hacemos ver que es una orden para todo el directorio raíz).

Con este caso de ejemplo le estaremos diciendo al robot de
Bingque no rastree nada de nuestro lugar. Por omisión, el resto de robots incluyendo el de Google podrán rastrear y también indexar todo el contenido de nuestro sitio.

Un pasito más: le hemos dicho a
Bingque no indexe la carpetita “documentos”. En un caso así
Googleindexará por omisión todo el contenido del lugar, al paso que Bing indexará todo salvo el contenido de la carpeta “documentos”. De esta forma queda claro que, para
definir una carpetita en el robots, hay que poner (tras la barra inicial que irá siempre) su nombre más una barra adicional al final.

Con este robots.txt estamos diciéndole a todos y cada uno de los robots que no indexen 3
páginas en concreto: “pagina1.html”, “pagina2.php” y “pagina3.html” que se encuentra en la carpetita documentos.

Hemos introducido el comando “
Allow” cuya función es la inversa al “Disallow” pero hemos quitado la barra “/” siguiente, así que le decimos que
SÍ puede indexar NADA. A primera vista parece que esto debería funcionar precisamente igual que un “Disallow: /” impidiendo la indexación del sitio al completo, pero en realidad no es así.

Estamos ante
uno de los fallos más susceptibles de ser cometidosa la hora de configurar el fichero robots, porque hay que tener en consideración ciertas consideraciones importantes en relación al
comando “Allow”que es bastante puñetero:

Sólo tiene sentido cuando se acompaña de un “Disallow”: se trata de una orden no restrictiva, así que cuando va “solo” no es aplicable. Esto es, por defecto Google puede indexar todo, así que si únicamente se le dice qué SÍ puede indexar, le dará igual, seguirá indexando todo. Incluso en el caso del ejemplo anterior, donde se le dice que SÍ puede indexar NADA, pasará de la orden y seguirá indexando todo.
Cuidadocon esto.

En la
teoríalas reglas se aplican en orden, a partir de la primera, con lo que
los “Allow”, siendo salvedades a los “Disallow”, deberían ir primero. Si bien en la práctica los primordiales buscadores web lo interpretarán bien aunque no lo hagas así.

El comando
“Allow” no es parte oficial del estándar, si bien Google y el resto de “los grandes” lo soportan con perfección, para determinados robots puede llegar a ser aun problemático.

Dudas frecuentes con el fichero robots: configuraciones avanzadas

Hasta aquí parece fácil mas con el trastear continuo en el tiempo te van haciendo falta nuevas configuraciones y empiezan a surgir las dudas,
¿qué se puede hacer con el archivo robots?. Ahí van ciertas dudas que me ha tocado experimentar, bien en primera persona o bien a través de preguntas usuales con las que me he encontrado de compañeros del marketing online:

¿Qué pasa cuando la URL de la página termina con una barra “/”?

A menudo sucede, singularmente en sitios web montados sobre plataformas como
WordPress, que puede haber una página en nuestro lugar con esta estructura en su URL: “
midominio.com/servicios/“. En un caso así dicha URL es una página donde se muestran los servicios de una compañía, aunque posiblemente por debajo de ella existan páginas del tipo “
midominio.com/servicios/nombre-servicio1” o bien afín. Mas ¿cómo le decimos al robots
que excluya únicamente la página superior, sin que por ello “cape” todas las que están por debajo? La tentación sería:

Pero como ya hemos dicho, en este caso el robot entenderá que la orden afecta a
toda esa carpetita o directorio. Pero no es eso lo que deseamos! Para decirle a los robots que sólo nos referimos a esa página específica, tendremos que emplear el
operador dólar (“< por ciento -body() por cien >#8221;)que sirve para detallar el
final de la URL. Así:

De esta forma le afirmamos al robot que
no indexe las URLs que terminen exactamente de esa forma, siendo la única URL de ese tipo la que deseamos desindexar precisamente. Y esto nos conduce al empleo de expresiones regulares en robots.txt…

Usos de operadores en robots.txt (dólar y asterisco)

Aunque el ejemplo precedente nos sirve para explicar el uso del “< por cien -body() por ciento >#8221; en el robots, lo cierto es que para sacarle el mayor jugo ha de
emplearse al lado del asterisco“*”. Este último funciona como un
comodín, sirve para decir “sustituyo a cualquiera cosa que pueda ir en mi lugar”. Mejor verlo con un ejemplo:

Ya hemos explicado que el dólar sirve para decirle que ahí acaba la URL, que no puede llevar nada más por detrás aquello que deseemos aplicarle el “allow” o bien el “disallow”.

En el caso del asterisco le estamos diciendo que
puede reemplazarlo con lo que quiera, siempre que vaya seguido de “.htm”. O sea, puede haber varios niveles de carpeta por medio (por ejemplo “
/carpeta/subcarpeta/pagina.htm” también sería excluído).

De esta forma en el ejemplo le decimos a todos y cada uno de los robots que no indexen ningún archivo .
HTMsi bien les dejamos, a través del dólar, que indexen por servirnos de un ejemplo todos y cada uno de los archivos con extensión .
HTML. Esto nos conduce a otra cuestión recurrente…

¿Cómo eludir la indexación de URLs con parámetros?

A menudo nuestro Content Management System nos produce
rutas con parámetroscomo “
midominio.com/index.php?user=1” que queremos no sean indexadas al poder incurrir en duplicidad de contenidos. Siguiendo el patrón precedente y sabiendo que los parámetros vienen antecedidos de una interrogación, habría que aplicar algo como esto:

Así le afirmamos que no indexe todo cuanto empiece por “lo que sea” pero que entonces tenga una interrogación, seguido de lo que sea. Seguro que alguno se ha perdido en este último paso, que tendría la tentación de haber puesto “Disallow: /*?*” para cerciorarse de que después de la interrogación va algo más, los parámetros. Pues no, resulta que
este tipo de expresiones regulares suponen por defecto que, tras lo que le decimos, puede ir cualquier cosa. De ahí que cuando decimos “Disallow: /servicios/” el robot entiende que todo lo que vaya por detrás (ej: /servicios/auditoria) tampoco lo indexará, pues responde al patrón definido.

Pero cuidado pues esto es peligrosísimo!! Un ejemplo lo tenemos a continuación:

¿Qué pasa cuando la URL de la página no tiene extensión (ej: no acaba en “.html”)?

Pongamos que existe una página que no queremos indexar cuya URL es precisamente ésta: “/servicio”. Podríamos caer en el que probablemente sea
el mayor fallo cometido con el empleo del fichero robots.txta nivel mundial! :O

Algún listo dirá:
Así no, eso sirve para capar la carpetita “servicio” entera.

Pues tampoco exactamente. En realidad, como ya hemos explicado ya antes,
el robot va a entender que detrás de eso puede ir cualquier cosa, esto es, va a excluir páginas como:

/servicio

/servicios

/servicio-auditoria

/servicio-consultoria/

/servicio-consutoria/digital.html

/serviciosweb/seo/yandex.php

etc.

Entonces,
¿cómo excluyo esa página que no tiene extensión?Así:

De esta forma acotamos dónde acaba la URL, evitando este
super-inconveniente que por norma general se pasa por altoal formular los archivos robots.

¿Hay que poner una barra “/” después del nombre de la carpetita? ¿Qué pasa si no la pongo?

Esto ha quedado explicado con el punto anterior: si no se pone barra, el robots estará excluyendo todo cuanto empiece de esa forma, corresponda en concreto o bien no a dicho subdirectorio.

¿Pueden incluirse comandos Disallow y Allow en exactamente el mismo robots? posicionamiento seo rapido /h3>
Así es. De hecho su
combinaciónpuede ser una forma de definir mejor qué cosas se deben indexar y cuáles no para una determinada carpetita (o para todo el lugar). Un ejemplo…

De esta forma le estaríamos diciendo que
SÍ indexela página general de servicios (“midominio.com/servicios/”) pero
NO indexelas páginas sucesivas con los servicios concretos (“midominio.com/servicios/auditoria”+”midominio.com/servicios/consultoria”+etc.).

Lo ideal es
usar primero el “Allow” que no es restrictivo(por defecto se entiende como tolerado indexar todo), para más tarde incluir el “Disallow”. De este modo se facilita el trabajo a los robots más “torpes”.

¿Cómo se tratan las mayúsculas y minúsculas?

Hay que tener en consideración que
se distingue entre mayúsculas y minúsculas, en este caso no sirve usar siempre minúsculas. O sea, un comando tipo “Disallow: /pagina.html” sí permitiría que se indexase la página “
midominio.com/Pagina.html“.

¿Cómo configurar robots.txt para WP?

A pesar de que
WordPress es una plataforma muy extendiday Google cada vez entiende mejor qué tiene que indexar y qué no, en la práctica siempre y en todo momento se cuelan cosas que “empañan” la calidad de la información indizada de nuestro sitio. empresa de posicionamiento sem la estructura de WordPress es común a todas las instalaciones, puede definirse un
robots tipo para WordPresscon las carpetitas donde el buscador no debería meter las narices. Téngase en cuenta que esto son unos mínimos, a nada que tiremos de plantillas, complementos y personalizaciones, habrá otras nuevas carpetitas que deberemos “capar”:

Así se excluye la posible
indexación de carpetas de sistema y archivoscon extensiones que no interesa indexar. Manéjese de manera cuidadosa. En verdad lo MUY recomendable es
que cada uno personalice su fichero robots.txten función del contenido y configuración de su sitio web, ya sea bajo un CMS de código abierto como WP o cualquier otra plataforma.

Otras consideraciones: meta robots y sitemap

Recordar que
además del robots.txtes posible detallar la conveniencia o bien no de indexar una página a través de la
meta-etiqueta “robots”que puede ser incluida a nivel individual para cada una de las páginas del lugar. Simplemente se trataría de incluir algo afín a esto en el
<head>para cada caso:

<meta name=”robots” content=”noindex”>

Como por defecto todo es indexable, la etiqueta tiene más sentido cuando usamos el comando
“noindex”, pese a que también se puede detallar “index”.

En cuanto al
sitemap, 2 consideraciones:

Es posible
incluir en el archivo robots.txt la senda donde se encuentrael/los sitemap(s) del sitio, sería cuestión de añadir una línea tal que así: “
Sitemap: /sitemap.xml” (o donde quiera que se halle tu sitemap).

Incluir un sitemap para nuestro sitio no es restrictivo, o sea,
Google va a indexar todo cuanto pueda, con independencia de que esté en tu sitemap o bien no. Con él únicamente le asistimos a descubrir las páginas, los medios a fin de que no las indexe son los anteriormente expuestos.

Los bots de Google

Como ya se ha dejado entrever antes,
existen diferentes Bots/ Robots / Crawlers / Arañas que se pasan las horas fallecidas dando vueltas por la red de redes tragando información como locos. Por ser prácticos y puesto que
Googlese lleva como un noventa y siete por ciento de las búsquedas estatales, vamos a especificar losy para qué sirven:

Googlebot: Es el bot “general” de Google, así que servirá para restringir todos los demás. O sea, si nos limitamos a limitar a Googlebot vamos a estar limitando a Googlebot-News, Googlebot-Image, Googlebot-Video y Googlebot-Mobile.

Googlebot-News: Ayuda a limitar el acceso a las páginas o posts para su indexación en Google News. A colación de lo anterior, restringir a Googlebot supone no aparecer ni en la búsqueda de Google ni en Google News. Si sólo queremos aparecer en Google News habría que definir algo tal que así:
```
User-agent: GooglebotDisallow: /User-agent: Googlebot-NewsDisallow:
```

Googlebot-Image: Servirá para acotar el acceso a carpetas donde se contengan imágenes que no queremos sean indizadas. Ejemplo:
```
User-agent: Googlebot-ImageDisallow: /fotos-verano/
```

Googlebot-Video: Lo mismo que lo precedente mas aplicado a la restricción para indexar vídeos.

Googlebot-Mobile: Aunque hay bastante controversia y misticismo, se supone que administra el contenido indexable para enseñar en búsquedas desde dispositivos móviles. Se supone.

Mediapartners-Google: Especifica las páginas que deben ser tenidas en cuenta por la parte de Google en el momento de enseñar propaganda de su red, mas sin afectar a su indexabilidad. Por servirnos de un ejemplo con este robots.txt se podrían enseñar anuncios de Adsense en nuestro sitio, pese a que éste no estaría indizado por Google:
```
User-agent: GooglebotDisallow: /User-agent: Mediapartners-GoogleDisallow:
```

Adsbot-Google: Administra el acceso para el robot de Adwords encargado de valorar la calidad de la página de destino.

Tan importante como lograr un alto ritmo de indexación, con los robots de Google visitando recurrentemente nuestros sitios más actualizados, será intentar que no se indexe información privada o contenido que pueda considerarse duplicado, entre otros casos. Así que habrá que preocuparse en configurar el archivo robots.txt, las “meta robots” si fuera preciso, comunicarse con Google a través de Webmaster Tools, y todo lo que está en nuestras manos. A partir de ahí toca orar! XD