Записи Друзья Комментарии

Lomholt Tuttle Lomholt Tuttle

Аватар Lomholt_Tuttle

-Поиск по дневнику

-Подписка по e-mail

-Статистика

Создан: 24.04.2020
Записей:
Комментариев:
Написано: 207

Отчеты:
Посетители
Поисковые фразы

Archivo ROBOTS.txt, Qué es y Cómo Crearlo e Indexarlo 🤖

Воскресенье, 31 Мая 2020 г. 07:46 + в цитатник

El archivo
robots.txtes un archivo de texto que dicta unas
recomendaciones de indexacióny de comportamiento para los
crawlerso los
robots de los motores de búsqueda(¡ojo! recomendaciones, no obligaciones). Estos crawlers desean
indexar toda la información posible, así que cuando llegan a tu página web lo rastrean todo.

El inconveniente brota cuando quieres eludir que ciertas páginas se incluyan en sus índices, ¿Qué haces entonces? Tienes dos opciones. La primera es
usar una etiqueta singular en todos y cada página(véase Meta Robots) o utilizar un
archivo centralizado para supervisar la entrada. Esta última opción es la de robots.txt que es la que veremos en profundidad.

Qué es un fichero robots.txt

El
Protocolo de Exclusión de Robotso Robots Exclusion Protocol o REP es una serie de estándares web que
regulan el comportamiento de los robotsy la
indexación de los motores de búsqueda. El REP consiste en lo siguiente:

El REP original data dey fue extendido en, definiendo las indicaciones de rastreo del robots.txt. Ciertas motores de búsqueda aguantan extensiones como los patrones URI (wild cards).

Ense definen las directrices de indexación (etiquetas REP) para su uso en los elementos meta de los robots, también conocidos como
etiqueta meta robots. Los motores de búsqueda también admiten etiquetas REP adicionales con la «X-Robots-Tag». Los webmasters pueden implementar estas etiquetas REP en la cabecera HTTP de los recursos que no sean HTML como documentos PDF o imágenes.

El microformato «rel-nofollow» aparece enpara definir cómo los motores de búsqueda deben manejar los links donde hay uncontiene el valor «nofollow».

Etiquetas de exclusión de robots

Si hablamos de una, las etiquetas REP (noindex, nofollow, unavailable_after) dirigen ciertas labores de los indexadores y en ciertos casos (nosnippet, noarchive, NOODP) incluso motores de consultas en el monento de la ejecución de una consulta de búsqueda. Además de las indicaciones para los rastreadores, cada motor de búsqueda interpreta estas etiquetas REP de forma diferente.

Por ejemplo, Google suprime los listados de URLs únicas y referencias OPD de suscuando un recurso está etiquetado con «noindex», no obstante Bing muestra esas referencias externas a direcciones URL como prohibidas en sus resultados de búsqueda. Como las etiquetas REP pueden ser implementadas en los elementos META de contenidos X/HTML, así como en las cabeceras HTTP de cualquier objeto web, el consenso es que contenidos con la etiqueta «X-Robots-Tags» deberían inutilizar o cancelar las directrices en enfrentamiento que se encuentren en los elementos META.ç

Las indicaciones de los indexadores incorporadas como
microformatosinvalidarán la configuración de página para ciertos elementos HTML. Por poner un ejemplo, cuando la etiqueta «X-Robots-Tag» de una página afirma «follow» (no hay valor «nofollow»), la indicación
rel-nofollowde un elemento A (enlace) se sobrepone.

Aunque robots.txt carece de directrices para indexadores, es posible establecer estas indicaciones para grupos de URIs con el scripts en el servidor actuando al mismo nivel web que apliquan a «X-Robots-Tags» para pedir recursos. Este método requiere conocimientos de programación y una buena comprensión de los servidores web y el protocolo HTTP.

Google y Bing tanto entienden 2 expresiones regulares que se pueden emplear para identificar las páginas o subcarpetas que unquiere excluir de su página web. Estos 2 caracteres son el asterisco (*) y el signo de dólar ($ ).

* – Que es un comodín que representa cualquier secuencia de caracteres

$ – Que coincide con el final de la URL

El fichero robots.txt es público. Cualquiera puede ver qué secciones ha bloqueado un webmaster de su servidor (mira mi). Esto quiere decir que si un posicionamiento web en buscadores tiene información de usuario privada a la que no quiere dejar acceder a nadie (y menos públicamente), debe usar un método más seguro como la protección con contraseña para mantener a raya a los curiosos que deseen ver qué páginas reservados no quiere que se indexen.

Para qué sirve un fichero robots.txt

Como ya sabrás, los robots o bien arañas son unos programas que emplean los motores de búsqueda para
rastrear la web. Cuando llegan a tu página web, lo primero que hacen es buscar el archivo robots.txt y dependiendo de lo que afirme en él, continúan en tu página web o se marchan a otra. Puedes comprender el fichero robots.txt como una lista de robots no admitidos, la que te
permite restringir el acceso a tu página web selectivamente. Si hay páginas que prefieres sostener fuera del alcance de los motores de búsqueda, puedes configurarlo aquí, y si hay un buscador al que deseas rechazar el acceso, también.

Más específicamente, puedes utilizar el archivo robots.txt para lo siguiente:

Evitar que ciertas páginas y directorios de tu página web sean alcanzables a los buscadores

Bloquear el acceso a archivos de código o utilidades

Impedir la indexación de contenido duplicado en tu sitio, como copias de prueba o versiones para imprimir

Indicar la localización delo mapa del sitio en XML

No obstante, hay un par de cosas que debes tener en consideración sobre robots.txt:

Algunos robots pueden
ignorarlas instrucciones contenidas en este fichero, especialmente robots maliciosos o bien malware

El archivo es público, lo que quiere decir que cualquiera puede verlo con sólo teclear /robots.txt

Por tanto, si piensas emplear robots.txt para ocultar información privada, precisas buscar otra opción alternativa.

Cómo generar el archivo robots.txt

Lo primero que necesitas saber sobre el archivo robots.txt es que
no es obligatorio. Sólo precisas crearlo cuando deseas impedir que ciertas páginas o directorios de tu lugar aparezcan en los resultados de búsqueda. Producir el fichero es sencillísimo, es suficiente con crear un documento de texto con el nombre “robots.txt” y subirlo a la raiz de tu dominio (/robots.txt), que es el sitio donde los los buscadores web esperan hallarlo.

Lo más fácil es crearlo a mano, a través de el bloc de notas o bien cualquier aplicación afín, si bien si eres de los que prefiere herramientas, la de SeoBook cumple con su cometido.

Un fichero robots.txt básico puede ser:

Lo que hacen estas instrucciones es denegar el acceso al directorio “privado” a todos y cada uno de los motores de búsqueda. Para ello, primero se señala que la orden va dirigida a todos los robots (User-agent: *) y por último se especifica el directorio desacreditado (Disallow: /privado/).

Los comandos que utiliza el fichero robots.txt vienen del llamado Robots Exclusion Protocol, un convenio universal cuya sintaxis debes seguir:

Sólo puedes usar los comandos tolerados (si bien ciertos buscadores web comprenden comandos adicionales)

Debes respetar las mayúsculas/minúsculas, la puntuación y los espacios

Cada conjunto User-agent/Disallow he de estar separado por una línea en blanco

Puedes incluir comentarios a través de la almohadilla o símbolo de hash (#)

Los comandos más esenciales son:

User-agent: Indica qué género de robot debe cumplir con las directivas que se indiquen a continuación.

Disallow: Rechaza el acceso a un directorio o página concreta.

Allow: Funciona al revés que la directiva Disallow, permitiendo el acceso a directorios y páginas. Se puede usar para sobrescribir la directiva Disallow parcial o bien completamente.

Sitemap: Apuntar la senda donde se halla un mapa del sitio en XML.

Crawl-delay: Indica al robot el número de segundos que debe esperar entre cada página. Puede ser útil en casos en los que se necesita reducir la carga del servidor.

Adicionalmente, como comentaba más arriba, puedes emplear dos caracteres para aumentar o bien reducir la concordancia:

Asterisco(*): Vale por una secuencia cualquiera de caracteres. Por ejemplo, todos los directorios que empiezan por “privado” serían “/privado*/”

Dólar( dólares americanos ): Indica el final de una URL. Por servirnos de un ejemplo, para indicar cualquier archivo que acabe con la extensión .php se utilizaría “/*.php$ ”.

Restricciones más comunes

Con los comandos y comodines se puede crear todo género de restricciones. No obstante, no es buena idea ser creativo con el fichero de robots, en tanto que puedes terminar bloqueando algo que no quieres.

En este sentido, es mejor ceñirse a las restricciones más comunes, como son:

Incluir todos y cada uno de los robots – Usuario-agent: *

Especificar el robot de Google – User-agent: Googlebot

Especificar el robot de Bing – Usuario-agent: Bingbot

Denegar todo el lugar – Disallow: /

Denegar un directorio – Disallow: /directorio/

Denegar directorios que comienzan por “algo” – Disallow: /algo*/

Denegar una página – Disallow: /pagina-web.htm

Denegar directorios y páginas que comienzan por “algo” – Disallow: /algo

Denegar la extensión .gif – Disallow: /*.gif$

Permitir un subdirectorio – Allow: /directorio/subdirectorio/

Señalar el mapa del lugar – Sitemap: /sitemap.xml

Un ejemplo de robots.txt para WordPress

Para ayudarte a comprender mejor el funcionamiento del archivo robots.txt me gustaría enseñarte un caso real. Se trata del mismo fichero que utilizo en este blog, de ahí que sea un ejemplo orientado a WordPress.

No obstante, has de saber que este archivo quizá NO sea ideal para tí a pesar de emplear WordPress. Según el caso, es posible que necesites añadir restricciones, quitarlas, o usar la etiqueta meta robots. No hay un archivo robots.txt universal, tenlo en cuenta.

Recientemente he actualizado mi archivo robots.txt como prosigue (sin los números de línea):

Ahora me gustaría explicarte cada línea:

Línea 1 – Declaro que las instrucciones que vienen a continuación son para los robots de cualquier buscador.

Línea dos – Deniego el acceso a todos directorios y páginas que empiezan por “wp-”, propios de la instalación de WP.

Línea 3 – Deniego el acceso al directorio que utilizo para redirecciones (no tienes por qué tenerlo).

Línea cuatro – Dejo el acceso al directorio de ficheros adjuntos, pues en la línea 2 lo había desautorizado.

Línea cinco – Indico la senda donde se encuentra el mapa XML de mi pá precio tienda online wordpress .

Te recomiendo que cuando crees tu archivo verifiques que hace lo que esperas de él. Ten presente que un simple fallo puede impedir el acceso a los buscadores web y causar la pérdida de todos tus rankings. La comprobación es facil de hacer con las Herramientas para Administradores web de Google, en
Rastreo > URL bloqueadas.

Chuleta para principiantes

Te voy a enseñar varias opciones, y tu elige la que más te convenga:

Bloquear todos los rastreadores web de todo el contenido

Bloquear un rastreador web específica desde una carpeta específica

Bloquear un rastreador web específica de una página web específica

Permitir que un rastreador web específica para visitar una página web específica

En la mayoría de los casos, meta robots con parámetros «noindex, follow» deben ser empleados como una
forma de limitar el rastreo o la indexación

Es importante señalar que
los rastreadores maliciosos son propensos a ignorar completamente robots.txty, como tal, este protocolo no es buen mecanismo de seguridad

Sólo
1 línea«Disallow:» está tolerada para cada URL

Cada
subdominiode un dominio raíz emplea
archivos robots.txt separados

Google y Bing aceptan
dos caracteres de expresiones regularesespecíficos para la exclusión de patrones (* y $ )

El nombre del fichero robots.txt es
sensible a las mayúsculas. Usa «robots.txt», no «Robots.TXT»

Los espacios no se aceptan para separar parámetros de consulta. Por poner un ejemplo, «/categoría/ /producto» no sería detectado por el archivo robots.txt

¿Ya sabes cómo crear tu
archivo robots.txt?

Hola, qué tal tengo un problema, mi web estaba posicionada en google, pero después de un año renové el diseño y todo cambio, ahora también posicionada, cuando busco algo sobre mi empresa, me aparecen los enlaces antiguos, como podría hacer para que ya no salgan pues son bastantes. Gracias
- Hola Adrian, pero los contenidos antiguos siguen publicados o has hecho redirecciones? Si sólo has cambiado el diseño pero no has hecho redirecciones y sigue publicado, hasta el momento en que Google no indexe nuevamente los cambios saldrán. Saludos!

Contenido de calidad, casi siempre y en todo momento me voy rapidamente de todos y cada uno de los articulos de internet, en un caso así me lo lei todo, solo te falto un detalle, afirmemos que encontre un nuevo software de scrapeo o bien similar
- Hola Ricardo 😊
  
  Te agradezco tu comentario y me alegra saber que percibes así mis contenidos. desarollo web en sevilla , Internet es «el sitio de todos» y por este motivo, no siempre hallamos calidad y verdad. Con respecto a tu puntualización, te agradezco el detalle. Naturalmente la red y sus funcionalidades se marchan actualizando y, poquito a poco, también voy poniendo al día mis guías para ofrecer a los lectores los mejores resultados. Espero verte de vuelta por el blog.
  
  ¡Saludos!

Amo tus contenidos. agencias de web madrid fáciles de comprender, prácticos, concisos y me resultan muy útiles. Entro en uno y ya entonces no puedo parar por el hecho de que todo me interesa jeje

Gracias por compartir tu experiencia y conocimiento.

Un abrazo y que sigas sumando éxitos.
- Gracias Ingrid,
  
  Me alegra que te agraden mis contenidos y que sean de tu interés. Del mismo modo muchos éxitos! Saludos :)

Tus artículos son estupendos, pero echo en falta vídeos sobre los mismos. Si pudieras hacerlos seria fantástico.

Gracias, por tu aportación
- Hola Teresa,
  
  Es algo que tengo pendiente, pero para hacer vídeos necesitas algo muy importante: tiempo, y es una cosa que, por desgracia, no tengo. Quizás con el tiempo, ya veremos… gracias.

Hola, qué tal tengo un inconveniente, mi web estaba posicionada en google, mas después de un año renové el diseño y todo cambio, ahora también posicionada, cuando busco algo sobre mi empresa, me aparecen los enlaces viejos, como podría hacer para que ya no salgan porque son bastantes. Gracias

Hola Adrian, pero los contenidos viejos prosiguen publicados o has hecho redirecciones? Si sólo has modificado el diseño pero no has hecho redirecciones y sigue publicado, hasta el momento en que Google no indexe de nuevo los cambios saldrán. Saludos!

Hola Adrian, mas los contenidos antiguos prosiguen publicados o has hecho redirecciones? Si sólo has modificado el diseño mas no has hecho redirecciones y prosigue publicado, hasta el momento en que Google no indexe nuevamente los cambios saldrán. Saludos!

Contenido de calidad, casi siempre y en todo momento me marcho rapidamente de todos los articulos de internet, en un caso así me lo lei todo, solo te falto un detalle, digamos que encontre un nuevo software de scrapeo o bien similar

Hola Ricardo 😊

Te agradezco tu comentario y me alegra saber que percibes así mis contenidos. Efectivamente, Internet es «el sitio de todos» y por esta razón, no siempre y en todo momento encontramos calidad y verdad. Respecto a tu puntualización, te agradezco el detalle. Naturalmente la red y sus funcionalidades se van actualizando y, poquito a poco, yo también voy poniendo al día mis guías para ofrecer a los lectores los mejores resultados. Espero verte de vuelta por el blog.

¡Saludos!

Hola Ricardo 😊

Te agradezco tu comentario y me alegra saber que percibes así mis contenidos. Ciertamente, Internet es «el lugar de todos» y por esta razón, no siempre y en toda circunstancia hallamos calidad y verdad. Respecto a tu puntualización, te agradezco el detalle. Naturalmente la red y sus funcionalidades se marchan actualizando y, poco a poco, yo también voy poniendo al día mis guías para ofrecer a los lectores los mejores resultados. Espero verte de vuelta por el weblog.

¡Saludos!

Amo tus contenidos. Son fáciles de comprender, prácticos, breves y me resultan muy útiles. Entro en uno y ya luego no puedo parar pues todo me resulta interesante jeje

Gracias por compartir tu experiencia y conocimiento.

Un abrazo y que sigas sumando éxitos.

Gracias Ingrid,

Me alegra que te agraden mis contenidos y que sean de tu interés. Igualmente muchos éxitos! Saludos :)

Gracias Ingrid,

Me alegra que te gusten mis contenidos y que sean de tu interés. Del mismo modo muchos éxitos! Saludos :)

Tus artículos son estupendos, pero echo en falta vídeos sobre los mismos. Si pudieses hacerlos seria fantástico.

Gracias, por tu aportación

Hola Teresa,

Es algo que tengo pendiente, pero para hacer vídeos precisas algo muy importante: tiempo, y es algo que, desgraciadamente, no tengo. Quizás con el tiempo, ya veremos… gracias.

Hola Teresa,

Es algo que tengo pendiente, mas para hacer vídeos precisas algo muy importante: tiempo, y es algo que, desgraciadamente, no tengo. Quizás con el tiempo, ya veremos… gracias.