Nubedocs usa Cookies para mejorar tu navegación.

Al continuar con la navegación entendemos que se acepta nuestra política de cookies. Más...

Acepto

Política de Cookies

Mediante esta Política de Cookies la entidad Nubedocs.es, titular de la web y responsable de ficheros, con NIF 33445822G y domicilio en Complejo de Sto. Domingo, 5 - 7º B, León, (en adelante 'el Titular') informa del uso de cookies en el sitio Web.

1. Concepto de Cookies

Las cookies son ficheros que se almacenan en el ordenador del usuario que navega a través de Internet y que, en particular, contiene un número que permite identificar unívocamente el ordenador del usuario, aunque éste cambie de localización o de dirección IP.

Las cookies son instaladas durante la navegación por Internet, bien por los sitios web que visita el usuario o bien por terceros con los que se relaciona el sitio web, y permiten a éste conocer su actividad en el mismo sitio o en otros con los que se relaciona éste, por ejemplo: el lugar desde el que accede, el tiempo de conexión, el dispositivo desde el que accede (fijo o móvil), el sistema operativo y navegador utilizados, las páginas más visitadas, el número de clicks realizados y de datos respecto al comportamiento del usuario en Internet.

El sitio web es accesible sin necesidad de que las cookies estén activadas, si bien, su desactivación puede impedir el correcto funcionamiento de los mismos.

2. Autorización para el uso de cookies

De conformidad con el aviso de cookies que aparece en la página principal del sitio web, el usuario o visitante de los mismos acepta que, al navegar por el mismo, consiente expresamente el uso de cookies según la descripción que se detalla a continuación, excepto en la medida que haya modificado la configuración de su navegador para rechazar la utilización de las mismas.

3. Tipos de Cookies que se utilizan en la Web

El usuario que navega por la Web puede encontrar cookies insertadas directamente por el Titular, o bien cookies insertadas por entidades distintas a ésta, según lo detallado en los siguientes apartados.

3.1. Cookies estrictamente necesarias insertadas por el Titular

El Titular de la web utiliza cookies estrictamente necesarias que sirven para facilitar la correcta navegación en el sitio Web, así como para asegurar que el contenido de los mismos se carga eficazmente. Estas cookies son, además, cookies de sesión es decir que tienen carácter temporal y expiran y se borran automáticamente cuando el usuario cierra su navegador.

3.2. Cookies de terceros

A continuación se detallan las entidades distintas a el Titular que utilizan cookies en el sitio Web, así como las finalidades de las mismas:

Cookies de redes sociales: el Titular utiliza cookies de Facebook, Twitter, Linkedin y Google Plus para que el usuario pueda compartir contenidos de la Web en las citadas redes sociales, o bien para facilitar el registro en la Web, de forma que con los datos de los usuarios han facilitado las redes sociales puedan cumplimentar directamente los campos del formulario de registro en la Web.

Cookies para la geolocalización: el Titular emplea cookies de Google Maps en las páginas en la que ubica puntos de información sobre mapas propiedad de Google Maps. Recogen un conjunto de informaciones relativas al comportamiento y a la información consultada por el usuario a traves del servicio.

Cookies para la medición del tráfico en los Portales: el Titular utiliza cookies de Google Analitycs para recopilar datos estadísticos de la actividad de los usuarios en el sitioWeb y, de este modo, poder mejorar los servicios prestados a los usuarios. Estas cookies permiten analizar el tráfico de usuarios generando un ID de usuario anónimo que se utiliza para medir cuántas veces visita el Sitio un usuario. Asimismo, registra cuándo fue la primera y última vez que visitó la Web, cuándo se ha terminado una sesión y el origen del usuario.

4. Configuración del navegador

el Titular recuerda a sus usuarios que el uso de cookies podrá estar sujeto a su aceptación durante la instalación o actualización del navegador utilizado por éstos. Esta aceptación podrá ser revocada mediante las opciones de configuración de contenidos y privacidad disponibles en el mismo. El Titular recomienda a sus usuarios que consulten la ayuda de su navegador o acceda a las páginas web de ayuda de los principales navegadores:

¿Qué es y para qué sirve robots.txt?

El archivo robots.txt indica a los motores de búsqueda cómo tratar tu sitio web

Una de las actividades SEO más importantes resulta que es una de las más simples, hablar con los robots. Para que los buscadores exploren tu sitio web con propiedad envían a visitar tu sitio web a unos programas conocidos como robots, y estos visitan las páginas web enviando la información relevante que encuentran para ser utilizada en sus servicios de búsqueda.

Para poder dialogar con estos robots debemos tener un archivo llamado robots.txt, encargado de indicar a cada robot qué contenidos y enlaces seguir para poder facilitar que encuentren nuestros contenidos. Para todo esto se utiliza el llamado The Robots Exclusion Protocol, que es muy fácil de utilizar. Veamos continuación cómo se hace...

Cuando un robot se dispone a visitar tu web, lo primero que hace es consultar un archivo de texto plano llamado robots.txt y que es legible desde cualquier navegador. Este archivo deberá estar disponible en la raíz de tu sitio web. Por ejemplo, si llega a la dirección de la web de unnegocio.es, primero consultará la dirección de base: http://www.unnegocio.es/robots.txt y allí encontrará el siguiente contenido:

User-agent: *
Disallow: /

De esta forma hacemos dos indicaciones a los robots:

  • El User-agent: * significa que esta sección se aplica a todos los robots.
  • El Disallow: / le dice a todos ellos que no deben visitar ninguna página del sitio.

A que es sencillo. Sólo tienes que indicar a qué robots te diriges, y en la siguiente linea indicarle a qué carpetas no tiene acceso. Así entenderán que tienen acceso a todo lo que no indiques.

Puedes consultar una lista completa de los robots en robotstxt.org por si deseas hacer alguna indicación particular a algún servicio de búsqueda y que trate de forma distinta los contenidos de tu web.

Deberás utilizar minúsculas para el nombre del archivo: 'robots.txt', no 'Robots.TXT'.

De la misma forma que los los robots pueden ignorar tu robots.txt. Especialmente los robots de malware que escanean la web en busca de vulnerabilidades de seguridad, y los recolectores de direcciones de correo electrónico utilizados por los spammers no prestarán atención. Recuerda que el archivo robots.txt es un archivo disponible públicamente. Cualquiera puede ver qué secciones de tu servidor no quieres que usen los robots.

Por lo tanto, no intentes usar el archivo robots.txt para ocultar información.

Las instrucciones aceptadas de robots.txt

  • #: Indica que el contenido que le sigue dentro de esa misma linea es un comentario y no será tenido en cuenta.
  • user-agent: Sirve para especificar a qué user-agents van a afectar las reglas disallow y allow que pongamos a continuación. Si quieres ver el listado completo de user-agents que podemos encontrarnos.
  • disallow: Podemos especificar una barra / para bloquear el acceso a todo el sitio o podemos especificar la ruta (incluso usando comodines *) que queremos bloquear.
  • allow: Es como el disallow pero para permitir, es útil cuando queremos añadir ciertas exclusiones a un disallow, es decir, para hacer excepciones.
  • sitemap: Nos permite especificar donde está el mapa del sitio web, podemos especificar varios simplemente con añadir varios parámetros sitemap al archivo robots.txt
  • crawl-delay: Permite especificar un número de segundos de espera entre cada página revisada por el robot. Útil para evitar saturaciones, otra cosa es que te hagan caso.

Ejemplos de uso de robots.txt

Para permitir que todos los robots tengan acceso completo (también puedes crear un archivo vacío):

User-agent: *
Disallow:

Para excluir todos los robots de parte del servidor:

Disallow: / cgi-bin /
Disallow: / tmp /
Disallow: / junk /
To exclude single robot
User-agent: BadBot
Disallow: /

Para usar en tu página de Wordpress, pero recordando cambiar los parámetros de tu sitio web donde sea necesario:

# Bloqueo basico para todos los bots y crawlers
# puede dar problemas por bloqueo de recursos en GWT
User-agent: *
Allow: /wp-content/uploads/*
Allow: /wp-content/*.js
Allow: /wp-content/*.css
Allow: /wp-includes/*.js
Allow: /wp-includes/*.css
Disallow: /cgi-bin
Disallow: /wp-content/plugins/ 
Disallow: /wp-content/themes/ 
Disallow: /wp-includes/ 
Disallow: /*/attachment/
Disallow: /tag/*/page/
Disallow: /tag/*/feed/
Disallow: /page/
Disallow: /comments/
Disallow: /xmlrpc.php
Disallow: /?attachment_id*
# Bloqueo de las URL dinamicas
Disallow: /*?
#Bloqueo de busquedas
User-agent: *
Disallow: /?s= 
Disallow: /search
# Bloqueo de trackbacks
User-agent: *
Disallow: /trackback
Disallow: /*trackback
Disallow: /*trackback*
Disallow: /*/trackback
# Bloqueo de feeds para crawlers
User-agent: *
Allow: /feed/$ 
Disallow: /feed/ 
Disallow: /comments/feed/
Disallow: /*/feed/$ 
Disallow: /*/feed/rss/$ 
Disallow: /*/trackback/$ 
Disallow: /*/*/feed/$ 
Disallow: /*/*/feed/rss/$ 
Disallow: /*/*/trackback/$ 
Disallow: /*/*/*/feed/$ 
Disallow: /*/*/*/feed/rss/$ 
Disallow: /*/*/*/trackback/$
# Ralentizamos algunos bots que disminuyen el rendimiento del servidor
User-agent: noxtrumbot
Crawl-delay: 20
User-agent: msnbot
Crawl-delay: 20
User-agent: Slurp
Crawl-delay: 20
# Bloqueo de bots y crawlers apenas usados
User-agent: MSIECrawler
Disallow: / 
User-agent: WebCopier 
Disallow: / 
User-agent: HTTrack 
Disallow: / 
User-agent: Microsoft.URL.Control 
Disallow: / 
User-agent: libwww 
Disallow: / 
User-agent: Orthogaffe 
Disallow: / 
User-agent: UbiCrawler 
Disallow: / 
User-agent: DOC 
Disallow: / 
User-agent: Zao 
Disallow: / 
User-agent: sitecheck.internetseer.com 
Disallow: / 
User-agent: Zealbot 
Disallow: / 
User-agent: MSIECrawler 
Disallow: / 
User-agent: SiteSnagger 
Disallow: / 
User-agent: WebStripper 
Disallow: / 
User-agent: WebCopier 
Disallow: / 
User-agent: Fetch 
Disallow: / 
User-agent: Offline Explorer 
Disallow: / 
User-agent: Teleport 
Disallow: / 
User-agent: TeleportPro 
Disallow: / 
User-agent: WebZIP 
Disallow: / 
User-agent: linko 
Disallow: / 
User-agent: HTTrack 
Disallow: / 
User-agent: Microsoft.URL.Control 
Disallow: / 
User-agent: Xenu 
Disallow: / 
User-agent: larbin 
Disallow: / 
User-agent: libwww 
Disallow: / 
User-agent: ZyBORG 
Disallow: / 
User-agent: Download Ninja 
Disallow: / 
User-agent: wget 
Disallow: / 
User-agent: grub-client 
Disallow: / 
User-agent: k2spider 
Disallow: / 
User-agent: NPBot 
Disallow: / 
User-agent: WebReaper 
Disallow: /
# Previene problemas de recursos bloqueados en Google Webmaster Tools
User-Agent: Googlebot
Allow: /*.css$
Allow: /*.js$
# En condiciones normales este es el sitemap
Sitemap: https://tusitio.es/sitemap.xml
# Si utilizas Yoast SEO estos son los sitemaps principales
Sitemap: https://tusitio.es/sitemap_index.xml
Sitemap: https://tusitio.es/category-sitemap.xml
Sitemap: https://tusitio.es/page-sitemap.xml
Sitemap: https://tusitio.es/post-sitemap.xml

Los Permisos de acceso al Archivo

Para evitar disgustos y aportar seguridad a tu archivo debes darle permisos 0644 en octal a tu archivo robots.txt. Esto quiere decir que será legible para todos, pero solo podrá ser modificado por el propietario del archivo (tú).

Conclusión

Si has llegado hasta aquí ya tendrás bastante más claro que con un par de pequeños cambios en un archivito de nada puedes mejorar el posicionamiento de tu sitio web y de sus contenidos. Si deseas probarlo, no te cortes y utiliza la herramienta que Google pone a tu disposición en Google Search Console > Rastreo > Probador de robots.txt (Con tu usuario y contraseña, claro).

Buena suerte y disfruta de tu nueva posición en la web.

Fuentes: