robots.txt

Quando desenvolvemos e publicamos nosso site um dos principais objetivos é que ele seja visto, isto será muito difícil sem que ele seja devidamente indexado pelos mecanismos de busca, e isto será muito difícil sem a devida configuração do arquivo robots.txt, já que o mesmo é utilizado por todos os principais buscadores atuais, seja ele o Google, Bing ou mesmo o Duck Duck Go.

Tais buscadores se utilizam de robôs que ficam vasculhando a internet em busca de links, páginas indexáveis, imagens, etc. Caso não façamos nada referente ao arquivo robots.txt ou mesmo que não o criamos é possível sim que nosso site seja indexado, porém de uma forma nem sempre desejável, pois não raro além das páginas que queremos que sejam visíveis aos mecanismos de busca, temos também aquelas que sua exibição não é interessante ou mesmo muitas vezes por questões de segurança não queremos que sejam assim disponíveis tão abertamente, como por exemplo:

  • Páginas de login;
  • Páginas com conteúdo repetido - sim, as vezes isso é necessário, porém se forem indexadas por mecanismos de pesquisa podemos ter nossos resultados prejudicados;
  • Páginas de impressão - Alguns sites possuem versões de suas páginas próprias para impressão, se indexadas, também podem ser consideradas como duplicadas.

Afinal, o que é o arquivo robots.txt?

O nome é bem intuitivo, por ter extensão .txt, significa que é um arquivo em formato texto puro, que aceita somente caracteres ASCII ou UTF-8, outros caracteres não são permitidos. Além disso o ´robots´ indica que tal arquivo será lido pelos robos dos mecanismos de busca em busca das regras que bloqueiam ou permitem o acesso de um determinado rastreador a um caminho de arquivo especificado no site.

Um exemplo válido de arquivo robots.txt pode ser como este abaixo:

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: http://blog.ffelix.eti.br/sitemap.xml

Explicando o arquivo robots.txt

  1. O user agent chamado de rastreador “Googlebot” não poderá rastrear a pasta http://blog.ffelix.eti.br/nogooglebot/ nem qualquer subdiretório.
  2. Os demais user agents têm acesso a todo o site. Essa informação poderia ter sido omitida, e o resultado seria o mesmo porque se supõe que há acesso total.
  3. O arquivo de Sitemap do site está localizado em http://blog.ffelix.eti.br/sitemap.xml.

Estas são as regras básicas do arquivo robots.txt:

  1. Que seja texto puro, apenas com caracteres ASCII ou UTF-8;
  2. Que seja especificado qual o bot indexador (Googlebot, Bingbot, duckduckbot, etc…), use ´*´ (asterisco) para dizer que as mesmas regras valem para todos os robos.
  3. A regra específica para o bot citado:
    • Disallow - Irá bloquear a indexação da(s) página(s) discriminadas, ou diretórios
    • Allow - Permite a indexação da(s) página(s) citadas, ou diretórios.
  4. Só é permitido 1 arquivo robots.txt por site.
  5. Deve estar localizado na pasta raiz do website.

Caso queira estudar mais a fundo as especificações para o arquivo robots.txt, recomendo a leitura deste artigo disponibilizado pela própria Google: Especificações de robots.txt

Com as ferramentas para webmaster da Google é possível testar seu arquivo robots.txt para saber se o mesmo é válido.