[Tutorial] Como usar o arquivo robots.txt


O que é o robots.txt?

O robots.txt funciona como um filtro para os robôs (robots) dos sites de busca, permitindo aos programadores controlarem permissões de acesso a determinadas páginas ou pastas dos sites. Simplificando, ele controla qual informação do site será ou não indexada, ou seja, encontrada pelos mecanismos de busca, como o Google. O arquivo é no formato texto, portanto pode ser facilmente editado por um aplicativo de bloco de notas (notepad do Windows, por exemplo).

Como posso criar e onde devo colocar o robots.txt?

A criação do arquivo é bem simples, basta abrir um editor de texto, inserir as regras e salvar como robots.txt.
Ele deve ficar dentro do diretório raíz do FTP de seu site, dentro da pasta www.

Como editar o arquivo?

A sintaxe do arquivo é bem simples. A configuração é feita através de palavras específicas que representam comandos aos robots.

Veja abaixo que tipos de comandos você pode expressar através deste arquivo.

Definindo quais robots podem indexar o conteúdo do seu site

O primeiro tipo de configuração a fazer é definir quais mecanismos de busca irão indexar o conteúdo do seu site.
Caso você queira que todos os mecanismos indexem seu site, não coloque esta regra ou então utilize a seguinte:
user-agent: *

Caso queira configurar um único robot você terá como opções, por exemplo, permitir apenas o Google, o Yahoo ou o Bing.

O conteúdo abaixo que segue após o caractere # representa apenas um comentário e não faz parte da regra em si.

User-agent: Bingbot # Bing
User-agent: Slurp # Yahoo
User-agent: Googlebot # Google
User-agent: Googlebot-images # Google Imagens
User-agent: Adsbot-Google # Google Adwords
User-agent: Mediapartners-Google # Google Partners

Definindo a indexação de conteúdos específicos

Há dois comandos para este tipo de configuração. O comando Disallow determinada quais páginas e pastas não serão indexados nos mecanismos de busca.  Já o comando Allow faz justamente o contrário. Ele deve ser usado somente em casos onde, por exemplo, você bloqueou uma pasta mas dentro dela há um arquivo que pode ser indexado. De modo simples, permitir a indexação de algo dentro de uma pasta não permitida.

Importante: Por padrão, todas as pastas e arquivos do seu site serão indexados. Caso não queira que algo seja visualizado pelos mecanismos de busca, é indispensável realizar esta configuração.

Abaixo segue alguns exemplos da aplicação dos comandos:

Disallow: /blog/ # Desativa a indexação do conteúdo da pasta ‘blog’
Disallow: /siste # Desativa a indexação de conteúdo, seja pasta ou arquivo, que comece com ‘siste’
Disallow: secreto.php # Desativa a indexação de conteúdo da página secreto.php
Allow: /blog/home.php # A pasta blog, no exemplo acima, não será indexada, mas o conteúdo da página home.php, dentro dela, será indexado

Exemplos de arquivo Robots.txt 

Verificar o arquivo robots.txt de um site é um tarefa bem simples, portanto tome cuidado com as configurações realizadas.
Como exemplos, seguem os robots do Google e Facebook.

Leonéia Evangelista

Leonéia Evangelista

é bacharel em Comunicação Digital pela Unisinos e mestre em Bibliotecas Digitais pelo programa Digital Library Learning (Erasmus Mundus). Trabalha com web há mais de 8 anos e atualmente cursa MBA em Marketing Estratégico.
Leonéia Evangelista

Comentários

comentário(s)

Categories