Robots.txt

O robots.txt é um arquivo de texto com a função de guiar os robôs da web – geralmente, os de mecanismos de pesquisa – para rastrear as páginas de sites, integrando o conjunto de ferramentas utilizadas no marketing de performance. Esse tipo de arquivo é parte integrante do protocolo de exclusão de robôs (REP), um grupo de padrões da web que tem como função a regulamentação da forma que os robôs realizam seu rastreamento, além de estabelecer, também, a forma do acesso e indexação de conteúdos e sua disponibilização aos usuários. 

Esse protocolo de exclusão de robôs (REP), além de abrigar o robots.txt e instruções para toda a página, subdiretório ou site, também abarca os meta-robôs, que oferecem diretivas um pouco mais concisas aos bots a respeito do rastreamento e indexação do conteúdo de uma página. Dessa forma, o robots.txt indica se os softwares de rastreamento da web estão podendo, ou não, realizar tal rastreamento.

O formato de um robots.txt

A partir do entendimento sobre o que é robots.txt, é importante perceber como ele se apresenta na prática. O formato básico de um robots.txt se dá desta forma: 

Agente do usuário: [nome do agente do usuário]
Disallow: [string de URL a não ser rastreada]

Assim, um possível robot.txt poderia ser, por exemplo: 

User-agent: Googlebot

Disallow: /nogooglebot/

Um arquivo robots.txt pode contar com várias outras linhas de agente e diretivas do usuário, com instruções como “permissão” e “bloqueio”, por exemplo. Desse modo, essas linhas se apresentam em conjuntos que são separados por um espaço entre eles, em que cada um simboliza um grupo de diretivas do agente do usuário. 

É importante ressaltar que cada uma das regras, proibindo ou permitindo, mesmo sendo mais de uma, se aplica apenas ao(s) agente(s) de usuário especificado(s) naquele conjunto. Caso houver uma regra que se encaixe em algum outro agente de usuário, o rastreamento será realizado somente às instruções mais exatas.

Por exemplo:

# Group 1

User-agent: Googlebot

Disallow: /nogooglebot/

# Group 2

User-agent: *

Allow: /

O funcionamento de um robots.txt

Assim como muitos aspectos dentro do marketing de performance, um robots.txt leva em consideração a operacionalidade dos mecanismos de busca e é uma ferramenta aliada ao SEO de um site. Basicamente, tais mecanismos têm a função de rastrear a web em busca de conteúdo e indexar tal conteúdo para que ele seja transmitido para os usuários.

Realizando o rastreio de um link a outro, esses mecanismos de busca vão procurar por robots.txt para efetuar sua leitura, antes mesmo de prosseguir por determinada página. Isso ocorre devido ao fato de que, já que esse tipo de arquivo possui as diretivas de como os mecanismos devem proceder na página, é a partir do robots.txt que eles vão determinar seu tipo de ação. É importante ressaltar que, se a página for retida por robots.txt, os links presentes não serão acompanhados.

Se, porventura, não for de conhecimento a existência de arquivo robots.txt, o procedimento a ser seguido é digitar o domínio raiz e adicionar /robots.txt ao final do URL. Caso nenhuma página .txt seja exibida, isso indica que não há presença de uma página robots.txt em atividade. Cabe ressaltar que essa é mais uma ferramenta do marketing de performance.

GUIA DE SEO