Você sabe qual é a importância do Robots.txt na estratégia de SEO de um site? Veja mais sobre os principais pontos e como configurá-lo aqui.

(Atualizado em 8 de setembro 2021)

SEO não tem somente a ver com conteúdo bem escrito! Pelo contrário: há muitos critérios a serem atendidos para um bom posicionamento na web. Os mecanismos de pesquisa não classificam todas as páginas do seu site com base no conteúdo de cada uma delas. Existem outros fatores a serem considerados, tanto para o seu SEO quanto para o seu leitor. 

Para contornar os problemas de relevância de determinadas páginas, falaremos sobre um arquivo que impedirá a indexação de determinadas páginas de seu site para otimizar o referenciamento de outras. Isso mesmo, estamos falando do arquivo robots.txt.

Confira neste artigo qual a importância e como criá-lo!

Porque o arquivo robots.txt é importante?

O arquivo robots.txt é o primeiro arquivo que o Google detecta com seus robôs que analisam os sites. São esses robôs do Google que “rastreiam” as páginas.

O primeiro passo para um robô chegar a um site é, portanto, olhar as indicações desse arquivo, se ele estiver presente, e tomar nota delas. É por isso que seu site não pode deixar de ter um arquivo robots-txt bem organizado.

De formas simples e análoga, podemos entender que o arquivo robots-txt fala com os robôs do Google, indicando qual arquivo eles devem rastrear, e assim, não perder tempo com arquivos não tão relevantes assim.

Lembrando, não quer dizer que se você não tiver um arquivo robots-txt o Google não vai encontrar seu site. Mas, sem ele, você arrisca que o Google mostre páginas do seu site que não são elevantes e que você não gostaria que sejam vistar pelos visitantes.

Mas, precisamos entender como funciona o rastreamento do Google.

Rastreamento do Google e fatores que o afetam

Primeiro é necessário entender que você tiver muitas páginas, o Google levará mais tempo para rastrear (visitar e analisar) todo o seu site e verificar se uma determinada página não foi modificada, nem que seja um pouco. 

De repente, há um número limitado de URLs que ele se permite rastrear, depende do “limite da taxa de rastreamento” ou da taxa limite de exploração, bem como da “demanda de rastreamento” ou da solicitação de exploração.

A taxa limite de exploração depende de dois fatores:

  • Saúde do rastreamento: é de certa forma o desempenho do site e do servidor. Quanto melhor for o funcionamento e qualidade do seu site e host, melhor.
  • A partir do limite definido no Google Search Console, para alterá-lo, o suporte do Google fornece um artigo que explica como definir a velocidade de rastreamento do Googlebot.

A exploração do pedido também depende de dois fatores

  • Quanto mais popularidade você tem (em outras palavras, backlinks de melhor qualidade), mais o Google deseja que seu conteúdo seja atualizado rapidamente.
  • A falta de conteúdo atualizado: o Google deseja que seu site seja atualizado constantemente para fornecer a melhor experiência.

Resumindo, o orçamento de rastreamento é o número de URLs que o Googlebot pode e deseja rastrear.

Para você, o interessante é ajudar o Googlebot a gastar seu orçamento de rastreamento da melhor maneira possível para o seu site. Portanto, ele deve rastrear as melhores páginas do seu site web, motivo pelo qual é necessário guiá-lo e desindexar certas páginas sem muito interesse.

Nesse contexto, existem certos fatores que o Google diz que “afetam negativamente o rastreamento e a indexação de um site”.

Aqui estão alguns exemplos a serem evitados:

  • Navegação facetada (filtros usados ​​para selecionar produtos em sites de comércio eletrônico);
  • Identificadores de sessão (as páginas acessadas após uma conexão);
  • Algumas páginas de erro;
  • Páginas hackeadas;
  • Páginas de baixa qualidade e spam.

Feedback sobre os arquivos robots.txt

Imagine o resultado de um arquivo que diz quais páginas você deseja rastrear e quais não. O arquivo robots.txt permite que você gerencie o orçamento de rastreamento do Google, fornecendo as diretrizes corretas e, ainda, dá a você um bônus significativo em SEO.

Não é o próprio arquivo robots.txt que fornece os impulsos de SEO, mas o que você faz com ele – isso é importante!

Acessar o arquivo robots.txt

Os arquivos robots.txt estão sempre localizados no mesmo lugar em seu site, sempre na raiz:

www.siteexemplo.com.br/robots.txt

Observe que é muito importante que este arquivo tenha o nome “robots” e a extensão “.txt”. Qualquer erro de grafia tornará o arquivo ilegível, então não se confunda sobre como escrever esses caracteres. 

Para encontrá-lo e acessá-lo, você precisará utilizar um software específico para acessar a hospedagem do seu site. Uma vez que o software é instalado, é solicitado um endereço de host, um identificador, uma senha e um número de porta. Tudo isso é fornecido a você no momento da compra da hospedagem, via e-mail. 

Em caso de não encontrar estes dados, contate a empresa responsável para recuperar o acesso.

Agora que inseriu seus identificadores, você deve ir para o arquivo principal denominado, na maioria das vezes, “www”. Aí está o arquivo raiz do seu site.

Se ainda não estiver presente, é neste local que você terá que arrastar e soltar o arquivo.

Criação do arquivo robots.txt

Quando é criado um site web no WordPress, ele mesmo cria de forma automática um arquivo robots-txt.

Mas, caso você precise criar de forma manual, pode ser feito de forma simple!

Para criar um arquivo no seu panel de controle da HostGator, você devera entrar no Gerenciador de arquivos

Depois é só se encaminhar ao menu superior, e clicar em arquivo ou pasta, definir um nome e criar. Como mostra no seguinte gif:

Comandos para o robots-txt

Agente de usuário (User-agent);

O comando User-Agent é usado para determinar a qual bot (robô) estamos nos referindo. Exceto em casos especiais, o ideal é abordar todos os bots com o comando:

User-agent : *

Não permitir (Disallow)

O comando Disallow é o principal, usado para dizer que não queremos permitir que robôs rastreiem URLs ou mesmo diretórios. Porém, este comando não permite proibir a passagem de robôs 100%.

Permitir (Allow)

O comando Allow é um pouco implícito. Cada página já está automaticamente permitida. Será útil para autorizar uma pequena parte de um diretório que não autorizamos, por exemplo.

Mapa do site (Sitemap)

O comando Sitemap é usado para indicar em seu arquivo o posicionamento de seu arquivo Sitemap.xml (arquivo oposto ao robots.txt, que é usado para dar as páginas que queremos ver indexadas).

Para testar cada comando, abra um software de processamento de texto como Word, OpenOffice ou mesmo o Notepad.

Lembre-se que as diretivas devem ser colocadas uma por linha. Portanto, é necessário fazer um retorno a cada nova instrução.

Otimizando seu arquivo robots.txt

A otimização do seu arquivo robots.txt dependerá do seu site e das necessidades que você tiver. 

Lembrando que você pode impedir a indexação de suas páginas, mas não bloquear o acesso aos mecanismos de busca. Esses boots veem tudo e saberão como puni-lo se você tentar manipular seu algoritmo.

Tente abordar todos os agentes de usuário por meio do comando: User-agent: *

O melhor uso possível é não mostrar as partes “privadas” do seu site ao público e, portanto, não as indexar.

Aqui estão alguns exemplos de páginas que não devem ser indexadas:

  • Páginas cujo conteúdo não seja interessante ou que se deseja ocultar como por exemplo os seus avisos legais, uma página de agradecimento após inserir o seu endereço de e-mail para subscrever a newsletter do site etc.;
  • Conteúdo duplicado entre certas páginas. Por exemplo, a versão para impressão de seu site;
  • Arquivos PDF que tenham o mesmo conteúdo das páginas do seu site;
  • Imagem do Google;
  • Páginas com conteúdo de baixa qualidade;
  • Páginas não visitadas há muito tempo (cujo tráfego vem de mecanismos de pesquisa);
  • Arquivos de construção de sites como WordPress, por exemplo.

Esta diretriz que damos aos robôs não nos garante que não vejamos as páginas dos índices dos buscadores. 

Na verdade, o comando Disallow simplesmente impede o rastreamento. Você só precisa ter um link para essa página colocado em Disallow e ela ainda será indexada. É por isso que é importante conhecer os comandos:

  • Noindex: este comando virá junto com Disallow para evitar que a página seja indexada. Graças a isso, você terá mais certeza de que sua página não será indexada (sim, ainda pode acontecer);
  • NoFollow: Este comando dirá ao mecanismo de busca para não ir aos links que você tem na página para que os robôs não os sigam. É bastante útil nesses links de baixa qualidade.

Esses dois comandos funcionam como um Permitir e Desautorizar.

Meta tags 

As tags são diferentes do arquivo robots.txt, no entanto, elas farão o mesmo trabalho. Isso mesmo, a tag impedirá a indexação e rastreamento de um link.

Para utilizá-las, certifique-se de ir entre as tags <head> e colocar a tag:

<meta name = “robots” content = “noindex” />

Você também pode adicionar a menção nofollow inserindo o atributo content: “noindex, nofollow”.

Para quem está no WordPress, o Yoast simplifica a inserção dessa tag em seu frame sob o conteúdo escrito. Basta clicar na roda dentada à esquerda.

Testando o robots.txt

Para testar o arquivo de robôs, vamos ao Google Search Console e nos conectamos a ele.

Em seguida, vá até à guia de cobertura para ver o que o Google indexa. Você terá que esperar um pouco para que o Google veja seu arquivo e, uma vez feito isso, você o verá aparecer.

Teste-o e lá está você com um arquivo robots.txt bem otimizado!

Considerações finais

A configuração do seu robots.txt ajudará os mecanismos de pesquisa a classificar melhor o seu site, otimizando o seu orçamento de rastreamento. Além disso, você levará seus leitores aos lugares mais interessantes para eles em sua página!

A configuração dessa ferramenta requer muito pouco esforço e é válida a longo prazo. É bem possível que você volte a ele mais tarde, se você esquecer uma página ou simplesmente publicar algo que não seja útil para os leitores.

Esse arquivo pode fazer uma diferença significativa na indexação de suas páginas e, portanto, no tráfego resultante. Otimize-o para seu SEO! Apesar disso, o robots.txt está se tornando cada vez menos importante com o tempo. Não é mais usado para impedir a indexação, por exemplo. A melhor solução permanece sendo, acima de tudo, a meta tag.

Esperamos que este artigo tenha ajudado! Se você gostou, não deixe de compartilhar e continuar acompanhando outros artigos sobre tecnologia, marketing e negócios no blog da HostGator!