Robots.txt: guia completo de como criar um para seu site

Você sabe qual é a importância do Robots.txt na estratégia de SEO de um site? Veja mais sobre os principais pontos e como configurá-lo aqui.

SEO não tem somente a ver com conteúdo bem escrito! Pelo contrário: há muitos critérios a serem atendidos para um bom posicionamento na web. Os mecanismos de pesquisa não classificam todas as páginas do seu site com base no conteúdo de cada uma delas. Existem outros fatores a serem considerados, tanto para o seu SEO quanto para o seu leitor.

Para contornar os problemas de relevância de determinadas páginas, falaremos sobre um arquivo que impedirá a indexação de determinadas páginas de seu site para otimizar o referenciamento de outras. Isso mesmo, estamos falando do arquivo robots.txt.

Confira neste artigo qual a importância e como criá-lo!

Porque o arquivo robots.txt é importante?

O arquivo “robots.txt” é um arquivo de texto simples que é colocado na raiz do site e informa aos mecanismos de busca e outros robôs da web quais partes do site devem ou não ser rastreadas e indexadas.

Ao usar o arquivo robots.txt, você pode controlar o comportamento dos robôs de busca e evitar que eles indexem páginas irrelevantes ou sensíveis do seu site. Isso pode ajudar a proteger sua privacidade, evitar conteúdo duplicado, impedir que informações confidenciais sejam indexadas pelos motores de busca e, em alguns casos, melhorar o desempenho do seu site.

Além disso, o arquivo robots.txt é uma prática recomendada pelos motores de busca e é considerado um sinal de boa-fé pelos mesmos. Ter um arquivo robots.txt bem configurado e atualizado pode melhorar sua classificação nos resultados de pesquisa e pode ser uma maneira de mostrar aos motores de busca que você é um proprietário responsável do site.

No entanto, é importante observar que o arquivo robots.txt não impede que os usuários acessem seu site diretamente ou através de links externos. Se houver páginas em seu site que você deseja manter completamente privadas, você deve considerar o uso de senhas ou outras medidas de segurança.

Mas, precisamos entender como funciona o rastreamento do Google.

Rastreamento do Google e fatores que o afetam

O rastreamento do Google é o processo pelo qual o Google coleta informações sobre as páginas da web e as adiciona ao seu índice de pesquisa. Quando você faz uma pesquisa no Google, o mecanismo de busca usa esse índice para exibir resultados relevantes para sua consulta.

O processo de rastreamento começa com o Googlebot, um software automatizado que visita as páginas da web e coleta informações sobre elas. O Googlebot segue os links de uma página para outra e coleta informações sobre o conteúdo da página, a estrutura da página, o idioma e outras informações relevantes. O Googlebot também coleta informações sobre o desempenho da página, como o tempo de carregamento e a velocidade de resposta.

Existem vários fatores que podem afetar o rastreamento do Google, incluindo:

Qualidade do conteúdo: O Google prefere conteúdo de alta qualidade que seja relevante e útil para os usuários.
Estrutura da página: Uma página bem estruturada com uma hierarquia clara e um mapa do site pode facilitar o rastreamento pelo Google.
Desempenho da página: O Google prefere páginas que carregam rapidamente e respondem rapidamente aos usuários.
Links: Os links de outras páginas para a sua página podem ajudar a aumentar a visibilidade da sua página nos resultados de pesquisa.
Sitemap XML: Um sitemap XML é um arquivo que lista todas as páginas do seu site e ajuda o Google a encontrar todas as suas páginas.
Protocolo HTTPS: O Google dá preferência a sites que usam o protocolo HTTPS para criptografar o tráfego da web.
Robots.txt: O arquivo robots.txt é usado para informar ao Google quais páginas do seu site não devem ser rastreadas.
Bloqueadores de rastreamento: Os bloqueadores de rastreamento podem impedir o Googlebot de acessar o conteúdo do seu site, o que pode afetar o rastreamento.

Feedback sobre os arquivos robots.txt

Imagine o resultado de um arquivo que diz quais páginas você deseja rastrear e quais não. O arquivo robots.txt permite que você gerencie o orçamento de rastreamento do Google, fornecendo as diretrizes corretas e, ainda, dá a você um bônus significativo em SEO.

Não é o próprio arquivo robots.txt que fornece os impulsos de SEO, mas o que você faz com ele – isso é importante!

Veja também:

8 excelentes plugins para WordPress

Acessar o arquivo robots.txt

Os arquivos robots.txt estão sempre localizados no mesmo lugar em seu site, sempre na raiz:

www.dominio.com.br/robots.txt

Observe que é muito importante que este arquivo tenha o nome “robots” e a extensão “.txt”. Qualquer erro de grafia tornará o arquivo ilegível, então não se confunda sobre como escrever esses caracteres.

Para encontrá-lo e acessá-lo, você precisará utilizar um software específico para acessar a hospedagem do seu site. Uma vez que o software é instalado, é solicitado um endereço de host, um identificador, uma senha e um número de porta. Tudo isso é fornecido a você no momento da compra da hospedagem, via e-mail.

Em caso de não encontrar estes dados, contate a empresa responsável para recuperar o acesso.

Agora que inseriu seus identificadores, você deve ir para o arquivo principal denominado, na maioria das vezes, “www”. Aí está o arquivo raiz do seu site.

Se ainda não estiver presente, é neste local que você terá que arrastar e soltar o arquivo.

Como criar o arquivo robots.txt

Para criar um arquivo robots.txt, siga as etapas abaixo:

Abra um editor de texto em branco (como o Bloco de Notas no Windows ou o TextEdit no Mac).
Comece o arquivo com as seguintes linhas:

User-agent: *
Disallow:

Essas linhas instruem os mecanismos de pesquisa a rastrear todo o seu site.

Se você deseja bloquear que o mecanismo de pesquisa acesse determinadas páginas ou diretórios em seu site, adicione as linhas correspondentes abaixo de “Disallow:“. Por exemplo, para bloquear a pasta “privada“, adicione a seguinte linha:

Disallow: /privada/

Isso informa aos mecanismos de pesquisa que não devem rastrear nenhum conteúdo dentro da pasta “privada”.

Salve o arquivo como “robots.txt” e faça o upload para o diretório raiz do seu site. Certifique-se de que o arquivo esteja acessível através de http://www.seusite.com/robots.txt.

Veja também:

Como enviar um arquivo para o cPanel

Lembre-se de que o arquivo robots.txt é apenas uma diretriz para os mecanismos de pesquisa, e não uma forma de proteger o seu site. Se você deseja proteger o seu site, é necessário usar outras medidas de segurança, como a autenticação de usuários e criptografia de dados.

Comandos para o robots-txt

O robots.txt é um arquivo que fornece instruções para os robôs de busca sobre quais partes do seu site devem ser rastreadas e indexadas. Aqui estão alguns dos comandos mais comuns usados no robots.txt:

User-agent – especifica qual robô de busca o comando se aplica (por exemplo, “User-agent: Googlebot”).
Disallow – indica quais páginas ou diretórios devem ser excluídos do rastreamento (por exemplo, “Disallow: /pasta/”).
Allow – indica quais páginas ou diretórios devem ser incluídos no rastreamento, mesmo que haja uma regra de exclusão mais ampla para o diretório pai (por exemplo, “Allow: /pasta/pagina.html”).
Sitemap – especifica a localização do mapa do site XML do seu site para ajudar os robôs de busca a encontrarem todas as suas páginas.
Crawl-delay – especifica o tempo em segundos que os robôs de busca devem esperar entre as solicitações para seu site (por exemplo, “Crawl-delay: 10”).
User-agent: * – um curinga que se aplica a todos os robôs de busca.
Noindex – indica que uma página deve ser excluída dos resultados de pesquisa, mesmo que seja rastreada (por exemplo, “Meta name=”robots” content=”noindex”).

Aqui está um exemplo básico de como pode ser estruturado um arquivo robots.txt:

User-agent: * Disallow: /pasta-secreta/ Disallow: /arquivo-secreto.html

Neste exemplo, o comando “User-agent: *” se aplica a todos os robôs de busca, o que significa que as regras a seguir se aplicam a todos os robôs. Em seguida, há duas regras de exclusão – “Disallow: /pasta-secreta/” e “Disallow: /arquivo-secreto.html” – que instruem os robôs de busca a não rastrearem essas páginas.

Observe que os nomes de diretórios e arquivos especificados nas regras de exclusão devem ser relativos à raiz do site. Além disso, cada comando deve estar em uma linha separada.

Otimizando seu arquivo robots.txt

A otimização do seu arquivo robots.txt dependerá do seu site e das necessidades que você tiver.

Lembrando que você pode impedir a indexação de suas páginas, mas não bloquear o acesso aos mecanismos de busca. Esses boots veem tudo e saberão como puni-lo se você tentar manipular seu algoritmo.

Tente abordar todos os agentes de usuário por meio do comando: User-agent: *

O melhor uso possível é não mostrar as partes “privadas” do seu site ao público e, portanto, não as indexar.

Aqui estão alguns exemplos de páginas que não devem ser indexadas:

Páginas cujo conteúdo não seja interessante ou que se deseja ocultar como por exemplo os seus avisos legais, uma página de agradecimento após inserir o seu endereço de e-mail para subscrever a newsletter do site etc.;
Conteúdo duplicado entre certas páginas. Por exemplo, a versão para impressão de seu site;
Arquivos PDF que tenham o mesmo conteúdo das páginas do seu site;
Imagem do Google;
Páginas com conteúdo de baixa qualidade;
Páginas não visitadas há muito tempo (cujo tráfego vem de mecanismos de pesquisa);
Arquivos de construção de sites como WordPress, por exemplo.

Esta diretriz que damos aos robôs não nos garante que não vejamos as páginas dos índices dos buscadores.

Na verdade, o comando Disallow simplesmente impede o rastreamento. Você só precisa ter um link para essa página colocado em Disallow e ela ainda será indexada. É por isso que é importante conhecer os comandos:

Noindex: este comando virá junto com Disallow para evitar que a página seja indexada. Graças a isso, você terá mais certeza de que sua página não será indexada (sim, ainda pode acontecer);
NoFollow: Este comando dirá ao mecanismo de busca para não ir aos links que você tem na página para que os robôs não os sigam. É bastante útil nesses links de baixa qualidade.

Esses dois comandos funcionam como um Permitir e Desautorizar.

Testando o robots.txt

Para testar o arquivo de robôs, vamos ao Google Search Console e nos conectamos a ele.

Em seguida, vá até à guia de cobertura para ver o que o Google indexa. Você terá que esperar um pouco para que o Google veja seu arquivo e, uma vez feito isso, você o verá aparecer.

Teste-o e lá está você com um arquivo robots.txt bem otimizado!

Considerações finais

A configuração do seu robots.txt ajudará os mecanismos de pesquisa a classificar melhor o seu site, otimizando o seu orçamento de rastreamento. Além disso, você levará seus leitores aos lugares mais interessantes para eles em sua página!

A configuração dessa ferramenta requer muito pouco esforço e é válida a longo prazo. É bem possível que você volte a ele mais tarde, se você esquecer uma página ou simplesmente publicar algo que não seja útil para os leitores.

Esse arquivo pode fazer uma diferença significativa na indexação de suas páginas e, portanto, no tráfego resultante. Otimize-o para seu SEO! Apesar disso, o robots.txt está se tornando cada vez menos importante com o tempo. Não é mais usado para impedir a indexação, por exemplo. A melhor solução permanece sendo, acima de tudo, a meta tag.

Esperamos que este artigo tenha ajudado! Se você gostou, não deixe de compartilhar e continuar acompanhando outros artigos sobre tecnologia, marketing e negócios no blog da HostGator!

Quer ficar por dentro das novidades da HostGator? Inscreva-se e receba tudo em primeira mão!

Robots.txt: guia completo de como criar um para seu site

Porque o arquivo robots.txt é importante?

Rastreamento do Google e fatores que o afetam

Feedback sobre os arquivos robots.txt

Acessar o arquivo robots.txt

Como criar o arquivo robots.txt

Comandos para o robots-txt

Otimizando seu arquivo robots.txt

Testando o robots.txt

Considerações finais

Navegue por tópicos

Porque o arquivo robots.txt é importante?

Rastreamento do Google e fatores que o afetam

Feedback sobre os arquivos robots.txt

Acessar o arquivo robots.txt

Como criar o arquivo robots.txt

Comandos para o robots-txt

Otimizando seu arquivo robots.txt

Testando o robots.txt

Considerações finais

Tags: