Что скрывает robots.txt: как и зачем составлять инструкцию для поисковых роботов
Владельцы бизнеса заинтересованы, чтобы поисковые системы побыстрее проиндексировали ресурс и продвинули его в выдаче. Однако показывать поисковикам абсолютно всю информацию нельзя. Например, страницы с личными данными пользователей, разделы с неуникальным контентом и сайты-зеркала нужно скрыть от посторонних глаз. Сегодня мы разберемся с файлом robots.txt и подскажем, как объяснить Яндексу и Google, куда запрещено заглядывать.
Что такое robots.txt
Это стандартный файл в формате txt, который можно создать с помощью блокнота или любого текстового редактора. Говоря простыми словами, он представляет собой инструкцию для «роботов», где сказано, какие страницы можно смотреть, а какие — нет. Нельзя доверять настройку robots начинающим специалистам, так как ошибка в файле может сказаться на поисковой выдаче и привести к падению трафика.
Основные правила
-
Название файла robots.txt — строчные латинские буквы. Если напишите капсом, то поисковики проигнорируют документ.
-
Файл хранится в корневой папке.
-
По умолчанию файл допускает роботов ко всему ресурсу и разрешает индексировать все без исключения страницы.
-
Обязательно заполняйте блок User-agent — работы должны понимать, кому адресованы инструкции.
-
Удаляйте из файла лишние слеши, звездочки и другие символы. А на пробелы можно не обращать внимания — они не влияют на содержание.
-
Для каждой запрещенной к индексации папки выделяйте отдельную строку, чтобы не вводить «робота» в заблуждение.
В robots.txt находятся одновременно несколько инструкций, они называются директивами и отвечают за конкретную задачу. Например, блок User-Agent поясняет, для кого предназначена инструкция — для роботов всех поисковых систем или только для одного конкретного. А Disallow — инструкция с запретами, в ней могут упоминаться как отдельные страницы, так и разделы целиком. Особое внимание уделите директиве Sitemap — это адрес файла с картой сайта, где представлена структура ресурса с перечнем всех ссылок для индексации. Sitemap помогает «роботам» расставить приоритеты и найти свежие страницы, чтобы поисковые системы максимально оперативно изучили новый контент и начали предлагать его пользователям.
Зачем запрещать индексировать сайт
На многих сайтах есть страницы, которые лучше не посещать.
Вот несколько примеров:
-
дублирующие страницы;
-
страницы с неуникальным текстом;
-
страницы, которые видит пользователь при совершении определенных действий, например сообщение «Спасибо за ваш отзыв»;
-
страницы с результатами поиска;
-
служебные и технические страницы;
-
и прочие бесполезные страницы, которым не место в поисковой выдаче.
Отдельно скажем про личные данные пользователей. Если допустить ошибку в robots, то в сеть улетит конфиденциальная информация, что негативно скажется на репутации компании в целом. Один из громких случаев, связанных с индексным файлом, произошел в 2011 году и затронул абонентов «Мегафона». В поисковой выдаче Яндекса оказались восемь тысяч SMS, которые отправляли пользователи мобильного оператора. В сеть просочилось не только содержание сообщений, но и номера телефонов. Позже представители Яндекса прокомментировали, что в момент индексации на сайте отсутствовал robots.txt, из-за чего данные и появились в интернете. Ситуацию урегулировали: Мегафон устранил ошибку, а Яндекс скрыл лишнюю информацию от посторонних глаз. Но осадочек от того, что случайно пропавший текстовый файл затронул восемь тысяч россиян и нанес удар по имиджу мобильного оператора, остался.
Не забывайте, что вы несете ответственность за сохранность персональных данных. Не стоит рассчитывать, что непреднамеренный слив сойдет с рук. С 30 мая 2025 года наказание будет зависеть от объема утечки. Если она коснется 1–10 тысяч субъектов персональных данных, то физлицо рискует получить штраф до 200 000 рублей, должностное — до 400 тысяч, а юрлицо — до 5 млн. рублей. При массовой утечке наказание еще серьезнее: для обычных людей — до 400 тысяч, для должностных — до 600 тысяч, для юрлиц — до 15 млн. рублей.
Robots.txt — крохотный текстовый файл объемом до 500 КБ, который незаменим при продвижении. Для оптимизации сайта важно продумать, какие страницы вы хотите видеть в поисковой выдаче. Чаще всего это описание услуг и товаров, полезные статьи для клиентов. Однако есть на сайтах страницы, которые лучше «роботам» обходить стороной — это касается технической информации и персональных данных пользователей. Если на ресурсе используете неуникальный контент, то его поисковикам тоже лучше не демонстрировать.
Чтобы объяснить «роботу», что от него требуется, нужно владеть техническими знаниями и правильно давать инструкции. Наши SEO-специалисты настроят индексный файл и помогут найти общий язык с поисковыми системами. Не рискуйте трафиком сайта и своей репутацией.
