Что

Содержание:

Как закрыть сайт от индексации в WordPress?
Способы быстрой индексации сайта
Зачем сайт закрывают для индекса?
Директивы метатега robots и X-Robots-Tag
- Функции директив и их поддержка разными поисковиками
- Сравнение директив Google и Яндекс
Пример настройки файла robots.txt
Директивы файла robots.txt для wordpress
От сисадмина. Запрет по Useragent через .htaccess
Метатег robots: cинтаксис, виды и примеры
- Файл robots.txt и метатег robots meta
- Как внедрять метатег robots
- Как проверить метатег robots
Частные случаи закрытия от индексации
- Закрыть от индексации страницы пагинации в Битрикс
- Закрыть страницу от индексации
Noindex
robots.txt в WordPress
Зачем закрывать сайт от индексации
- Сайт еще не готов
- Сайт узкого содержания
- Переезд сайта или аффилированный ресурс
- Стратегия продвижения
Как закрыть страницы от индексации: три базовых способа
- Добавление метатега Robots
- Закрытие в robots.txt
- Настройка HTTP-заголовка X-Robots-Tag
Закрываем сайт от индексации в robots.txt
Закрытие от индексации Раздела по параметру в URL
Вместо заключения:
Как закрыть сайт от индексации name=»robots»?
Инструкция по изменению файла robots.txt
Способ от сеошников, через robots.txt
Заключение
В заключение

Как закрыть сайт от индексации в WordPress?

Данный способ, наверное, самый простой, и владельцам сайтов, которые созданы на базе CMS WordPress, очень повезло. Дело в том, что в данной CMS предусмотрена возможность закрытия сайта от индексации при установке движка на хостинг. В случае если вы не сделали этого при установке, вы всегда можете это сделать в настройках. Для этого вам нужно:

1.В админпанели переходим в раздел «Настройки» → «Чтение».
2.Перелистываем открывшуюся страницу в самый низ, и отмечаем галочкой опцию показанную на скриншоте:
3.Сохраняем изменения.

Все. Теперь ваш сайт не будет индексироваться. Если открыть страницу в браузере и нажать комбинацию клавиш CTRL+U, мы сможем просмотреть код страницы, и увидим вот такую строку кода:

Данная запись была добавлена автоматически, после того как мы включили опцию запрета индексации в настройках.

Главное не забыть отключить эту опцию после завершения работ:)

Способы быстрой индексации сайта

The ultimate guide to the meta robots tag

Если добавить ваш новый веб-ресурс в поисковые системы, которые вы знаете, индексация сайта произойдет гораздо быстрей. Добавить в Yandex — https://webmaster.yandex.ru/addurl.xml, в Google — https://www.google.ru/intl/ru/addurl.html.

Нужно создать карту сайта. Зарегистрироваться в сервисах webmaster.yandex.ru и www.google.com/webmasters. Указать там ваш файл sitemap.xml.

Для ускорения индексации сайта вам поможет регистрация в социальных закладках и сетях (bobrdobr.ru, memori.ru, twitter.com, vkontakte.ru и др.). Там можно добавлять разные страницы вашего сайта.

Заведите свои блоги на my.ya.ru, blogspot.com, blogs.mail.ru, livejournal.com и др. Добавьте в них записи со ссылками на страницы вашего сайта. По мере возникновения новых страниц на сайте, для их быстрой индексации поисковиками, добавляйте ссылки в ваших блогах на эти страницы.

Стоит зарегистрироваться в нескольких популярных каталогах и рейтингах. К примеру, регистрация на LiveInternet и Рамблер ТОП100 способна ускорить индексацию сайта из-за того, что роботы довольно часто заглядывают в ТОПы.

Поисковые боты очень любят посещать популярные блоги с их комментариями. При этом роботы тщательно отслеживают все ссылки в блогах. Попробуйте посещать такие блоги и оставлять там ненавязчивые комментарии со ссылками. Старайтесь соблюдать правила блога и ссылки вставлять в специально отведенные для этого места во избежание удаления вашего комментария как спама.

Еще один похожий совет для ускорения индексации сайта — это комментарии на форумах с большой посещаемостью. Как раз на форумах, кстати, абсолютно не запрещено вставлять ссылки, если они имеют отношение к вашему ресурсу. Форумы посещаются ботами не хуже чем блоги.

Довольно трудоемкими, но популярными считаются способы быстрой индексации веб-ресурсов при помощи размещения на сторонних ресурсах большого количества статей со ссылками на ваш сайт. Трудоемкость заключается в написании огромного количества статей с интересным и актуальным содержанием. Эти статьи выполняют функцию, подобную каталогу ссылок.

Необходимо построить четкую и грамотную структуру сайта. Ее построение должно быть легким и удобным для работы поисковых роботов со страницами сайта. Достичь этого вовсе не трудно. Принцип заключается в том, чтобы ссылки на всех страницах сайта направляли посетителя с одной страницы на другую.

Если ваш проект содержит огромное количество страниц, то для быстрой индексации сайта следует обратить внимание на следующий метод. Робот поисковика считывает и анализирует информацию, постепенно передвигаясь по страницам сайта

При довольно значительном количестве страниц он может просто не добраться до части последних страниц, которые значительно удалены от главной. При этом индексация сайта в поисковых системах ухудшается.
Идеальной в таком случае является древообразная четкая структура карты вашего сайта, в которой каждому ответвлению будет соответствовать некоторый подраздел с меньшим количеством страниц. Каждая страница сайта, желательно, должна быть в удалении не более трех кликов от главной.

В случае, если отдельные страницы сайта поисковые роботы не проиндексировали, следует ссылки на эти страницы разбросать по сторонним ресурсам. При индексации сайтов с вашими ссылками робот обязательно посетит и ваши страницы.

Чтобы индексация сайта происходила быстрей, необходимо обеспечить более частое посещение роботами его страниц. Для достижения этого вам придется довольно часто обновлять страницы сайта и пополнять новой информацией

И самое важное при этом наполнять сайт статьями и текстами со стопроцентной уникальностью

Зачем сайт закрывают для индекса?

Какие страницы следует закрывать от индексации

Есть несколько причин, которые заставляют вебмастеров скрывать свои проекты от поисковых роботов. Зачастую к такой процедуре они прибегают в двух случаях:

1. Когда только создали блог и меняют на нем интерфейс, навигацию и прочие параметры, наполняют его различными материалами. Разумеется, веб-ресурс и контент, содержащийся на нем, будет не таким, каким бы вы хотели его видеть в конечном итоге. Естественно, пока сайт не доработан, разумно будет закрыть его от индексации Яндекса и Google, чтобы эти мусорные страницы не попадали в индекс.
  Не думайте, что если ваш ресурс только появился на свет и вы не отправили поисковикам ссылки для его индексации, то они его не заметят. Роботы помимо ссылок учитывают еще и ваши посещения через браузер.
2. Иногда разработчикам требуется поставить вторую версию сайта, аналог основной на которой они тестируют доработки, эту версию с дубликатом сайта лучше тоже закрывать от индексации, чтобы она не смогла навредить основному проекту и не ввести поисковые системы в заблуждение.

Директивы метатега robots и X-Robots-Tag

Что такое яндекс вебмастер и как им пользоваться

Два метода управления индексацией отличаются синтаксисом и способом внедрения. Метатег robots размещают в html-коде страницы и заполняют его атрибуты — параметры с именем робота (name) и командами для него (content). Тег x-robots добавляют в файл конфигурации и атрибуты в этом случае не используют.

Запрет индексации контента роботом Google с помощью метатега robots выглядит так:

Запрет индексации контента роботом Google с помощью тега x-robots имеет такой вид:

При этом у метатегов robots и X-Robots-Tag общие директивы — команды для обращения к роботам поисковиков. Рассмотрим список актуальных директив для разных поисковых систем и их функции.

Функции директив и их поддержка разными поисковиками

НАЗВАНИЕ	ФУНКЦИЯ ДИРЕКТИВЫ	YANDEX	BING	YAHOO!
index/noindex	Разрешение/запрет индексации текста. Чаще всего используют noindex, чтобы скрыть страницу из результатов выдачи.	+	+	+	+
follow/nofollow	Разрешение/запрет перехода роботом по ссылкам на странице.	+	+	+	+
archive/noarchive	Разрешение/запрет показа в поиске кэшированной версии страницы.	+	+	+	+
all/none	Сочетает в себе две директивы, отвечающие за индексацию текста и ссылок. all — эквивалент index, follow (используется по умолчанию). none — эквивалент noindex, nofollow.	+	+	–	+
nosnippet	Запрет отображения сниппета (фрагмента текста) или видео в результатах поиска.	+	–	+	–
max-snippet	Ограничивает размер сниппета. Формат директивы: max-snippet:, где number — количество символов.	+	–	–	+
max-image-preview	Задает максимальный размер изображений для показа страницы в поиске. Формат директивы: max-image-preview:, где setting может иметь значение none, standard или large.	+	–	–	+
max-video-preview	Ограничение длительности видео, которые отображаются в поиске. Значение указывают в секундах. Также можно задавать статическое изображение (0) или снимать ограничения (-1). Формат директивы: max-video-preview:	+	–	–	+
notranslate	Запрет перевода страницы в выдаче.	+	–	–	–
noimageindex	Запрет индексации изображений страницы.	+	–	–	–
unavailable_after	Запрет показа страницы в поиске после определенной даты. Директиву указывают в формате unavailable_after: [дата/время].	+	–	–	–
noyaca	Запрет применения описания из Яндекс.Каталога в сниппете.	–	+	–	–

В таблице приведены как запрещающие, так и разрешающие команды. Однако индексация открытого» содержимого сайта происходит по умолчанию и директивы вроде index и follow можно не прописывать.

Сравнение директив Google и Яндекс

Как видно в таблице выше, у Google и Яндекса есть как общие, так и уникальные команды. В Google это nosnippet, max-snippet, max-image-preview, max-video-preview, notranslate, noimageindex, unavailable_after. В Яндексе — noyaca.

Теперь рассмотрим, какие из директив можно использовать в метатеге robots, а какие — в теге X-Robots, чтобы их понимали боты Яндекса и Google.

Директива	Метатег robots Google	Заголовок X-Robots-Tag Google	Метатег robots Yandex	Заголовок X-Robots-Tag Yandex
noindex	+	+	+	+
nofollow	+	+	+	+
noarchive	+	+	+	+
index/ follow/ archive	+	+	+	–
none	+	+	+	+
all	+	+	+	–
nosnippet	+	+	–	–
max-snippet	+	+	–	–
max-snippet	+	+	–	–
max-image-preview	+	+	–	–
max-video-preview	+	+	–	–
notranslate	+	+	–	–
noimageindex	+	+	–	–
unavailable_after	+	+	–	–
noyaca	–	–	+	–

Пример настройки файла robots.txt

Давайте разберем на примере, как настроить файл robots.txt. Ниже находится пример файла, значение команд из которого будет подробно рассмотрено в статье.

В данном файле мы видим, что от поисковых систем Яндекс и Google закрыты от индексации все документы на сайте, кроме страницы /test.html

Остальные поисковые системы могут индексировать все документы, кроме:

документов в разделах /personal/ и /help/
документа по адресу /index.html
документов, адреса которых включают параметр clear_cache=Y

Последние две команды требуют отдельного внимания.

Командой /index.html закрыт от индексации дубль главной страницы сайта. Как правило, главная страница доступна по двум адресам:

site.com
site.com/index.html или site.com/index.php

Если не закрыть второй адрес от индексации, то в поиске может появиться две главных страницы!

Команда Disallow: /*?clear_cache=Y закрывает от индексации все страницы, в адресах которых используется последовательность символов ?clear_cache=Y. Часто различный функционал на сайте, например, сортировки или формы подбора добавляют к адресам страниц различные параметры, из-за чего генерируется множество страниц-дублей. Закрывая дубли с параметрами от индексации, Вы решаете проблему попадания дублей в базу поисковых систем.

Посмотрите, какие страницы необходимо закрывать от индексации, в статье про проведение технического аудита сайта.

Директивы файла robots.txt для wordpress

Теперь давайте рассмотрим поподробнее:

1 – 16 строки блок настроек для всех роботов

User-agent: — Это обязательная директива, определяющая поискового агента. Звездочка говорит, что директива для роботов всех поисковых систем. Если блок предназначен для конкретного робота, то необходимо указать его имя, например Yandex, как в 18 строке.

По умолчанию для индексирования разрешено всё. Это равнозначно директиве Allow: /.

Поэтому для запрета индексирования конкретных папок или файлов используется специальная директива Disallow: .

В нашем примере с помощью названий папок и масок названий файлов, сделан запрет на все служебные папки вордпресса, такие как admin, themes, plugins, comments, category, tag… Если указать директиву в таком виде Disallow: /, то будет дан запрет индексирования всего сайта.

Allow: — как я уже говорил директива разрешающая индексирование папок или файлов. Её нужно использовать когда в глубине запрещённых папок есть файлы которые всё же надо проиндексировать.

В моём примере строка 3 Disallow: /wp-admin — запрещает индексирование папки /wp-admin, а 14 строка Allow: /wp-admin/admin-ajax.php — разрешает индексирование файла /admin-ajax.php расположенного в запрещенной к индексированию папке /wp-admin/.

17 — Пустая строка (просто нажатие кнопки Enter без пробелов)

18 — 33 блок настроек конкретно для агента Яндекса (User-agent: Yandex). Как вы заметили этот блок полностью повторяет все команды предыдущего блока. И возникает вопрос: «А на фига такая заморочка?». Так вот это всё сделано всего лишь из-за нескольких директив которые рассмотрим дальше.

34 — Crawl-delay — Необязательная директива только для Яндекса. Используется когда сервер сильно нагружен и не успевает отрабатывать запросы робота. Она позволяет задать поисковому роботу минимальную задержку (в секундах и десятых долях секунды) между окончанием загрузки одной страницы и началом загрузки следующей. Максимальное допустимое значение 2,0 секунды. Добавляется непосредственно после директив Disallow и Allow.

35 — Пустая строка

Host: https://site.ru

37 — Пустая строка (просто нажатие кнопки Enter без пробелов) обязательно должна присутствовать.

38 — Sitemap: http://site.ru/sitemap.xml — адрес расположения файла (файлов) карты сайта sitemap.xml (ОБЯЗАТЕЛЬНАЯ директива), располагается в конце файла после пустой строки и относится ко всем блокам.

От сисадмина. Запрет по Useragent через .htaccess

В корне сайт в файл .htaccess требуется добавить стоки

<IfModule mod_setenvif.c>
    SetEnvIfNoCase User-Agent Googlebot search_bot
    SetEnvIfNoCase User-Agent YandexBot search_bot
    SetEnvIfNoCase User-Agent yandex.com/bots search_bot
    SetEnvIfNoCase User-Agent Slurp search_bot
    SetEnvIfNoCase User-Agent dotbot search_bot
    SetEnvIfNoCase User-Agent BLEXbot search_bot
    SetEnvIfNoCase User-Agent MJ12bot search_bot
    SetEnvIfNoCase User-Agent Ahrefsbot search_bot
    SetEnvIfNoCase User-Agent Semrush search_bot
    <Limit GET POST>
        Order Allow,Deny
        Allow from all
        Deny from env=search_bot
    </Limit>
</IfModule>

Так мы запрещает доступ к серверу пользователям, чье имя браузера содержит Googlebot, YandexBot… Так помечают себя поисковики.

Строка «yandex.com/bots» добавлена, так как имя браузера бота яндекса не всегда содержит YandexBot. Может быть «Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots)». Список всех вариантов роботов от Яндекс.

Так поисковики не смогут попасть на сайт, соответственно не смогут его и проиндексировать. Но работать с . htaccess следует аккуратно, так как можно «положить» весь сайт.

Чтобы проверить способ, в браузер потребуется установить расширение для смены useragent. В маркетплейсе расширений ищите «User agent switcher», устанавливайте любое, в котором можно ставить свое значение, а не только выбирать из списка.. В расширении ставите useragent из списка роботов яндекс, ссылка выше.

Метатег robots: cинтаксис, виды и примеры

Напомним, что метатег robots — это информация для робота в html-коде. Этот тег размещают в верхнем разделе <head> в html-документе и у него неизменно есть два атрибута — name и content, в которых указывают название робота и директивы для него. Атрибуты метатега всегда должны быть заполнены. В упрощенном виде он выглядит так:

Атрибут name

Этот параметр определяет тип метатега в зависимости от данных страницы, которые он передает поисковым системам. Например, meta name=»description» — краткое описание страницы в сниппете; meta name=»viewport» нужен для оптимизации сайта для мобильных устройств; meta http-equiv=»Content-Type» задает тип документа и его кодировки.

В случае с метатегом meta name=»robots» атрибут name содержит имя робота, для которого действуют правила, перечисленные в атрибуте content. Его функция аналогична директиве User-agent в robots.txt, содержащей идентификатор бота той или иной поисковой системы.

Значение robots используют, если нужно обратиться к краулерам всех поисковиков. Тег meta «googlebot», «yandex» или «любой другой бот» говорит о том, что инструкции адресованы соответствующему поисковому роботу. Если краулеров несколько, для каждого создают отдельный тег.

Атрибут content

Этот атрибут содержит команды, с помощью которых управляют индексированием контента на странице и отображением его элементов в результатах поиска. В него добавляют директивы из приведенных выше таблиц.

Примечания:

Оба атрибута не чувствительны к регистру.
Если значения атрибутов отсутствуют или заполнены неверно, бот проигнорирует запрет индексации.
При обращении к нескольким роботам используют отдельный метатег robots для каждого. Директивы атрибута content можно перечислять через запятую в одном метатеге robots.

Файл robots.txt и метатег robots meta

При обходе сайта поисковые боты в первую очередь обращаются к файлу robots.txt. В нем они получают рекомендации по сканированию страниц и затем переходят к их обработке. Поэтому если доступ к странице закрыт в файле robots.txt, робот не сможет просканировать страницу и обнаружить в коде запрет индексации.

Если страница содержит атрибут noindex, но при этом закрыта от сканирования в robots.txt, она может отобразиться в результатах поиска — например, если робот найдет страницу, перейдя по обратной ссылке из другого источника. Содержимое файла robots.txt является общедоступным, поэтому нельзя быть уверенными, что на «закрытые» страницы не будет переходов.

Следовательно, закрывая страницу от индексации метатегом robots, стоит убедиться в отсутствии препятствий для ее сканирования в файле robots.txt. К исключениям, когда robots.txt имеет смысл использовать для скрытия из индекса, относятся изображения.

Как внедрять метатег robots

Через html-редактор

Редактирование страниц аналогично работе с текстовым файлом. Нужно найти документ, открыть его в текстовом редакторе, добавить метатеги robots в раздел <head> и сохранить.

Страницы находятся в корневом каталоге сайта, куда можно перейти из персонального аккаунта хостинг-провайдера или по FTP. Перед внесением правок стоит сохранить исходный вариант документа.

Через CMS

Более простой способ закрыть страницу от индексации — через админпанель CMS. Например, SEO-плагины «All in one SEO» и «Yoast SEO» для WordPress дают возможность запретить индексацию или переходы по ссылкам в режиме редактирования страницы.

Как проверить метатег robots

Поисковой машине нужно время, чтобы проиндексировать/деиндексировать страницу. Чтобы убедиться в отсутствии страницы в поиске, нужно воспользоваться сервисом для вебмастеров или плагином для браузера, проверяющим метатеги, например, SEO META in 1 CLICK для Chrome.

Google и Яндекс дают возможность проверить наличие страницы в индексе — для этого есть инструмент «Проверка URL» Google Search Console и аналогичная опция «Проверить статус URL» в Яндекс.Вебмастере.

Если анализ страницы показал, что метатег robots не сработал, нужно проверить, не заблокирован ли этот URL в файле robots.txt, обратившись к этому файлу через строку браузера или используя инструмент для проверки от или Яндекса.

Также проверить наличие страниц в индексе для разных поисковых систем можно с помощью инструмента «Проверка индексации» в SE Ranking.

Частные случаи закрытия от индексации

Закрыть от индексации страницы пагинации в Битрикс

Чтобы закрыть от индексации страницы пагинации, добавьте следующую запись в robots.txt

Внимание: добавлять строки надо после строки User-Agent: *

Disallow: ?PAGEN_*
Disallow: &PAGEN_*

Должно получиться так:

Закрыть страницу от индексации

Тут есть 2 пути:

Через файл роботс. Добавьте в файл robots.txt в корне вашего сайта строку, после строки User-Agent: *, где /your_page/ — адрес вашей страницы, без указания домена:

Disallow: /your_page/

Либо через свойства страницы в Битрикс:

Нажмите в панели над сайтом Изменить страницу — Заголовок и свойства страницы — Редактировать в панели управления — Вкладка Свойства — нажмите Еще — там спишите свойство robots, значение noindex. Сохраните

Noindex

Теперь речь пойдёт о теге noidex. Этот тег придумал небезызвестный всем нам поисковик Яндекс.

Он раньше не распознавал тег rel=”nofollow”, поэтому все сеошники пользовались именно тегом noidex для закрытия своих ссылок от индексации Яндекса.

Но вскоре ситуация изменилась — Яндекс стал учитывать nofollow и вебмастера начали очень редко использовать noidex.

Например, различные коды с использование скриптов. Это связано с тем, что тег noidex в отличие от nofollow закрывает от индексации не определённую ссылку, а конкретный участок кода.

На моём блоге я нигде не использую тег noidex, а применяю только nofollow. Вам тоже, врятли, он понадобится.

Даже баннеры на сегодняшний день очень редко выводятся через скрипт. В основном с помощью php-кода:

Однако, если Вам позарез нужно воспользоваться noidex, прописывать его в коде нужно правильно. Вот несколько рекомендаций:

1. Если в коде используется тег, например вида <div>, то <noindex> ставится перед ним и после закрывающегося тега </div>:

2. В любом скрипте тег ставится в начале <noindex> и в конце скрипта </noindex>:

Проверка закрытия ссылок от индексации

Для того, чтобы проверить, если ли у Вас на сайте не закрытые от индексации внешние или ненужные ссылки, можно использовать специальный сервис для анализа продвижения сайтов: http://be1.ru/stat/.

Переходите по этой ссылке, добавляйте свой блог и Вы сможете просмотреть какие ссылки не закрыты от индекса.

Закрытые ссылки вашего блога на этом сервисе будут помечены красными восклицательными знаками !

Это здорово поможет Вам отыскать незакрытые ссылки и исправить положение. Кроме того, этот сервис помогает увидеть ошибки при использовании тега noindex на своём блоге.

Мне кажется, на сегодня всё. Задавайте вопросы, если что-то не понятно. Применяйте на практике этот метод и продвигайте свой блог.

До новых встреч в новых статьях!

robots.txt в WordPress

В WordPress запрос на страницу обрабатывается отдельно и для него «налету» через PHP создается контент файла robots.txt. Поэтому не рекомендуется физически создавать файл robots.txt в корне сайта! Потому что при таком подходе никакой плагин или код не сможет нормально изменить этот файл, а вот динамическое создание контента для страницы позволит гибко его изменять.

Изменить содержание robots.txt можно через:

Хук robots_txt.
Хук do_robotstxt.

Рассмотрим как использовать оба хука.

По умолчанию WP 5.5 создает следующий контент для страницы :

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: http://example.com/wp-sitemap.xml

Смотрите do_robots() — как работает динамическое создание файла robots.txt.

Этот хук позволяет дополнить уже имеющиеся данные файла robots.txt. Код можно вставить в файл темы functions.php.

// Дополним базовый robots.txt
// -1 before wp-sitemap.xml
add_action( 'robots_txt', 'wp_kama_robots_txt_append', -1 );

function wp_kama_robots_txt_append( $output ){

	$str = '
	Disallow: /cgi-bin             # Стандартная папка на хостинге.
	Disallow: /?                   # Все параметры запроса на главной.
	Disallow: *?s=                 # Поиск.
	Disallow: *&s=                 # Поиск.
	Disallow: /search              # Поиск.
	Disallow: /author/             # Архив автора.
	Disallow: */embed              # Все встраивания.
	Disallow: */page/              # Все виды пагинации.
	Disallow: */xmlrpc.php         # Файл WordPress API
	Disallow: *utm*=               # Ссылки с utm-метками
	Disallow: *openstat=           # Ссылки с метками openstat
	';

	$str = trim( $str );
	$str = preg_replace( '/^+(?!#)/mU', '', $str );
	$output .= "$str\n";

	return $output;
}

В результате перейдем на страницу и видим:

User-agent: *
Disallow: /wp/wp-admin/
Allow: /wp/wp-admin/admin-ajax.php
Disallow: /cgi-bin             # Стандартная папка на хостинге.
Disallow: /?                   # Все параметры запроса на главной.
Disallow: *?s=                 # Поиск.
Disallow: *&s=                 # Поиск.
Disallow: /search              # Поиск.
Disallow: /author/             # Архив автора.
Disallow: */embed              # Все встраивания.
Disallow: */page/              # Все виды пагинации.
Disallow: */xmlrpc.php         # Файл WordPress API
Disallow: *utm*=               # Ссылки с utm-метками
Disallow: *openstat=           # Ссылки с метками openstat

Sitemap: http://wptest.ru/wp-sitemap.xml

Обратите внимание, что мы дополнили родные данные ВП, а не заменили их. Этот хук позволяет полностью заменить контент страницы

Этот хук позволяет полностью заменить контент страницы .

add_action( 'do_robotstxt', 'wp_kama_robots_txt' );

function wp_kama_robots_txt(){

	$lines = [
		'User-agent: *',
		'Disallow: /wp-admin/',
		'Disallow: /wp-includes/',
		'',
	];

	echo implode( "\r\n", $lines );

	die; // обрываем работу PHP
}

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Зачем закрывать сайт от индексации

Причин, по которым необходимо скрыть сайт от поисковых
систем может быть множество. Мы не можем знать личных мотивов всех вебмастеров.
Давайте выделим самые основные объективные причины, когда закрытие сайта от
индексации оправданно.

Сайт еще не готов

Ваш сайт пока не готов для просмотра целевой аудиторией. Вы
находитесь в стадии разработки (или доработки) ресурса. В таком случае его
лучше закрыть от индексации. Тогда сырой и недоработанный ресурс не попадет в
индексную базу и не испортит «карму» вашему сайту. Открывать сайт лучше после его полной
готовности и наполненности контентом.

Сайт узкого содержания

Ресурс предназначен для личного пользования или для узкого круга посетителей. Он не должен быть проиндексирован поисковыми системами. Конечно, данные такого ресурса можно скрыть под паролем, но это не всегда необходимо. Часто, достаточно закрыть его от индексации и избавить от переходов из поисковых систем случайных пользователей.

Переезд сайта или аффилированный ресурс

Вы решили изменить главное зеркало сайта. Мы закрываем от индексации старый домен и открываем новый. При этом меняем главное зеркало сайта. Возможно у Вас несколько сайтов по одной теме, а продвигаете вы один, главный ресурс.

Стратегия продвижения

Возможно, Ваша стратегия предусматривает продвижение ряда доменов, например, в разных регионах или поисковых системах. В этом случае, может потребоваться закрытие какого-либо домена в какой-либо поисковой системе.

Как закрыть страницы от индексации: три базовых способа

Добавление метатега Robots

Наличие атрибута noindex в html-коде документа сигнализирует поисковым системам, что страница не рекомендована к индексации, и ее необходимо изъять из результатов выдачи. В начале html-документа в блоке <head> прописывают метатег:

Эта директива воспринимается краулерами обеих систем — страница будет исключена из поиска как в Google, так и в «Яндексе» даже если на нее проставлены ссылки с других документов.

Варианты использования метатега Robots

Закрытие в robots.txt

Закрыть от индексации отдельные страницы или полностью весь сайт (когда это нужно — мы поговорим ниже) можно через служебный файл robots.txt. Прописав в нем одну из директив, поисковым системам будет задан рекомендуемый формат индексации сайта. Вот несколько основных примеров использования robots.txt

Запрет индексирования сайта всеми поисковыми системами:

User-agent: *Disallow: /

Закрытие обхода для одного поисковика (в нашем случае «Яндекса»):

User-agent: YandexDisallow: /

Запрет индексации сайта всеми поисковыми системами, кроме одной:

User-agent: *Disallow: /User-agent: YandexAllow: /

Закрытие от индексации конкретной страницы:

User-agent: *Disallow: / #частичный или полный URL закрываемой страницы

Отдельно отметим, что закрытие страниц через метатег Robots и файл robots.txt — это лишь рекомендации для поисковых систем. Оба этих способа не дают стопроцентных гарантий, что указанные документы не будут отправлены в индекс.

Настройка HTTP-заголовка X-Robots-Tag

Указать поисковикам условия индексирования конкретных страниц можно через настройку HTTP-заголовка X-Robots-Tag для определенного URL на сервере вашего сайта.

Заголовок X-Robots-Tag запрещает индексирование страницы

Закрываем сайт от индексации в robots.txt

Обращение к Вашему сайту поисковой системой начинается с
прочтения содержимого файла robots.txt. Это служебный файл со специальными
правилами для поисковых роботов.

Подробнее о директивах robots.txt:

Вебмастер.Яндекс
Справка.Google

Самый простой и быстрый способ это при первом обращении к
вашему ресурсу со стороны поисковых систем (к файлу robots.txt) сообщить
поисковой системе о том, что этот сайт закрыт от индексации. В зависимости от
задач, сайт можно закрыть в одной или нескольких поисковых системах. Вот так:

Закрыть во всех системах	Закрыть только в Яндекс	Закрыть только в Google
User-agent: * Disallow: /	User-agent: Yandex Disallow: /	User-agent: Googlebot Disallow: /

Закрытие от индексации Раздела по параметру в URL

Для этого можно использовать 2 метода:

Txt
Meta robots

Рассмотрим 1 вариант

К примеру, у нас на сайте есть раздел, в котором находится неуникальная информация или Та информация, которую мы не хотим отдавать на индексацию и вся эта информация находится в 1 папке или 1 разделе сайта.

Тогда для закрытия данной ветки достаточно добавить в Robots.txt такие строки:

Если закрываем папку, то:

Disallow: /папка/

Если закрываем раздел, то:

Disallow: /Раздел/*

Также можно закрыть определенное расшерение файла:

User-agent: *

Disallow: /*.js

Данный метод достаточно прост в использовании, однако как всегда не гарантирует 100% неиндексации.

Потому лучше в добавок делать еще закрытие при помощи

META NAME=»ROBOTS» CONTENT=»NOINDEX”

Который должен быть добавлен в секцию Хед на каждой странице, которую нужно закрыть от индекса.

Точно также можно закрывать от индекса любые параметры Ваших УРЛ, например:

?sort

?price

?”любой повторяющийся параметр”

Однозначно самым простым вариантом является закрытие от индексации при помощи Роботс.тхт, однако, как показывает практика — это не всегда действенный метод.

Вместо заключения:

Данные в панели веб-мастеров обновляются раз в неделю, с воскресенья на понедельник. Это касается даже «самого быстрого метода» — ручного удаления.
После всех махинаций мне удалось удалить не нужные страницы из индекса, но, как ни странно число результатов выдаваемых по запросу «site:elims.org.ua» не особо изменилось. Правда вручную я удалил только 90 страниц, дальше надоело =) Буду надеяться что проставленные метатеги и запреты в robots.txt через несколько месяцев дадут свой результат.

UPD 2013.07.27:

Прошло более двух месяцев, но страницы /trackback/ /feed/ все равно остаются в поиске, с таким описанием:

Правда я эти страницы не удалял через инструмент ручного удаления из панели вебмастеров, так как они потом могут снова появиться в поиске через 90 дней. Посему единственно правильный метод, как я думаю, это сначала добиться того, чтоб на вашем сайте не присутствовали ссылки на не нужные страницы, и потом эти страницы удалить через инструмент ручного удаления.

Опубликовано в рубрике SEO, WordPress

Как закрыть сайт от индексации name=»robots»?

Данный способ заключается в самостоятельном добавлении записи, показанной на предыдущем скриншоте. Данный вариант подойдет для тех сайтов, которые создаются без использования CMS.

Вам всего лишь нужно в начале каждой страницы, перед закрытием тега </head> добавить эту запись:

PHP

1	<meta name=’robots’content=’noindex,follow’>

В поле content можно задать следующие условия:

Запрещающие условия:

none – запрет для страниц и ссылок;
noindex – запрет для страниц;
nofollow – запрещает индексацию ссылок на странице;

Разрещающие условия:

all – разрешает индексацию страниц и ссылок;
index — разрешает индексацию страниц;
follow – разрешает индексацию ссылок на странице;

Зная данный набор условий, мы можем составить альтернативную запись для полного запрета для сайта и ссылок на нем. Выглядеть она будет вот так:

PHP

1	<meta name=’robots’content=’none’>

Инструкция по изменению файла robots.txt

Мы не ставим целью дать подробную инструкцию по всем
способам подключения к хостингу или серверу, укажем самый простой способ на наш
взгляд.

Файл robots.txt всегда находится в корне Вашего сайта.
Например, robots.txt сайта iqad.ru будет
находится по адресу:

Для подключения к сайту, мы должны в административной панели
нашего хостинг провайдера получить FTP (специальный протокол передачи файлов
по сети) доступ: <ЛОГИН> И <ПАРОЛЬ>.

Авторизуемся в панели управления вашим хостингом и\или сервером, находим раздел FTP и создаем ( получаем ) уникальную пару логин \ пароль.

В описании
раздела или в разделе помощь, необходимо
найти и сохранить необходимую информацию для подключения по FTP к серверу,
на котором размещены файлы Вашего сайта. Данные отражают информацию, которую
нужно указать в FTP-клиенте:

Сервер (Hostname) – IP-адрес сервера, на котором размещен Ваш аккаунт
Логин (Username) – логин от FTP-аккаунта
Пароль (Password) – пароль от FTP-аккаунта
Порт (Port) – числовое значение, обычно 21

Далее, нам потребуется любой FTP-клиент, можно
воспользоваться бесплатной программой filezilla (https://filezilla.ru/).
Вводим данные в соответствующие поля и нажимаем подключиться.

FTP-клиент filezilla интуитивно прост и понятен: вводим cервер (host) + логин (имя пользователя) + пароль + порт и кнопка {быстрое соединение}. В поле справа находим файл robots.txt и изменяем его. Не забудьте сохранить изменения.

После подключения прописываем необходимые директивы. См.
раздел:

Способ от сеошников, через robots.txt

Самый распространённый и простой способ. В корне сайт надо найти файл robots.txt и добавить туда строки

User-agent: *
Disallow: /

Редактировать файл можно через FTP или через админку Битрикс. Если работаете по второму способу, открывайте файл как PHP, потому что только в этом случае не будет лишнего форматирования файла.

Но этот способ не надежный. Google всё равно может выводить сайт в поиске, только будет указано «Информация об этой странице недоступна.»

Так же, если вы закрываете от индексации тестовый сайт и используете систему контроля версий, например гит, то файл может перенестись на продакшн сайт.

Чтобы проверить, откройте файл в браузере по адресу http://ваш_сайт/robots.txt. Там должны быть строки, которые мы добавили выше.

Заключение

Как видите, способов закрытия проекта от ПС очень много. Я рассмотрел наиболее популярные и действенные варианты. Надеюсь, что этот материал поможет вам в решении ваших проблем. Все на самом деле очень просто, особенно если вы используете WordPress или аналогичную платформу. Достаточно просто активировать настройку, и проект будет закрыт.

Также можно воспользоваться универсальным способом и закрыть ресурс через robots.txt. Таким вариантом пользуется абсолютное большинство вебмастеров, и никаких нареканий у них не возникает. В любой удобный момент можно просто изменить содержимое файла и отправить сайт на переиндексацию.

В заключение

Ситуации, когда необходимо закрыть контент от индексации случаются довольно часто, иногда нужно почистить индекс, иногда нужно скрыть какой-то нежелательный материал, иногда нужно взломать чужой сайт и в роботсе указать disalow all, чтобы выбросить сайт зеркало из индекса.

Основные и самые действенные методы мы рассмотрели, как же их применять — дело вашей фантазии и целей, которые вы преследуете.

Хорошие статьи в продолжение:

— Стоит ли открывать рубрики для индексации, если в разных рубриках выводятся одни и те же посты?

— Как открывать страницы поиска в интернет магазине — руководство