Вы здесь:
Настройка файла robots.txt должна допустить его попадания в индекс

Автор (Прочитано 568 раз)

 

Ninel

  • Новичок
  • *
  • 25
    Сообщений
  • Карма: +0/-0
  • seotoker
    • Просмотр профиля
В прошлом году сотрудники Google обсудили ситуацию попадания в поиск технических файлов robots.txt и sitemap.xml. Мнения получились неоднозначными: один считает, что robots.txt может попадать в индекс, так как это такой же контент, который может быть просканирован поисковой системой.

В ответ на это Джон Мюллер написал, что если оба документа ранжируются по обычным запросам, то такому сайту требуется улучшение оптимизации. Ни один из этих документов не нужен пользователям, это техническая информация, нужная только роботам.

Настройка файла robots.txt — первый шаг SEO
Этот документ позволит сэкономить бюджет сканирования и направить его на индексацию только действительно важных страниц. При использовании файла учитывайте основные рекомендации:
1.   Разные директивы «user-agent»: для робота Google, Яндекс и всех остальных.
2.   Указание пути к sitemap.xml.
3.   Директива «host» перестала быть обязательной для Яндекс. Google и сам справляется с определением основного зеркала.
4.   «Disallow»сообщает, что раздел запрещен для индексации.
5.    «Allow» — страницы, приоритетные для сканирования.

В большинстве случаев настройка файла robots.txt для разных систем не различается. Для googlebot важно разрешить индексацию шаблона сайта.

Что надо закрывать в первую очередь
Во-первых, системные документы (скрипты, таблицы, административная панель и др.). Эти данные не нужны роботам. Во-вторых, страница корзины, оформления заказа, фильтрации и сравнения товаров. Это актуально в случае, если вы продвигаете интернет-магазин. В-третьих, внутренний поиск по сайту. Результаты могут создать кучу дублей, поэтому закрываем его в настройках файла robots.txt.

 

 

Seotoker

  • Администратор
  • Новичок
  • *****
  • 9
    Сообщений
  • Карма: +0/-0
    • Просмотр профиля
Да, еще могу посоветовать не надеяться благодаря файлу роботс запустить роботам только по нужным страницам для сканирования. Как написали в статье, роботс – это не прямое руководство к действию роботов, они все равно ходят по всем опубликованным страницам. Чтобы сэкономить бюджет, надо использовать http заголовок x-robots-rag. Вот тогда вы точно будете управлять контентом на вашем сайте. А роботс это так. Конечно, он должен быть на всех сайтах, но ему придают слишком большое значение, на мой взгляд.
 

 

Vika

  • Новичок
  • *
  • 11
    Сообщений
  • Карма: +0/-0
  • seotoker
    • Просмотр профиля
У меня вопрос по теме: как прописать директивы, если я использую два файла сайтмап? Прописывать каждый с новой строки или через запятую?
 

 

Катрин

  • Новичок
  • *
  • 14
    Сообщений
  • Карма: +0/-0
  • seotoker
    • Просмотр профиля
А вам зачем две карты? Я бы попробовала вложить одну в другую и разместить в одной директиве
 

 

Vlad

  • Новичок
  • *
  • 16
    Сообщений
  • Карма: +0/-0
  • seotoker
    • Просмотр профиля
А вам зачем две карты? Я бы попробовала вложить одну в другую и разместить в одной директиве

Обычно так разделяют карты ссылок на сайте и карты ссылок на изображения. Конечно, два файла сайтмап можно использовать и в этом случае каждый прописывается с новой строки с указанием директивы “Sitemap: site.com/sitemap.xml”
 

 

Катрин

  • Новичок
  • *
  • 14
    Сообщений
  • Карма: +0/-0
  • seotoker
    • Просмотр профиля
to Vlad

Спасибо! Да, всё верно, одна карта для ссылок, другая для изображений. Вычитала, что такой метод предпочтительнее для индексации картинок. А вы что думаете?
 

 

Nice

  • Новичок
  • *
  • 11
    Сообщений
  • Карма: +0/-0
  • seotoker
    • Просмотр профиля
Я думаю, что сайтмапов может быть сколько вашей душе угодно. Другое дело, что это никак не повлияет на ускорение обхода сайта. Для этого надо лучше поработать над внутренней перелинковкой, тогда робот быстро просканирует информацию.
 

 

nikname

  • Новичок
  • *
  • 4
    Сообщений
  • Карма: +0/-0
  • seotoker
    • Просмотр профиля
Робот в любом случае будет обходить все ссылки, будут они расположены в одном-двух-трех или большем числе файлов)) Я бы посоветовал их объединить в один, тогда у вас будет одна директива и один итоговый файл.
<sitemapindex>
<sitemap>
<loc>site.ru/sitemap-1.xml</loc>
<lastmod>2020-01-23</lastmod>
</sitemap>
<sitemap>
<loc>site.ru/sitemap-2.xml</loc>
<lastmod>2020-01-23</lastmod>
</sitemap>
</sitemapindex>