Как робот Mail.ru испортил настроение в сетевом издании — уверены, что он еще не идет к вам?

Любое интернет-издание подключено к сервису дзен.Новости. Либо мечтает о таком подключении.У тех, кто «в деле», есть сотрудник (иногда не один), что присматривают за тем, как публикации участвуют в формировании т.н. «сюжета».

Аналогично — и у одного из воронежских коллег. Издание не новое, к сервису подключено еще во времена Яндекса.

И в один из дней случилось «страшное» — RSS работает, а экспорта нет. Про «дубликат» и «заблокировано» — они в курсе, но тут дело было в ином. Сервис просто отказывался видеть и обрабатывать то, что делали журналисты. И что самое печальное — без каких-либо предупреждений.

Хорошо, что поддержка ответила оперативно. В общем-то они и сами не поняли причину, но порекомендовали дополнить robot.txt директивой и для Mail.ru:

User-agent: Mail.ru

Allow: путь до экспортного файла без имени хоста (например, /file.rss)

Да, в их доках указано, что не обязательно открывать:

… по крайней мере, не закрывайте доступ к RSS-файлу и страницам сайта, ссылки на которые в файле передаются. Прописывать отдельно доступ к каждой странице сайта не нужно. Достаточно, чтобы доступ к разделу с этими страницами либо к URL с определённым паттерном не был запрещён.

из технических требований экспорта контента в сервис дзен.Новости

Помог коллегам robot.txt проверить, запретов для Mail.ru не было, впрочем, как и какого-либо иного упоминания этого User-agent.

Скопировал, вставил и… заработало!

Не призываю, все бросить и корректировать.

С другой стороны, пусть уж лучше и у вас будет, чем аналогичный нежданчик. Капризные эти роботы…

Есть вопрос или комментарий? Пишите!