Атака ботов

Недавно от хостинга одного из моих сайтов стали приходит предупреждения, что лимит нагрузки серьезно превышен и сайт может быть отключен. Надо было разбираться в чем дело, не откладывая в долгий ящик, ведь до грядущего отключения оставалось пару дней!

Первым делом я проверил, все ли в порядке с кешированием. С кешированием оказалось не всё в порядке и пришлось срочно взяться за доведение до ума своих и не своих компонентов. Когда это было сделано, количесто запростов в обычном режиме сократилось в 3 раза. Вон оно, спасение, подумал я, но не тут то было.

Нагрузка действительно упала в 2 раза, но при этом все равно была еще намного выше максимальной, причем, львиная доля обращений приходилась на страницу поиска. Я запросил у хостинга айпишнки, с которых приходит больше всего запросов. С помощью онлайн сервиса геопозиционирования я выяснил, что почти все они — боты яндекса. Среди них был еще оди какой-то мутный. Судя по всему, с него подтапливали конкуренты. Сама наивность! Они не знали, что они лишь капля в этом море.

Правки закрытие страница поиска и увеличение таймаута между запросами через файл robots.txt не возымели никакого результата, нагрузка продолжала бить все рекорды. Тогда, поскольку до анонсированного отключения оставалось меньше суток, пришлось пойти на крайние меры, и запретить доступ по айпишникам через файл .htaccess.

Результат не заставил себя долго ждать! Нагрузка упала на глазах и за весь следующий день не дошла даже до половины максимальной. Так что ура, апокалипсис отключение сайта отменяется, все живы и танцуют полчаса.

Уже несколько дней нагрузка ведет себя хрошо и не заставляет меня беспокоиться о ней. Однако, подозреваю, что блокировка через .htaccess — это не самое правильно решение. В скором времени начну постепенно снимать ее и наблюдать за изменениями. Тем более в этих ваших интернетах пишут, что robots.txt — очень неторопливое создание и изменения в нём начинают действовать только через сутки. Сутки ужа прошли, надо проверять!

А теперь самое интересное, что же так сильно грузило? Когда я анализировал запросы, я увидел, что боты не пользовались поиском, они напали на облако тегов. А так как тегов было много, и всех их комбинаций еще намного больше, то полное индексирование заняло бы далеко не месяц и даже не год. За это время от сайта осталась бы кучка кода на кладбище отключенных от интернета. Не зря умные люди сразу своетуют закрывать от роботов поиск, не зря.

2016-12-18 0 Битрикс, нагрузка, Разработка

Ваш комментарий

www.000webhost.com