Вторник, 06 Август 2013 23:17

Wordpress: боремся с паразитным трафиком

Лирическое отступление

 Паразитным трафиком является любой бесполезный и вредный трафик на сайте, который создает нагрузку, замедляет работу сайта и заставляет хостеров требовать от вас доплаты или перевод на более дорогой тариф. Бесполезным трафиком являются боты искалок, с которых на сайте нет трафика, например буржуйская Yahoo или украинская Meta, Rambler или Webalta. Одно дело когда бот заходит раз в день, узнать как у вас дела, и совсем другое дело когда он долбится с интервалом в секунду во все страницы подряд.

 Сюда же можно отнести трафик различных анализаторов и рейтингов, например Alexa, Solomono, SemRush и т.п. Их боты тщательно и тотально лазят по сайту для сбора информации о том кто, когда и как на кого либо ссылается, что пишет и чем занимается. А собранная статистика потом продается. И если от сбора данных еще не тепло, ни холодно, то активное топтание ботов по сайту приводит к тому, о чем я писал выше. Вредный трафик- это различные парсеры и граберы. Есть ряд движков, которые генерируют дорвеи на основе контентов чужих сайтов, есть граберы, которые полностью копируют и вытягивают сайт. Есть парсеры, которые тягают денно и нощно информацию с вашего сайта. Кроме создаваемой нагрузки наносится еще и прямой вред сайту, т.к. его контент растягивается и дублируется по огромному количеству говносайтов.

 И если поисковые боты в большинстве своем не стесняются сообщить, что они боты, то парсеры и граберы маскируются под обычных пользователей, выдавая себя в user-agent за броузер.

 Поэтому борьба с паразитным трафиком похожа на попытку очистить авгиевы конюшни. Но дело это полезное. Блокировать ненужный трафик можно на нескольких уровнях. Начнем с файла htaccess. Заблокированным в нем визитерам отдается страница ошибки, а не контент сайта. Вот статистика по одному из сайтов за месяц - почти 50 тыс. блокировок с ошибкой 403. И что было бы, если б они все попали на сайт...

 Разберемся, кого же мы будем блокировать. В этом поможет плагин анализа статистики ecSTATic. Почти всю необходимую информацию можно получить и из логов awstats, но у плагина есть преимущество в виде большой встроенной базы User-agent, помогающей разобраться кто есть ху.

 Вот так выглядит статистика Spider/Bots по последним посещенным ботам. Видно, что сайт исправно посещает гуглобот, что не может не радовать. Кроме этого видны посещения ботов Yandex, Google-mobileи т.п. И это тоже хорошо. А вот всех остальных нужно изучать и блокировать. Например видно, что бот MSN забрел картинку посмотреть. Если нажать на кнопочку more - узнаем о нем больше информации.

 Видим, что MSN находится в подсети с айпишниками в диапазоне 199.30.16.0 - 199.30.31.255 или в формате CIDR 199.30.16.0/20

 Заблокируем этот диапазон в htaccess, добавив строку с IP и примечание:

 deny from 199.30.16.0/20 #MSN

 После подробного изучения логов посещений своего сайта с помощью ecSTATic вы узнаете много нового и нехорошего о ботах Ahrefs и darwin, Spinn3r и Majestic, eZoomsи sistrix, а файл htaccess станет неприлично большой.Полный список известных мне адресов не даю, т.к. у каждого на сайтах своя дискотека и у вас могут тусоваться такие боты, которые не приходили ко мне и наоборот. И здесь может пригодиться список айпишников, по которым были заблокированы попытки подобрать пароль к сайту.

 Важно! Следите за тем, чтобы не забанить нужные айпишники. По большому счету - это русскоязычные посетители вашего сайта из стран СНГ, боты Яндекса и боты Google. Всех остальных - в топку. Собрав и проанализировав статистику по ботам, переходите в журнал Visitors, в котором выводятся посещения посетителей и ботов, маскирующихся под них. Понятно, что если с какого-то айпишника некий пользователь последовательно с интервалом в 1 секунду посещает уже двухсотую страницу - отправляйте его в бан.

 Кстати! Некоторые боты маскируются не под посетителей сайтов, а под поисковики. Поэтому если вдруг вы увидите в логах визиты бота с user-agent Yandex, а айпишник из Китая- то с большой долей вероятности можно сказать, что это вас парсят через китайскую прокси под видом поисковика. Таким образом, мы пришли к следующей теме- фильтрации стран и регионов.

 И еще. На сильнопосещаемых (от тысячи посетителей в день) сайтах ecSTATic начинает тормозить из-за собранных данных. Рекомендуется его полностью удалить и заново установить. Постоянно держать его включенным смысла нет: установили на пару дней, собрали статистику, забанили кого надо, удалили.

You have no rights to post comments