Оглавление:
Что из себя представляет Cloudflare known bots list - список полезных ботов по мнению Cloudflare. В нем 200 различных ботов, которых фильтры Cloudflare пропускают на сайт при включении опции пропуска хороших ботов known bots.
Большую часть этих ботов нужно блокировать, во избежание проблем с паразитной нагрузкой на хостинге.
Во многих наборах начальных настроек правил фильтрации WAF вы найдете правило пропуска полезных ботов (на скриншоте - первый номер).
Это правило ставится первым в списке фильтров, с действием - Skip. И предназначено для того, чтобы пропускать ботов поисковых систем - YandexBot, Googlebot, bingbot. Ну или, многие так думают. Хотя на самом деле, - это не так.
В ваших этих интернетах, как всем известно - плохого не напишут, поэтому вебмастера бездумно копируют себе это все в аккаунт Cloudflare. А потом очень сильно удивляются, когда хостер начинает присылать уведомления о превышении лимита нагрузки, и предлагает перейти на более дорогой тариф. И при всем при этом, в счетчике Яндекс метрики вы видите вполне себе обычные цифры. Например, 100 посетителей в сутки.
И возникает вполне закономерный вопрос - как так. На каком основании хостер хочет на вас нажиться. Вы же грамотно настроили Cloudflare (передрав архивную инструкцию по настройке из интернетов), заблокировали все что движется. Плохих ботов на сайте нет. Наверное.
Ошибка в том, что список хороших ботов, по мнению Cloudflare - намного шире, чем банальные краулеры поисковых систем. В этом списке 200 различных ботов. Среди которых есть и те боты, что создают слишком большую нагрузку на хостинг, постоянно сканируя ваш сайт. А пользы от них - ноль. Только контент воруют, для своего обучения. Например, openai (OAI-SearchBot), AhrefsBot, Applebot, GPTBot, Barkrowler, AhrefsBot, PetalBot, MJ12bot, Photon, и прочее.
Больше всех "повезло" сайтам с большим количеством поддоменов городов. Каждый поддомен считается отдельным сайтом, а значит мусорная нагрузка на хостинг будет увеличиваться пропорционально количеству поддоменов.
Чтобы избежать лишней нагрузки на хостинг, всех лишних ботов нужно заблокировать. Для этого нужно проанализировать список тех ботов, которых пропустил Cloudflare, оставить из этого списка действительно полезных (краулеры поисковых систем). А всех остальных - заблокировать.
Для этого нужно на первое место в WAF поставить действие Block и внести в него всех лишних ботов, которых Cloudflare пропускает. Так вы снизите нагрузку на свой хостинг, ни капли при этом не проиграв в видимости своего сайта в выдаче поисковых систем. Так как боты поисковиков по-прежнему будут беспрепятственно попадать к вам на сайт.
Если исключить известных поисковых ботов, в группе "плохих" могут оказаться:
AhrefsBot: Используется для анализа ссылок и SEO, может генерировать большой объем запросов.
MJ12bot: Похож на AhrefsBot, также может создавать значительную нагрузку.
OpenAI Search Bot (OAI-SearchBot): Может вызывать нагрузку, если используется неправильно.
Barkrowler (babbar.tech): Бесполезный, но крайне настырный сканирующий бот.
Другие специализированные сканеры: Например, боты, которые собирают данные для аналитики или мониторинга.
Ниже вы найдете полный список полезных ботов (по мнению Cloudflare). Как вы уже поняли, ваше мнение - отличается от мнения компании. Так что найдите время, найдите в логах переходы, которые пропустило правило Know Bots - и заблокируйте все лишнее.
В списке 200 ботов, которых Cloudflare считает полезными ботами, и пропускает при включении опции known bots.
Название бота | Разработчик | Категория бота |
---|---|---|
GoogleBot | Поисковый робот | |
Qualys | Qualys | Безопасность |
Google Image Proxy | Предпросмотр страниц | |
BingBot | Microsoft | Поисковый робот |
Synthetic Bot | DataDog | Мониторинг и аналитика |
GoogleOther | Бот нейросетей | |
Google AdsBot | Реклама и маркетинг | |
Amazonbot | Amazon | Бот нейросетей |
Google API | Вебхуки | |
YandexBot | Yandex | Поисковый робот |
Google Images | Поисковый робот | |
PinterestBot | Агрегатор | |
Google Read Aloud | Преобразование данных | |
Detectify | Detectify | Безопасность |
New Relic | New Relic | Мониторинг и аналитика |
AhrefsBot | Ahrefs | Поисковая оптимизация |
Taboola | Taboola | Реклама и маркетинг |
UptimeRobot | Uptimerobot | Мониторинг и аналитика |
GPTBot | OpenAI | Бот нейросетей |
Moz dotbot | Moz | Поисковая оптимизация |
Applebot | Apple | Бот нейросетей |
Barkrowler | Babbar | Поисковая оптимизация |
PetalBot | Huawei | Бот нейросетей |
BLEXBot | WebMeUp | Поисковая оптимизация |
Google AdSense | Реклама и маркетинг | |
SendGrid | SendGrid | Вебхуки |
Semrushbot | SEMrush | Поисковая оптимизация |
OAI-SearchBot | OAI SearchBot | Бот нейросетей |
Ahrefs Site Audit | Ahrefs | Поисковая оптимизация |
DataForSEO Bot | DataForSEO | Поисковая оптимизация |
Amazon AdBot | Amazon | Реклама и маркетинг |
Baidu | Baidu | Поисковый робот |
CriteoBot | Criteo | Реклама и маркетинг |
Pingdom | Pingdom | Мониторинг и аналитика |
ContentKing | ContentKing | Мониторинг и аналитика |
Botify | Botify | Поисковая оптимизация |
Stripe | Stripe | Вебхуки |
Sucuri | Sucuri | Безопасность |
ChatGPT-User | OpenAI | Бот нейросетей |
YahooMailProxy | Yahoo | Предпросмотр страниц |
Site24x7 | Site24x7 | Мониторинг и аналитика |
Cookiebot | Cybot A/S | Безопасность |
Siteimprove Crawl | Siteimprove | Поисковая оптимизация |
Slackbot | Slack | Вебхуки |
DuckDuckBot | DuckDuckGo | Поисковый робот |
Better Uptime | Better Up Time | Мониторинг и аналитика |
Brandwatch | Brandwatch | Маркетинг в социальных сетях |
Seekport | SISTRIX | Поисковый робот |
Sogou | Sogou | Поисковый робот |
HetrixTools | HetrixTools Inc | Мониторинг и аналитика |
FullStory | Full Story | Мониторинг и аналитика |
webpagetest | WebPagetest | Мониторинг и аналитика |
Bing Ads | Microsoft | Реклама и маркетинг |
SiteAuditBot | Semrush | Поисковая оптимизация |
StatusCake | StatusCake | Мониторинг и аналитика |
Seznam | Seznam | Поисковый робот |
Cốc Cốc | Coccoc | Поисковый робот |
Proximic | ComScore | Реклама и маркетинг |
Trendiction Bot | Trendiction S.A. | Мониторинг и аналитика |
SiteLock | SiteLock | Безопасность |
Yeti by Naver | Naver | Поисковый робот |
Innologica | Innologica | Сбор фидов |
Dataprovider.com | Поисковый робот | |
elmah.io Uptime Monitoring | elmah.io | Мониторинг и аналитика |
SE Ranking Bot | SE Ranking | Мониторинг и аналитика |
Yahoo Slurp | Yahoo | Поисковый робот |
Internet Archive | Internet Archive | Архиватор |
ManageWP | ManageWP | Вебхуки |
CCBot | CommonCrawl | Архиватор |
ZoomInfo | ZoomInfo | Поисковый робот |
Exodus | Exodus | Вебхуки |
LinkedInBot | Предпросмотр страниц | |
Yahoo Ad Monitoring | Yahoo | Реклама и маркетинг |
Feedly | Feedly | Сбор фидов |
Telegram Bot | Telegram | Предпросмотр страниц |
Cxense | Cxense | Поисковая оптимизация |
BlogVault | BlogVault | Мониторинг и аналитика |
Skype | Skype | Предпросмотр страниц |
ChargeBee | ChargeBee | Вебхуки |
Google Videos | Поисковый робот | |
Splunk | Splunk | Мониторинг и аналитика |
Ghost Inspector | Ghost Inspector | Мониторинг и аналитика |
Feeder | Really Simple AB | Сбор фидов |
Slack Image Proxy | Slack | Предпросмотр страниц |
Google Inspection Tool | Безопасность | |
VaultPress | VaultPress | Вебхуки |
Oh Dear | Oh Dear | Мониторинг и аналитика |
Mojeek | Mojeek | Поисковый робот |
Coveo Bot | Coveo | Поисковый робот |
eMoney Advisor | eMoney Advisor | Агрегатор |
Google Schema Markup Testing Tool | Мониторинг и аналитика | |
Awario | Awario | Реклама и маркетинг |
Freshping | freshworks | Мониторинг и аналитика |
Outbrain | Outbrain | Реклама и маркетинг |
Nodeping | Nodeping | Мониторинг и аналитика |
PayPal | PayPal | Вебхуки |
GTmetrix | GTmetrix | Мониторинг и аналитика |
IAS crawler | Integral Ad Science | Реклама и маркетинг |
NETVIGIE | Мониторинг и аналитика | |
Clickagy | Clickagy | Реклама и маркетинг |
MSN | Microsoft | Поисковый робот |
Iframely | Iframely | Предпросмотр страниц |
WPMUDEV Uptime Monitor 5.0 | WPMUDEV | Мониторинг и аналитика |
klaviyo | https://www.klaviyo.com/ | Реклама и маркетинг |
Uptimia | Uptimia | Мониторинг и аналитика |
Rackspace | Rackspace | Мониторинг и аналитика |
Bluesky Link Preview Service | Bluesky | Предпросмотр страниц |
Alertsite by Smartbear | Smartbear | Мониторинг и аналитика |
Google-AdWords-Express | Поисковая оптимизация | |
DataForSEO | DataForSEO | Поисковая оптимизация |
Audisto Crawler | Audisto | Мониторинг и аналитика |
Moz rogerbot | Moz | Поисковая оптимизация |
Feedbin | Feedbin | Сбор фидов |
HostTracker | HostTracker | Мониторинг и аналитика |
Amazon Contxbot | Amazon | Реклама и маркетинг |
Reelevant | Reelevant | Реклама и маркетинг |
Adyen | Adyen | Вебхуки |
FlipboardProxy | Предпросмотр страниц | |
Yahoo Japan | Yahoo Japan Corporation | Реклама и маркетинг |
Bing Preview | Microsoft | Предпросмотр страниц |
Parse.ly | Parse.ly | Мониторинг и аналитика |
Marginalia Search | Marginalia | Поисковый робот |
Metorik | Metorik | Вебхуки |
deadlinkchecker | DLC Websites | Мониторинг и аналитика |
Blockaid | Blockaid | Безопасность |
EasyCron | EasyCron | Вебхуки |
InternetArchiveBot | Internet Archive | Мониторинг и аналитика |
rss2tg_bot | rss2tg_bot | Сбор фидов |
Mars Finder | Mars Flag | Поисковый робот |
Quantcastbot | Quantcast | Реклама и маркетинг |
Jagged Pixel UptimeBot | Jagged Pixel Inc. | Мониторинг и аналитика |
SalesViewerBot | SalesViewer GmbH | Реклама и маркетинг |
Cludo | Cludo | Мониторинг и аналитика |
WOVN Crawler | Wovn Technologies, Inc. | Преобразование данных |
upday | upday GmbH & Co. KG | Агрегатор |
Drata Autopilot | Безопасность | |
Arquivo Web Crawler | Arquivo | Архиватор |
Google Feed Fetcher | Сбор фидов | |
DuckAssistbot | DuckDuckGo | Бот нейросетей |
FlipboardRSS | Сбор фидов | |
Let's Encrypt | Let's Encrypt | Безопасность |
Accessible Web Bot | Accessible Web | Преобразование данных |
MonitoRSS | MonitoRSS | Сбор фидов |
Sansec Security Monitor | Sansec Security Monitor | Безопасность |
Hatena | Hatena | Сбор фидов |
ICC Crawler | NICT | Бот нейросетей |
SEO Audit Check Bot | SEO Audit Check | Поисковая оптимизация |
Skroutz ImageBot | Skroutz S.A. | Разное |
PressEngine Bot | PressEngine | Предпросмотр страниц |
NewsBlur | NewsBlur | Сбор фидов |
Splunk Attack Analyzer | Splunk | Безопасность |
Online Webceo Bot | Online Webceo | Поисковая оптимизация |
ProjectShield Url Check | Безопасность | |
Qwantbot | Qwant | Поисковый робот |
marketgoo | marketgoo | Поисковая оптимизация |
MediaMonitoringBot | MediaMonitoringBot | Агрегатор |
WP Umbrella | WP Umbrella | Мониторинг и аналитика |
Google Trust Services (DCV Check) | Безопасность | |
Sentry | Sentry | Безопасность |
Spectate | Мониторинг и аналитика | |
Medialogia Bot | Medialogia | Мониторинг и аналитика |
WPMU DEV Broken Link Checker | WPMUDEV | Мониторинг и аналитика |
RSS API | RSS API (by Tibush GmbH) | Сбор фидов |
Watchful | Watchful LLC | Мониторинг и аналитика |
SecurityHeaders | Security Headers | Безопасность |
LINER Bot | Liner Bot | Бот нейросетей |
Jetpack | Automattic | Мониторинг и аналитика |
Rakuten Image extraction bot | Rakuten | Разное |
Nooshub | Nooshub | Сбор фидов |
Shortwave Image Fetcher | Shortwave Communications Inc. | Предпросмотр страниц |
FeedWind Crawler | Mikle | Сбор фидов |
Swifteq Link Checker | Swfiteq Ltd | Мониторинг и аналитика |
Integromat | Make | Вебхуки |
SkroutzBot | Skroutz S.A. | Сбор фидов |
Modular DS | Uniqoders Technologies SL | Вебхуки |
Adagio Bot | nfouche@adagio.io | Мониторинг и аналитика |
Google Scholar | Поисковый робот | |
Ozon Web Grabber | Ozon | Предпросмотр страниц |
EvoUptimeBot | Evo Agency Ltd. | Мониторинг и аналитика |
HoneybadgerBot | Honeybadger Industries | Мониторинг и аналитика |
videootv Bot | Digital Green | Агрегатор |
RetroListeCOM | Niclas Papst | Мониторинг и аналитика |
Spark Shipping | Spark Shipping | Вебхуки |
WebSpiderMount | AspenTechLabs Inc | Агрегатор |
MgidBot | MGID | Реклама и маркетинг |
Automaton | Automaton | Мониторинг и аналитика |
Notabot | Helpfeel | Поисковый робот |
OpenRSS | OpenRSS | Сбор фидов |
Alexa Archive | Alexa | Поисковый робот |
Snipcart | Snipcart | Вебхуки |
eRepublik.tools | Sebastian Foth - Software Solutions | Мониторинг и аналитика |
AddThis | Addthis | Поисковая оптимизация |
Readable | Added Bytes Ltd | Преобразование данных |
New York Times Newsgathering | The New York Times | Разное |
Alexa Site Audit | Alexa | Поисковый робот |
Cloudtrellis | Мониторинг и аналитика | |
Sora Caisse POS | Разное | |
MainWP | Direct Support / Website Managed | Вебхуки |
Macrobondbot | Macrobondbot | Мониторинг и аналитика |
Missinglettr Bot | Missinglettr | Реклама и маркетинг |
Функцию фильтрации ботов Cloudflare может на себя взять российский антибот Killbot. Вот к нему у РКН точно претензий нет, сервера компании находятся в РФ. Принцип работы отличается от привычного, отслеживаются не знакомые всем при настройке Cloudflare параметры (входящие IP адреса, AS подсети ботов, User Agent и прочее), а уникальные для каждого набора браузеров слепки. По отличию оригинального браузера от модифицированного, тот или иной заход определяется либо как заход реального посетителя, либо как заход бота. Чтобы не повторяться - расписывал более подробно в статье Альтернатива Cloudflare в России.
Подпишитесь на Telegram канал для того, чтобы всегда быть в курсе последних новостей и обновленных настроек для защиты от ботов через Cloudflare, а также оперативно получать новые материалы, выходящие на antiddos24.ru
Всегда нужно иметь в виду, что те советы, которые вы прочли в статьях на сайте antiddos24.ru - это лишь часть настроек, которые я делаю при профессиональной экспертной настройке фильтрации поведенческих ботов. Все остальное - это непубличные профессиональные секреты. Любая информация, становящаяся общедоступной - достаточно быстро устаревает и перестает быть эффективной.
Если вы столкнулись с повышенной ботностью в Яндекс метрике, увеличением числа прямых заходов, увеличением количества отказов - вы всегда можете заказать у меня настройку Cloudflare или Killbot.