Оглавление:
Internet Archive, он же Wayback Machine хранит копии миллиардов страниц неограниченно большого числа сайтов, собранные им в различные периоды времени, за все годы существования проекта.
Если ваш сайт уже работает какое-то время, то, скорее всего, он уже попал в список обхода бота archive.org_bot, и в Wayback Machine имеется его копия. Это не запрещено, разместив сайт в Интернет, вы предоставили к нему доступ неограниченному кругу лиц, в том числе таким создателям "машины времени".
Проблема возникнет, если вы по каким-то причинам не продлите домен, а новый его владелец (вернее, арендатор) достанет из архива все что на нем было ранее, и разместит на уже своем сайте, от своего имени. А потом появляются жалостливые темы на форумах, мол, как так, мы забросили сайт, забыли продлить. Но нашелся кто-то, кто его купил и восстановил все что на нем было. Какой негодяй. Верните нам наш контент.
Могут быть и другие причины, по которым вы не хотите, чтобы содержание вашего сайта где-то хранилось вечно, да еще и с удобной разбивкой по разным периодам своей истории.
Для этого достаточно просто запретить доступ к сайту для сервиса INTERNET-ARCHIVE. Его бот ходит с AS7941 и имеет примерно такой вот user-agent.
Mozilla/5.0 (compatible; archive.org_bot +http://archive.org/details/archive.org_bot) Zeno/cfa2980 warc/v0.8.47
Заблокировать можно как через правила в файле htaccess, так и через Cloudflare.
Правила актуальны для последних версий Apache, начиная с 2.4 и далее. Если у вас устаревшее программное обеспечение на сервере, поищите в музее инструкции с директивами Allow и Deny.
1 2 3 4 5 6 7 |
<RequireAll> Require all granted Require not ip 207.241.224.0/20 Require not ip 207.241.238.0/24 Require not ip 208.70.24.0/21 Require not ip 2620:0:9c0::/48 </RequireAll> |
При использовании Cloudflare, вариантов блокировки Wayback Machine у вас намного больше.
Это может быть:
1 2 3 4 |
207.241.224.0/20 207.241.238.0/24 208.70.24.0/21 2620:0:9c0::/48 |
Зайдите в раздел Security - WAF - Custom rules.
Блокировку вы можете добавить как в уже существующее правило, содержащее директиву Block (если таковые имеются), или создать новое.
Код правила.
1 |
(ip.geoip.asnum in {7941}) |
AS Num = 7941
Действие = Block
Функцию фильтрации ботов Cloudflare может на себя взять российский антибот Killbot. Вот к нему у РКН точно претензий нет, сервера компании находятся в РФ. Принцип работы отличается от привычного, отслеживаются не знакомые всем при настройке Cloudflare параметры (входящие IP адреса, AS подсети ботов, User Agent и прочее), а уникальные для каждого набора браузеров слепки. По отличию оригинального браузера от модифицированного, тот или иной заход определяется либо как заход реального посетителя, либо как заход бота. Чтобы не повторяться - расписывал более подробно в статье Альтернатива Cloudflare в России.
Подпишитесь на Telegram канал для того, чтобы всегда быть в курсе последних новостей и обновленных настроек для защиты от ботов через Cloudflare, а также оперативно получать новые материалы, выходящие на antiddos24.ru
Всегда нужно иметь в виду, что те советы, которые вы прочли в статьях на сайте antiddos24.ru - это лишь часть настроек, которые я делаю при профессиональной экспертной настройке фильтрации поведенческих ботов. Все остальное - это непубличные профессиональные секреты. Любая информация, становящаяся общедоступной - достаточно быстро устаревает и перестает быть эффективной.
Если вы столкнулись с повышенной ботностью в Яндекс метрике, увеличением числа прямых заходов, увеличением количества отказов - вы всегда можете заказать у меня настройку Cloudflare или Killbot.