Топ-100
Создать акаунт
NULLTOP » Статьи » Блокировка ботов посредством файла .htaccess

Блокировка ботов посредством файла .htaccess

09 мар 2024, 11:03
Статьи
17
0
Блокировка ботов посредством файла .htaccess

Блокировка ботов посредством файла .htaccess 

Использование конфигурационного файла web-сервера Apache и некоторых других, подобных ему серверов - .htaccess (hypertext access) - наиболее простой и универсальный способ борьбы с спам-ботами. Этот файл есть в корне Вашего сайта на сервере (если нет, создайте его) и вставьте в него следующий "универсальный блокировщик спам-ботов*":

User-Agent "Abonti|AspiegelBot|aggregator|AhrefsBot|Aport|asterias|Baiduspider|BDCbot|bidswitchbot|Birubot|BLEXBot|BUbiNG|BuiltBotTough|Bullseye|BunnySlippers|Butterfly|ca\-crawler|CamontSpider|CCBot|Cegbfeieh|CheeseBot|CherryPicker|coccoc|CopyRightCheck|cosmos|crawler|Crescent|CyotekWebCopy/1\.7|CyotekHTTP/2\.0|DataForSeoBot|DeuSu|discobot|DittoSpyder|DnyzBot|DomainCrawler|DotBot|Download Ninja|EasouSpider|EmailCollector|EmailSiphon|EmailWolf|EroCrawler|Exabot|ExtractorPro|Ezooms|FairShare|Fasterfox|FeedBooster|Foobot|Genieo|GetIntent\ Crawler|Gigabot|gold\ crawler|GrapeshotCrawler|grub\-client|Harvest|hloader|httplib|HTTrack|humanlinks|HybridBot|ia_archiver|ieautodiscovery|Incutio|InfoNaviRobot|InternetSeer|IstellaBot|Java|Java/1\.|JamesBOT|JennyBot|JS-Kit|k2spider|Kenjin Spider|Keyword Density/0\.9|kmSearchBot|larbin|LexiBot|libWeb|libwww|Linguee|LinkExchanger|LinkextractorPro|linko|LinkScan/8\.1a Unix|LinkWalker|LinkpadBot|lmspider|LNSpiderguy|ltx71|lwp-trivial|lwp\-trivial|magpie|Mata Hari|MaxPointCrawler|MegaIndex|memoryBot|Microsoft URL Control|MIIxpc|Mippin|Missigua Locator|Mister PiX|MJ12bot|MLBot|moget|MSIECrawler|msnbot|msnbot-media|NetAnts|NICErsPRO|Niki\-Bot|NjuiceBot|NPBot|Nutch|Offline Explorer|OLEcrawler|Openfind|panscient\.com|PostRank|ProPowerBot/2\.14|PetalBot|ProWebWalker|ptd-crawler|Purebot|PycURL|python-requests|Python\-urllib|QueryN Metasearch|RepoMonkey|Riddler|RMA|Scrapy|SemrushBot|serf|SeznamBot|SISTRIX|SiteBot|sitecheck\.Internetseer\.com|SiteSnagger|Serpstat|Slurp|SnapPreviewBot|Sogou|Soup|SpankBot|spanner|spbot|Spinn3r|SpyFu|suggybot|SurveyBot|suzuran|sqlmap|SWeb|Szukacz/1\.4|Teleport|Telesoft|The Intraformant|TheNomad|TightTwatBot|Titan|toCrawl/UrlDispatcher|True_Robot|ttCrawler|turingos|TurnitinBot|UbiCrawler|UnisterBot|Unknown|uptime files|URLy Warning|User-Agent|VCI|Vedma|Voyager|WBSearchBot|Web Downloader/6\.9|Web Image Collector|WebAuto|WebBandit|WebCopier|WebEnhancer|WebmasterWorldForumBot|WebReaper|WebSauger|Website Quester|Webster Pro|WebStripper|WebZip|Wotbox|wsr\-agent|WWW\-Collector\-E|Yeti|YottosBot|Zao|Zeus|ZyBORG" bad_bot Deny from env=bad_bot # END Bad Bot Blocker

Кто такие "спам-боты" и зачем их блокировать?

Под термином "спам-бот" я подразумеваю роботов, сканирующих сайт пользователя в целях сбора конфиденциальной информации, собирающие статистику (семантику, ключи, наличие используемых технологий, плагинов и т.д.). К спам-ботам также можно отнести никому не известные поисковые системы или каталоги сайтов.

К бесполезным спам-ботам также можно отнести специализированное ПО, которое может использоваться хакерами или онлайн сервисами для поиска уязвимостей на Вашем сайте.

Рано или поздно встает вопрос о их блокировке, поскольку имеется рад негативных последствий для сайта:

  • Нагрузка на сервер. Боты в большом количестве способны создать колоссальную нагрузку на сайт. Учитывая тот факт, что бесполезных ботов очень много, их пристальное внимание к вашему сайту негативно отобразится как на скорости загрузки, так и доступности самого сайта.
  • Сбор конфиденциальной информации. Как пример, спам-боты собирают информацию об установленных на вашем сайте плагинах, ваш сайт попадает в списки потенциально уязвимых сайтов (при обнаружении уязвимостей в каком-то плагине) и Ваш сайт в числе первых в списке на взлом.
  • Воровство контента. Различные онлайн-сервисы собирают информацию с Вашего сайта, такие как семантику, тематику, трафиковые страницы и популярные тексты. Эту информацию впоследствии можно встретить в открытом доступе. И ею беспрепятственно пользуются копипастеры, клонировщики сайтов и дорвейщики.
  • Умышленный вред. Ваши конкуренты могут использовать спам-ботов целенаправленно: скликивать рекламу на сайте, инициировать регистрации пользователей, спамить в формы связи, осуществлять DDOS атаку и т.д.

Это еще не все негативные последствия, в связи с чем возникает резонный вопрос: а зачем пускать таких спам-ботов на сайт?


Как работает "блокировщик спам ботов"?

Как правило, программное обеспечение (при обращении к сайту) должно передать идентификационную информацию о себе (представится). Такая информация передается в User-Agent. По User-Agent мы видим, кто заходит на сайт, и если он в нашем черном списке (см. выше), то сервер блокирует для него доступ, а именно, вернет ответ:

HTTP/1.1 403 Forbidden

 

* Почему блокиратор универсальный?

Название "универсальный" - условное. Нельзя охватить весь богатый перечень всех бесполезных ботов и пауков. Тем более, блокировка того или иного бота - вопрос риторический. Например, Baiduspider - бот крупнейшего китайского поисковика, одного из лидеров поисковых запросов в мире... но нуждается ли в нем рядовой русскоязычный сайт? Я считаю, что нет, поэтому он заслуженно в черных списках данного "универсального блокиратора" (для Рунета).

В мой универсальный блокиратор входит около 200 бесполезных ботов, пауков и сканеров (в реальности, этот список будет на порядок выше, так как блокируются и вариации основных ботов). Этот список составлялся и корректировался (дополняется периодически - заходите на эту страницу за обновлениями) на протяжении нескольких лет практической работы с сайтами клиентов, которых приходилось лечить от вирусов, защищать от DDOS атак, попыток взлома и т.д. Этот список уже стоит на тысячах сайтов в интернете и приносит свою практическую пользу вебмастерам.

Данный блокиратор не блокирует полезные боты (известные поисковые системы и сервисы аналитики), в его эффективности и безопасности для сайта автор полностью уверен - данный блокиратор стоит на этом сайте (вы можете проверить это любым внешним чекером HTTP заголовков сайта подставляя User-Agent из списка)!


Источник:

Все материалы, представленные на сайте, носят исключительно ознакомительный характер!

Нашли ошибку в тексте на сайте? Помогите нам ее исправить! Выделите ошибку и нажмите одновременно клавиши «Ctrl» и «Enter». Мы узнаем о неточности и как можно скорее исправим )

Если ссылка битая, пожалуйста сообщите нам через форму комментариев или в ЛС

Комментарии
Минимальная длина комментария - 50 знаков. комментарии модерируются
Кликните на изображение чтобы обновить код, если он неразборчив

Смотрите также: