
Термин «сканер» довольно часто используется в статьях по веб-дизайну и поисковой оптимизации, но что это такое? И почему это необходимо для функционирования Интернета?
Определение веб-краулера
Хотя на ум приходят изображения роботов-пауков, карабкающихся по веб-сайтам, лучшей метафорой для этой программы был бы библиотекарь. Любой веб-сайт состоит из файлов — .php, .html, .asp и т. д., а краулер — это просто программа для автоматического сбора данных, предназначенная для получения только тех данных, которые нужны его создателю.
Как краулер находит ваш сайт?
Наука о поисковой оптимизации почти полностью построена на том, чтобы сделать веб-сайты привлекательными для поисковых роботов, также известных как «боты». Причина, по которой люди хотят, чтобы их сайт был связан с как можно большим количеством других сайтов, заключается в том, что программа «бот» находит ваш сайт по этим гиперссылкам — часто во время «сканирования» другого сайта. Чем больше у вас ссылок, тем больше вероятность того, что ваш сайт найдет более одного бота — и это первая часть информации, которую получают поисковые системы (которые используют большинство этих программ): это популярный сайт.
Поисковые роботы также предназначены для сбора гораздо большего количества информации. Поисковые системы очень заинтересованы в содержании веб-сайтов, поэтому любая информация о тексте или изображениях на вашем сайте также становится важной. Вот почему такие вещи, как теги «alt» и описания изображений и видео, становятся важными для SEO любого сайта. На самом деле они не могут «видеть» изображения или видео — вся информация, которую они собирают, является текстовой, будь то абзац о вампирах в « Сумерках: Затмение» или размер изображения Джейкоба, доступного для скачивания.
Поисковые системы используют эту информацию для составления статистики по ключевым словам, а также популярности сайта — именно так Google, например, может так успешно продвигать свою программу AdSense. Если вы используете AdSense на популярном сайте (найденном многими поисковыми роботами) и имеет высокий процент ключевых слов в содержании, есть вероятность, что рекламодателям больше повезет с продажей вашей аудитории. Без бота для «паука» в сети это было бы случайным предложением.
Не только веб-статистика
Хотя подавляющее большинство этих индексирующих «ботов»-скриптов используются поисковыми системами (например, SLURP от Yahoo, MSNBOT от Microsoft и одноименный WebCrawler, который использовался для создания первого полнотекстового индекса в Интернете), программисты могут собрать больше информации, чем ключевые слова и ссылки. Некоторые из этих сценариев используются для архивирования веб-страниц или для отслеживания того, какие части сайта изменяются. Лингвисты могут использовать их, чтобы узнать, какой язык люди используют в блогах и форумах или, например, в Твиттере. Фактически, любой может настроить свой собственный поисковый робот, используя приложения с открытым исходным кодом, такие как Aspseek . Вы можете использовать его, чтобы проверить свой собственный сайт на наличие неработающих гиперссылок или убедиться, что все изображения имеют правильные теги alt.
Проблемы со сканированием
К сожалению, преступные умы также настроили сканеры для сбора менее законной информации, например, попыток найти номера социального страхования, номера банковских счетов и другую «фишинговую» информацию. Поскольку поисковые роботы должны просить сервер предоставить информацию, их можно настроить так, чтобы они были «невежливыми» и запрашивали информацию со скоростью, которая в конечном итоге наносила вред серверу и вызывала его сбой или каким-либо образом выявляла уязвимость. На самом деле это иногда происходит с законными «ботами», которые каталогизируют веб-сайт, и было введено множество протоколов, чтобы гарантировать, что каждый веб-краулер будет «вежливым» при запросе информации о сервере.
Еще одна проблема такого рода индексирующих «ботов» просто заключается в том факте, что сеть огромна и постоянно меняется. Скорее всего, к тому времени, когда он завершит просмотр последней страницы сайта, первая страница уже будет изменена. Хотя они необходимы для Интернета, они являются неэффективным методом и способны эффективно покрыть только часть всего Интернета. Вполне вероятно, что в какой-то момент будущие веб-пользователи будут смотреть на поисковые роботы так же, как сейчас люди смотрят на карточные каталоги в библиотеке — причудливый артефакт.