Особенности пауков

ByRuslan Novikov

Mar 5, 2005

Робот (spider): Программа, которая просматривает веб-страницы, считывает (индексирует) их содержимое, следуя по ссылкам, найденным внутри документов. Возобновляет работу через определенный период времени.

Индексы: База данных о проиндексированных роботом документах. Поисковый механизм:
рограмма, проверяющая в соответствии с запросом пользователя содержание индексов. Следует сказать, что поисковые системы, в отличие от встроенных в каталоги поисковых двигателей, ищут не в пределах определенной серверными настройками базы данных, а по в сей Сети, выводя страницы, находящиеся в их индексах (реестрах данных, где хранится информация о проиндексированных ресурсах). Именно последним и занимаются так называемые поисковые роботы (spiders, wanderers, robots). При обращении к серверу робот проверяет наличие файла robots.txt в его корневой директории, в котором могут быть вручную установлены правила индексирования тех или иных документов текущего узла. Однако, не все роботы “умеют” читать указанную в этом файле информацию: часть из них не поддерживает специальный стандарт описания правил индексирования файлов – Standard for Robot Exclusion. К сожалению, сегодня не все веб-мастера и ведущие Интернет-проектов имеют представление об этом стандарте, к тому же не каждый системный администратор, настраивающий веб-сервер, придает применению правил описания для поисковых роботов должное внимание.

Данная статья будет посвящена не стандарту Standard for Robot Exclusion, что требует изучения специальных параметров описания правил и работы с веб-сервером, а тому, как правильно подготовить веб-документ для индексирования поисковыми роботами. Поисковые серверы при регистрации Web-сервера, сайта или страницы используют информацию, хранящуюся в специальных тегах МЕТА, которые помещаются между тегами и большинство начинающих Web-мастеров и Web-дизайнеров не уделяют особого внимания этим тегам – и зря. Теги МЕТА не видны при просмотре документа и заметно увеличивают его размер, однако без них не обойтись.

Правильность составления МЕТА тегов делает возможным, чтобы Ваш сайт было легко отыскать при помощи поисковых систем среди огромного числа других сайтов! Для этого необходимо следовать следующим рекомендациям:

1. Длина содержимого тегов МЕТА “descriptions” не должна превышать 200 символов, a “keywords” – 1000 символов. Это связано с тем, что поисковые серверы, как правило, используют именно такие величины при индексировании информации о Вашем сайте. Можно получить отрицательный результат, если поисковые машины отбросят часть описания, превышающего установленные нормы, в результате чего в каталог попадет не вся желаемая информация, либо сервер просто отвергнет регистрацию Вашего сайта.

2. Нужно включить все наиболее часто используемые в Вашем сайте термины и их синонимы в тег “descriptions”. Можете включить и термины, не имеющие отношения к Вашим страницам, однако в Internet такое поведение считается некорректным. В список ключевых слов можно вставлять и фразы. В этом случае у Вашего сайта повышается шанс попасть в самое начало списка, выданного поисковым сервером (в случае совпадения фразы с той, что вводит пользователь).

3. Для увеличения рейтинга сайта и попадания его в верхнюю часть поискового списка необходимо каждый термин, включаемый в описание, повторять около 3 раз. Поисковые машины, как правило, работают с тегами МЕТА, а в случае их отсутствия – уже с содержимым страницы. Иногда это приводит к появлению сайта в списке top 10, но может привести и к отрицательному результату (перед регистрацией проверьте поисковую машину, дав запрос и просмотрев ключевые слова у сайтов, стоящих на верхних позициях)

4. Используйте в описаниях и списке терминов как можно больше синонимов. 5. Не используйте в описаниях и в списке терминов понятия и слова, слабо связанные друг с другом.

Как известно, одними из наиболее эффективных и результативных средств раскрутки веб- сайтов являются регистрация в каталогах Интернет-ресурсов и индексирование поисковыми системами. Но если первый метод в большинстве случаев зависит исключительно от того, как устроена процедура занесения информации о ресурсе в базу данных каталога, то подход пользователя к индексированию веб-документов поисковиками с полной уверенностью можно назвать индивидуальным и вполне предсказуемым. Регистрируясь в каталоге, пользователь вносит в установленные формы данные о сайте так, как он хочет. Однако, далеко не всегда информация о ресурсе будет отображена впоследствии в каталоге в первозданном виде: администраторы многих подобных серверов по-своему редактируют описание ресурсов, руководствуясь при этом собственными доводами и правилами.

Релевантность документов
Когда пользователь вводит в строке запроса поисковой системы какое-то слово или слово сочетание, робот обращается ко всем проиндексированным страницам. Количество полученных результатов может достигать десятков и даже сотен тысяч. Робот выводит результаты по критерию наибольшего соответствия содержания документов запросу пользователя, который называется релевантностью. Другими словами, самые подходящие страницы будут размещены в начале результирующего списка, выдаваемого поисковой системой. На релевантность влияют факторы ключевых слов, речь о которых и пойдет.

Количество ключевых слов
Под количеством ключевых слов (keywords) подразумевается их частота присутствия в документе (не путать с указанием ключевых слов в мета-тегах, разговор о которых пойдет чуть ниже). То есть страница, на которой робот обнаружит 15 раз запрошенное пользователем лово, будет более релевантна, чем та, которая содержит это слово всего 3 раза. Этот фактор как правило зависит от тематики ресурса и профессиональной этики веб-мастера. Логично допустить, что если страница называется “Лучшие бесплатные программы для Unix”, в ее тексте навряд ли можно встретить слова “эротика”, “макияж” или “трубопровод”. Зато “система” или “Unix” могут встретиться десятки раз. Но когда вопрос трафика перерастает в вопрос жизни или смерти, некоторые веб-мастера идут на неэтичный шаг: указывают в документе ключевые слова, совершенно не имеющие отношения к теме ресурса. Делается это обычно очень мелким шрифтом в самом низу страницы или цветом, совпадающим с фоном. Реже эти методы берут на вооружение люди, стремящиеся искусственным путем повысить релевантность своих документов: одно и тоже ключевое слово указывается большое количество раз.

Густота (плотность)ключевых слов
Под густотой (плотностью) ключевых слов принято понимать степень отношения количества ключевых слов к остальным словам в пределах документа. Поисковые роботы считают более релевантной страницу с конкретным словосочетанием, нежели документ, в котором есть помимо этого словосочетания другие слова и фразы. Например, документ, содержащий только два слова “коммерческое предложение”, будет идти в результирующем списке впереди страницы, содержащей помимо сочетания слов “коммерческое предложение” еще и другие слова.

Расположение ключевых слов Веб-страница имеет ряд особых мест, поместив ключевые слова в которые, можно надеяться на более высокую релевантность в индексах поисковых систем. Прежде всего это самое начало документа: текст, содержащий ключевые слова в верхней части страницы, заметно повысит релевантность. Также часто включают ключевые слова между парными тегами <TITLE></TITLE>. Многие допускают ошибку, загромождая заголовок ключевыми словами. Такой подход имеет, как минимум, три больших минуса: во-первых, исходный размер HTML- файла заметно увеличивается, во-вторых, при выдаче результатов поисковики выводят данные, указанные в заголовке (<TITLE></TITLE>), что делает название найденных документов малопривлекательными, в-третьих, пользователю будет довольно сложно поместить страницу с таким длинным заголовком в папку Favorites/Bookmarks. Кроме этого, на релевантность документов влияет наличие выделенных фрагментов текста (теги форматирования <STRONG>, <B>, <EM>, <U>, <I>, <H1>, <H2> и др.) и внесение ключевых слов в комментарии, поле альтернативного текста <ALT> и мета-теги (им будет посвящена отдельная часть статьи). Комментарии обособляются символами <!– и –> и могут включать абсолютно любую информацию (она в окне браузера не отображается), например:<!–Далее в статье идет текст, посвященный мета-тегам–> ? Поле альтернативного текста <ALT>, предназначенное для появления подсказок к графическим элементам при наведении на них курсора, тоже имеет большой вес, когда речь заходит о релевантности страниц. Для сравнения приведу следующий пример: на странице абстрактного предприятия “Фирма” размещена кнопка about.gif размером 5 Кб со ссылкой, ведущей в раздел, рассказывающий об истории возникновения предприятия. Три варианта использования поля альтернативного текста <ALT>:

Релевантность страниц согласно порядку применения поля будет изменяться от первого варианта к последнему: документ, где кнопке присвоено поле “История возникновения ООО Фирма”, будет иметь более высокую релевантность, чем тот, чья кнопка имеет значение тега “about.gif, 5 Кб”.?

Мета-теги
Мета-теги по сути имеют два основных атрибута – HTTP-EQUIV и NAME. Первый можно отождествить с HTTP-заголовками, и мета-теги с этим атрибутом на ряде серверов могут быть автоматически преобразованы в HTTP-заголовки. Нас больше интересует атрибут NAME, а точнее – его значения “keywords”, “description” и “robots”, как влияющие на индексирование поисковыми спайдерами.

META NAME=”keywords” CONTENT=”………”

Здесь в значении атрибута CONTENT следует указывать ключевые слова и словосочетания. Делается это через запятую. Сюда можно добавить слова, которые не встречаются в документе (или встречаются крайне мало), но имеют отношение к тематике сайта (что снова повысит релевантность). Не стоит избегать указания словосочетаний: во-первых, многие пользовательские запросы состоят из нескольких слов, а во-вторых, документ с указанием в качестве keywords целой фразы, будет иметь большую релевантность, чем страница, где в место ключевой фразы определены ее отдельные слова (например, “электронные магазины” или “электронные” и “магазины”). В среднем допускается указывать до 150-200 символов в качестве ключевых слов.

META NAME=”description” CONTENT=”………”

Значение атрибута CONTENT в данном случае уместно использовать, если в самом документе нет (или очень мало) тематического описания Вашего сайта. Дело в том, что большинство поисковых систем в результирующем списке рядом с заголовком выводит 70-150 символов, относящихся к характеристике найденного документа. Если робот не обнаружит данного значения, его внимание будет обращено к проверке страницы с целью нахождения текста, характеризующего документ, и дальнейшего вывода этого текста в результирующем списке. Оптимальным решением является параллельное использование значений ключевых слов и описания (возможно дублировать ключевые слова в конструкции META NAME=”description” CONTENT=”…”).

META NAME=”robots” CONTENT=”………”

Эта конструкция предназначена для того, чтобы указать поисковому роботу, индексирующему Ваш сайт, что надо добавлять в индексы, а что нет. Последний случай не является редким, т.к. существует множество ситуаций, когда просто необходимо запретить индексирование: чаты, баннерные показы и пр. Есть шесть возможных значений атрибута CONTENT для данной конструкции:

(а) ALL (разрешение индексации документа со всеми присутствующими в нем гиперсвязями);

(б) NONE (запрет индексации документа со всеми присутствующими в нем гиперсвязями);

(в) INDEX (разрешение индексации документа);

(г) NOINDEX (запрет индексации документа);

(д) FOLLOW (разрешение индексации присутствующих гиперсвязей);

(е) NOFOLLOW (запрет индексации присутствующих гиперсвязей);

Если этот мета-тег пропущен или не указано значение атрибута CONTENT, то поисковый робот понимает их отсутствие как конструкцию CONTENT=”INDEX, FOLLOW” (эти два значения – INDEX и FOLLOW аналогичны ALL).

Алексей Петюшкин
www.alpet.spb.ru

By Ruslan Novikov

Интернет-предприниматель. Фулстек разработчик. Маркетолог. Наставник.

Архив новостей 2002-2007

Особенности пауков

ByRuslan Novikov

By Ruslan Novikov

Related Post

Пентагон имплантирует микрочипы солдатам в мозги

Интересные факты о человеке

Многоядерные процессоры: теория (на примере Intel и AMD)

You missed

Интеллектуальные обманки для военных спутников

OSINT и GEOINT в войне беспилотников

ETER Direction Finder Set (комплект обнаружения направления радиоэлектронного излучения) адиотехнической разведки

Китайцы научились обнаруживать стелс-самолеты по сигналу Starkink SpaceX спутников

ByRuslan Novikov

Related posts:

By Ruslan Novikov

Related Post

You missed