История поисковых систем

Одним из первых способов организации доступа к информационным ресурсам сети стало создание каталогов сайтов, в которых ссылки на ресурсы группировались согласно тематике. Первым таким проектом стал сайт Yahoo, открывшийся в апреле 1994 года. После того, как число сайтов в каталоге Yahoo значительно увеличилось, была добавлена возможность поиска информации по каталогу. Это, конечно же, не было поисковой системой в полном смысле, так как область поиска была ограничена только ресурсами, присутствующими в каталоге, а не всеми ресурсами сети Интернет.

Каталоги ссылок широко использовались ранее, но практически утратили свою популярность в настоящее время. Причина этого очень проста – даже современные каталоги, содержащие огромное количество ресурсов, представляют информацию лишь об очень малой части сети Интернет. Самый большой каталог сети DMOZ (или Open Directory Project) содержит информацию о 5 миллионах ресурсов, в то время как база поисковой системы Google состоит из более чем 8 миллиардов документов.

Первой полноценной поисковой системой стал проект WebCrawler появившийся в 1994 году.

В 1995 году появились поисковые системы Lycos и AltaVista. Последняя долгие годы была лидером в области поиска информации в Интернет.

В 1997 году Сергей Брин и Ларри Пейдж создали Google в рамках исследовательского проекта в Стэнфордском университете. В настоящий момент Google самая популярная поисковая система в мире.

23 сентября 1997 года была официально анонсирована поисковая система Yandex, самая популярная в русскоязычной части Интернет.

В настоящее время существует 3 основных международных поисковых системы – Google, Yahoo и MSN Search, имеющих собственные базы и алгоритмы поиска. Большинство остальных поисковых систем (коих можно насчитать очень много) использует в том или ином виде результаты 3 перечисленных. Например, поиск AOL (search.aol.com) и Mail.ru используют базу Google, а AltaVista, Lycos и AllTheWeb – базу Yahoo.

В России основной поисковой системой является Яндекс, за ним идут Rambler, Google.ru, Aport, Mail.ru и KM.ru.

Поисковая система состоит из следующих основных компонентов:

Spider (паук) - браузероподобная программа, которая скачивает веб-страницы.

Crawler (краулер, «путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице.

Indexer (индексатор) - программа, которая анализирует веб-страницы, скаченные пауками.

Database (база данных) – хранилище скачанных и обработанных страниц.

Search engine results engine (система выдачи результатов) – извлекает результаты поиска из базы данных.

Web server (веб-сервер) – веб-сервер, который осуществляет взаимодействие между пользователем и остальными компонентами поисковой системы.

Детальная реализация поисковых механизмов может отличаться друг от друга (например, связка Spider+Crawler+Indexer может быть выполнена в виде единой программы, которая скачивает известные веб-страницы, анализирует их и ищет по ссылкам новые ресурсы), однако всем поисковым системам присущи описанные общие черты.

Spider. Паук - это программа, которая скачивает веб-страницы тем же способом, что и браузер пользователя. Отличие состоит в том, что браузер отображает информацию, содержащуюся на странице (текстовую, графическую и т.д.), паук же не имеет никаких визуальных компонент и работает напрямую с html-текстом страницы (вы можете сделать «просмотр html-кода» в вашем браузере, чтобы увидеть «сырой» html-текст).

Crawler. Выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Краулер, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.

Indexer. Индексатор разбирает страницу на составные части и анализирует их. Выделяются и анализируются различные элементы страницы, такие как текст, заголовки, структурные и стилевые особенности, специальные служебные html-теги и т.д.

Database. База данных - это хранилище всех данных, которые поисковая система скачивает и анализирует. Иногда базу данных называют индексом поисковой системы.

Search Engine Results Engine. Система выдачи результатов занимается ранжированием страниц. Она решает, какие страницы удовлетворяют запросу пользователя, и в каком порядке они должны быть отсортированы. Это происходит согласно алгоритмам ранжирования поисковой системы. Эта информация является наиболее ценной и интересной для нас – именно с этим компонентом поисковой системы взаимодействует оптимизатор, пытаясь улучшить позиции сайта в выдаче, поэтому в дальнейшем мы подробно рассмотрим все факторы, влияющие на ранжирование результатов.

Web server. Как правило, на сервере присутствует html-страница с полем ввода, в котором пользователь может задать интересующий его поисковый термин. Веб-сервер также отвечает за выдачу результатов пользователю в виде html-страницы.

Яндекс это самая известная современная поисковая система в России. Ее посещает около трех миллионов человек в день. В данной поисковой системе есть возможность размещать платные объявления в результатах поиска. Раскрутка сайта в Яндексе является приоритетной задачей для большинства сайтов, ориентированных на российскую аудиторию. Одним из критериев при определении позиции сайта в результатах поиска является индекс цитирования.
Рамблер это первая российская поисковая система. Ее посещаемость в полтора раза меньше, чем посещаемость Яндекса. В поисковой системе есть рейтинг TOP100, участие в котором может быть полезно для раскрутки сайта.
Гугл это крупнейшая мировая поисковая система. У данной поисковой системы самые современные алгоритмы определения соответствия сайта запросу пользователя, а значит самые качественные результаты поиска. Для определения цитируемости сайта используется PageRank.

От чего зависит прибыль сайта? Если представить себе два сайта с примерно одинаковым ассортиментом, то у более посещаемого сайта прибыль будет больше .
От чего же зависит посещаемость сайта? Посещаемость сайта зависит от количества денег вложенных в раскрутку сайта. Ведь без правильной раскрутки сайта сегодня нереально попасть не то что на первую страницу результатов поиска товаров и услуг, а даже и на вторую-третью. Правильная раскрутка сайта зачастую приносит больше пользы и обходится в десятки раз дешевле, чем все остальные виды рекламы вместе взятые.

Индексация сайта.

Прежде чем сайт появится в результатах поиска, он должен быть проиндексирован поисковой системой. Индексация означает, что поисковый робот посетил ваш сайт, проанализировал его и занес информацию в базу данных поисковой системы.

Если некоторая страница занесена в индекс поисковика, то она может быть показана в результатах поиска. Если страница в индексе отсутствует, то поисковая система ничего не знает о ней, и, следовательно, никак не может использовать информацию с этой страницы.

Большинство сайтов среднего размера (то есть содержащих несколько десятков или сотен страниц) обычно не испытывают никаких проблем с правильной индексацией поисковыми системами. Однако, существует ряд моментов, которые стоит учитывать при работе над сайтом.

Поисковая система может узнать о вновь созданном сайте двумя путями:

- ручное добавление адреса сайта через соответствующую форму поисковой системы. В этом случае вы сами сообщаете поисковой системе о новом сайте и его адрес попадает в очередь на индексацию. Добавлять следует лишь главную страницу сайта, остальные будут найдены поисковым роботом по ссылкам;

- предоставить поисковому роботу самостоятельно найти ваш сайт. Если на ваш новый ресурс есть хотя бы одна внешняя ссылка с других ресурсов, уже проиндексированных поисковой системой, то поисковый робот в короткие сроки сам посетит и проиндексирует ваш сайт. В большинстве случаев рекомендуется использовать именно этот вариант, то есть получить несколько внешних ссылок на сайт и просто дождаться прихода робота. Ручное добавление сайта может даже удлинить время ожидания робота.

Время необходимое для индексации сайта составляет, как правило, от 2-3 дней до 2 недель, в зависимости от поисковой системы. Быстрее всех индексирует сайты поисковая система Google.

Старайтесь сделать сайт дружественным для поисковых роботов. Для этого учитывайте следующие факторы:

- старайтесь, чтобы любые страницы вашего сайта были доступны по ссылкам с главной страницы не более чем за 3 перехода. Если структура сайта этого не допускает, то сделайте так называемую карту сайта, которая позволит выполнять указанное правило;

- не повторяйте распространенных ошибок. Идентификаторы сессий затрудняют индексацию. Если вы используете навигацию через скрипты, то обязательно дублируйте ссылки обычным образом – поисковые системы не умеют читать скрипты (подробнее об этих и других ошибках рассказано в главе 2.3);

- помните, что поисковые системы индексируют не более 100-200 кб текста на странице. Для страниц большего объема будет проиндексировано только начало страницы (первые 100-200 кб.). Из этого следует правило – не используйте страницы размером более 100 кб, если хотите, чтобы они были проиндексированы полностью.

Управлять поведением поисковых роботов можно с помощью файла robots.txt, в нем можно явно разрешить или запретить для индексации те или иные страницы. Существует также специальный тег «NOINDEX», позволяющий закрыть для индексации отдельные части страницы, однако этот тег поддерживается только российскими поисковыми системами.

Базы данных поисковых систем постоянно обновляются, записи в базе могут подвергаться изменениям, исчезать и появляться снова, поэтому число проиндексированных страниц вашего сайта может периодически меняться.

Одной из наиболее частых причин исчезновения страницы из индекса является недоступность сервера, то есть поисковый робот при попытке индексации сайта не смог получить доступ к нему. После восстановления работоспособности сервера сайт должен появиться в индексе снова через некоторое время.

Следует также заметить, что чем больше внешних ссылок имеет ваш сайт, тем быстрее происходит его переиндексация.

Отследить процесс индексации сайта можно с помощью анализа лог-файлов сервера, в которых записываются все визиты поисковых роботов. В соответствующем разделе мы подробно расскажем о программах, которые позволяют это сделать.

Google SandBox.
В начале 2004 года в среде оптимизаторов обозначилось новое таинственное понятие – Google SandBox или песочница Google. Такое обозначение получил новый спам-фильтр Google, направленный на исключение из выдачи молодых, вновь созданных сайтов.

Фильтр SandBox проявляется в том, что вновь созданные сайты отсутствуют в выдаче поисковой системы практически по всем фразам. Это происходит, несмотря на наличие качественного и уникального информационного содержимого и правильно проведенную раскрутку (без использования спам-методов).

На данный момент SandBox касается только англоязычного сегмента, сайты на русском и других языках этому фильтру не подвергаются. Однако, вполне вероятно что этот фильтр может расширить свое влияние.

Можно предположить, что цель SandBox фильтра исключить из выдачи спам-сайты – действительно, ни один поисковый спамер не сможет ждать месяцы до появления результатов. Однако вместе с этим страдает огромное количество нормальных, вновь созданных сайтов.

Точной информации о том, что же конкретно представляет из себя SandBox фильтр до сих пор нет. Существует ряд предположений, полученных на основании опыта, которые мы и приведем ниже:

- SandBox – это фильтр на молодые сайты. Вновь созданный сайт попадает в «песочницу» и находится в ней неопределенное время, пока поисковая система не переведет его в разряд «обычных»;

- SandBox – это фильтр на новые ссылки, проставляемые на вновь созданные сайты. Постарайтесь заметить принципиальное отличие от предыдущего предположения – фильтр накладывается не на возраст сайта, а на возраст ссылок на сайт. Другими словами Google не имеет претензий к сайту, однако отказывается учитывать внешние ссылки на него, если с момента их появления прошло менее X месяцев. Так как внешние ссылки являются одним из основных факторов ранжирования, игнорирование внешних ссылок равносильно отсутствию сайта в выдаче поисковой системы. Какое из двух приведенных предположений более верно сказать сложно, вполне вероятно, что оба они верны ;

- сайт может находится в песочнице от 3-х месяцев до года и более. Есть также наблюдение, что сайты выходят из песочницы в массовом порядке. Т.е. срок песочницы определяется не индивидуально для каждого сайта, а для больших групп сайтов (сайты созданные в некотором временном диапазоне попадают в одну группу). Фильтр затем снимается сразу для всей группы, таким образом, сайты из одной группы пробудут в «песке» разное время.

Типичные признаки того, что ваш сайт находится в песочнице:

- ваш сайт нормально проиндексирован Google, регулярно посещается поисковым роботом;
- ваш сайт имеет PageRank, поисковая система знает и корректно отображает внешние ссылки на ваш сайт;
- поиск по адресу сайта (www.site.com) выдает правильные результаты, с правильным заголовком, сниппетом (описание ресурса) и т.д.;
- ваш сайт нормально находится по редким и уникальным словосочетаниям, содержащимся в тексте страниц;
- ваш сайт не виден в первой тысяче результатов по любым иным запросам, даже по тем, под которые он изначально создавался. Иногда встречаются исключения и сайт по некоторым запросам появляется на 500-600 позициях, что, конечно, сути не меняет.

Методов обхода фильтра практически не существует. Есть ряд предположений, о том, как это можно сделать, однако это не более чем предположения, к тому же малоприемлимые для обычного вебмастера. Основной метод – это работать над сайтом и ждать окончания фильтра.

После того, как фильтр снимается, происходит резкий рост рейтингов на 400-500 и более позиций.

Google LocalRank.
25 февраля 2003 года компания Google запатентовала новый алгоритм ранжирования страниц, получивший название LocalRank. В основе лежит идея о том, чтобы ранжировать страницы не по их глобальной ссылочной цитируемости, а по цитируемости среди группы страниц, тематически связанных с запросом.

Алгоритм LocalRank не используется на практике (по крайней мере, в том виде, в каком он описывается в патенте), однако, патент содержит ряд интересных идей, с которыми, мы считаем, должен быть знаком каждый оптимизатор. Учет тематики ссылающихся страниц используется почти всеми поисковыми системами. Хотя происходит это, видимо, по несколько другим алгоритмам, изучение патента позволит уяснить общие идеи, как это может быть реализовано.

При чтении этой главы учитывайте, что в ней представлена теоретическая информация, а не практическое руководство к действию.

Основную идею алгоритма LocalRank выражают следующие три пункта:

1. Используя некоторый алгоритм, выбирается определенное число документов, релевантных поисковому запросу (обозначим это число N). Эти документы изначально отсортированы согласно некоторому критерию (это может быть PageRank, либо оценка релевантности или какой-либо другой критерий или их группировка). Обозначим численное выражение данного критерия как OldScore.

2. Каждая из N страниц проходит новую процедуру ранжирования, в результате которой каждая страница получает некоторый новый ранг. Обозначим его LocalScore.

3. На этом шаге величины OldScore и LocalScore перемножаются, в результате чего получается новая величина NewScore, согласно которой и происходит итоговое ранжирование страниц.

Ключевой в данном алгоритме является новая процедура ранжирования, в результате которой каждой странице присваивается новый ранг LocalScore. Опишем эту процедуру подробнее.

Используя некоторый алгоритм ранжирования отбираются N страниц, отвечающих поисковому запросу. Новый алгоритм ранжирования будет работать только с этими N страниц. Каждая страница в этой группе имеет некоторый ранг OldScore.

1. При расчете LocalScore для данной страницы выделяются все страницы из N, которые имеют внешние ссылки на данную страницу. Обозначим множество этих страниц M. При этом, в множество M не попадут страницы с того же хоста (host, фильтрация произойдет по IP адресу), а также страницы, являющиеся зеркалами данной.

2. Множество M разбивается на подмножества Li . В эти подмножества попадают страницы, объединенные следующими признаками:
- принадлежность одному (или сходным) хостам. Таким образом, в одну группу попадут страницы, у которых первые три октета IP адреса совпадают. То есть, страницы, IP адрес которых принадлежит диапазону
xxx.xxx.xxx.0
xxx.xxx.xxx.255
будут считаться принадлежащими одной группе;
- страницы, которые имеют одинаковое или схожее содержание (зеркала, mirrors);
- cтраницы одного сайта (домена).

3. Каждая страница в каждом множестве Li имеет некоторый ранг (OldScore). Из каждого множества выбирается по одной странице с самым большим OldScore, остальные исключаются из рассмотрения. Таким образом, мы получаем некоторое множество K страниц, ссылающихся на данную страницу.

4. Страницы в множестве K сортируются согласно параметру OldScore, затем в множестве K остаются только k первых страниц (k – некоторое заданное число), остальные страницы исключаются из рассмотрения.

5. На данном шаге рассчитывается LocalScore. По оставшимся k страницам происходит суммирование их значений OldScore. Это можно выразить следующей формулой:

Здесь m – некоторый заданный параметр, который может варьироваться от 1 до 3 (к сожалению, информация, содержащаяся в патенте на описываемый алгоритм, не дает подробного описания данного параметра).

После того, как расчет LocalScore для каждой страницы из множества N закончен, происходит расчет значений NewScore и пересортировка страниц согласно новому критерию. Для рассчета NewScore используется следующая формула:

NewScore(i)= (a+LocalScore(i)/MaxLS)*(b+OldScore(i)/MaxOS)

i – страница, для которой рассчитывается новое значение ранга.

a и b – некоторые числа (патент не дает более подробной информации об этих параметрах).

MaxLS – максимальное из рассчитанных значений LocalScore

MaxOS – максимальное из значений OldScore

Теперь постараемся отвлечься от математики и повторим все вышесказанное простым языком.

На первом этапе происходит отбор некоторого количества страниц соответствующих запросу. Это делается по алгоритмам, не учитывающим тематику ссылок (например, по релевантности и общей ссылочной популярности).

После того, как группа страниц определена, будет подсчитана локальная ссылочная популярность каждой из страниц. Все страницы так или иначе связаны с темой поискового запроса и, следовательно, имеют отчасти схожу тематику. Проанализировав ссылки друг на друга в отобранной группе страниц (игнорируя все остальные страницы в Интернете), получим локальную (тематическую) ссылочную популярность.

После проделанного шага у нас есть значения OldScore (рейтинг страницы на основе релевантности, общей ссылочной популярности и других факторов) и LocalScore (рейтинг страницы среди тематически связанных страниц). Итоговый рейтинг и ранжирование страниц проводится на основе сочетания этих двух факторов.

Особенности работы различных поисковых систем.
Все, сказанные выше идеи по текстовой оптимизации и увеличению ссылочной популярности применимы ко всем поисковым системам в равной степени. Более подробное описание Google объясняется большим наличием информации об этой поисковой системе в свободном доступе, однако идеи, высказанные в отношении Google, в большой степени применимы и к другим поисковым системам.

Вообще, я не являюсь сторонником поиска «секретного знания» о том, как детально работают алгоритмы различных поисковых систем. Все они в той или иной мере подчиняются общим правилам и грамотная работа над сайтом (без учета каких-либо особенностей) приводит к хорошим позициям почти во всех поисковых системах.

Тем не менее, приведем некоторые особенности различных поисковых систем:

Google – очень быстрая индексация, очень большое значение придается внешним ссылкам. База Google используется очень большим числом других поисковых систем и порталов.

MSN – больший, нежели у других поисковых систем, акцент на информационное содержимое сайта.

Yandex – крупнейшая российская поисковая система. Обрабатывает (по разным данным) от 60% до 80% всех русскоязычных поисковых запросов. Уделяет особое внимание тематическим ссылкам (нетематические внешние ссылки также имеют эффект, но в меньшей степени, чем у других поисковых систем). Индексация проходит медленнее, чем у Google, однако так же в приемлемые сроки. Понижает в рейтинге или исключает из индекса сайты, занимающиеся нетематическим ссылкообменом (содержащих каталоги нетематических ссылок, созданных лишь с целью повышения рейтинга сайта), а также сайты, участвующие в системах автоматического обмена ссылками. В периоды обновлений базы, которые длятся несколько дней, выдача Яндекса постоянно меняется, в такие периоды следует отказаться от каких-либо работ по сайту и дождаться стабильных результатов работы поисковой системы.

Еще одна особенность Яндекс – различные результаты поиска в зависимости от регистра ключевых слов (т.е. «Слово» и «слово» дают разные результаты поиска).

Rambler – наиболее загадочная поисковая система. Занимает второе (по другим данные третье после Google) место по популярности среди российских пользователей. По имеющимся наблюдениям, понижает в рейтинге сайты, активно занимающиеся раскруткой (быстрое увеличение числа внешних ссылок). Ценит наличие поисковых терминов в простом тексте страницы (без выделения различными стилистическими тегами).

Mail.ru – набирающая популярность поисковая система. Использует результаты поисковой системы Google после некоторой дополнительной обработки. Оптимизация под Mail.ru сводится к оптимизации под Google.

Советы, предположения, наблюдения.
В данной главе представлена информация, появившаяся в результате анализа различных статей, общения оптимизаторов, практических наблюдений и т.п. Информация эта не является точной и достоверной – это всего лишь предположения и идеи, однако идеи интересные. Данные, представленные в этом разделе, воспринимайте не как точное руководство, а как информацию к размышлению.

- исходящие ссылки. Ссылайтесь на авторитетные в вашей области ресурсы, используя нужные ключевые слова. Поисковые системы ценят ссылки на другие ресурсы той же тематики;

- исходящие ссылки. Не ссылайтесь на FFA сайты и прочие сайты, исключенные из индекса поисковой системы. Это может привести к понижению рейтинга вашего собственного сайта;

- исходящие ссылки. Страница не должна содержать более 50-100 исходящих ссылок. Это не приводит к понижению страницы в рейтинге, но ссылки сверх этого числа не будут учтены поисковой системой;

- внешние site wide ссылки, то есть ссылки, стоящие на каждой странице сайта. Считается, что поисковые системы негативно относятся к таким ссылкам и не учитывают их при ранжировании. Существует также другое мнение, что это относится только к большим сайтам с тысячами страниц;

- идеальная плотность ключевых слов. Очень часто приходится слышать подобный вопрос. Ответ заключается в том, что идеальной плотности ключевых слов не существует, вернее она различная для каждого запроса, то есть рассчитывается поисковой системой динамически, в зависимости от поискового термина. Наш совет – проанализировать первые сайты из выдачи поисковой системы, что позволит примерно оценить ситуацию;

- возраст сайта. Поисковые системы отдают предпочтение старым сайтам, как более стабильным;

- обновление сайта. Поисковые системы отдают предпочтение развивающимся сайтам, то есть тем, на которых периодически добавляется новая информация, новые страницы;

- доменная зона (касается западных поисковиков). Предпочтение отдается сайтам, расположенным в зонах .edu, .mil, .gov и т.п. Такие домены могут зарегистрировать только соответствующие организации, поэтому доверия таким сайтам больше;

- поисковые системы отслеживают, какой процент посетителей возвращается к поиску, после посещения того или иного сайта из вылачи. Большой процент возвратов означает нетематическое содержимое, и такая страница понижается в поиске;

- поисковые системы отслеживают, насколько часто выбирается та или иная ссылка в результатах поиска. Если ссылка выбирается редко, значит, страница не представляет интереса и такая страница понижается в рейтинге

Статистика поисковых систем.
Яндекс — самая популярная поисковая система рунета, на долю которой приходится 60% русскоязычных запросов в сети.

Рамблер — старейшая поисковая система рунета. На долю Рамблера приходится около 15% русскоязычных поисковых запросов.

Google — самая большая поисковая система в интернете. На долю российской версии Google приходится около 20% русскоязычных запросов.

Поиск@Mail.ru — самая молодая поисковая система. Самостоятельной поисковой базы эта система не имеет и использует для поиска базу Яндекса, поэтому результаты поиска в Яндекс и Поиск@Mail.ru полностью совпадают. Поэтому не верьте, когда вам говорят, что раскручивают ваш сайт и в Яндекс, и в Поиск@Mail.ru – это обман – достаточно раскрутить сайт лишь в Яндексе и он автоматически поднимется в Поиск@Mail.ru. На долю Поиск@Mail.ru приходится около 3% русскоязычных поисковых запросов.

Апорт — популярная несколько лет назад поисковая система, но ныне умирающая, доля которой на рынке поисковых запросов составляет менее 0.1%

http://www.websitehtm.narod.ru/ http://www.pricewebsite.narod.ru/1/indexzakaz.htm