Практические вопросы поиска информации в Интернет

По опубликованным результатам исследования компании Netcraft, количество серверов в Интернет на 1997 год составляло 1 млн. В соответствии с данными NUA Internet Surveys, в настоящее время их насчитывается уже около 5 млн. Количество WEB-страниц на них превышает 600 млн.
Возникает вопрос, как конкретному пользователю выбрать необходимые ему данные в Сети и не "захлебнуться" в этом океане информации, получив богатый "улов"? Существует несколько подходов, соответствующих возможной тактике пользователя.
Первый из них можно условно назвать "серфингом". Зацепившись за одну из WEB-страниц, адрес которой пользователю был известен изначально, он проходит по ссылкам с этой страницы на любую глубину. Вариант достаточно распространенный, однако его вряд ли можно считать оптимальным во всех случаях.
Второй подход принято называть "браузингом". Это расширение серфинга, в том смысле, что пользователь в качестве стартовой страницы использует Интернет-каталог, т.е. один из WEB-серверов, на котором представлена классификация сетевых ресурсов.
Третий подход состоит в использовании сетевых информационно-поисковых систем. В этом случае пользователь может самостоятельно с клавиатуры своего компьютера вводить запросы, анализировать результаты поиска, осуществлять переходы к необходимым ресурсам.

Поиск по словам
Все профессиональные сетевые информационно-поисковые системы обеспечивают выполнение основных логических и контекстных операторов, однако каждый из систем характерны особенности, которые, как правило, отражены в инструкциях по поиску. Ниже приведены основные функциональные возможности современных поисковых систем и отражены нюансы отдельных реализаций.
Все поисковые системы обеспечивают поиск хотя бы по одному слову. Средства навигации в Интернет, не обеспечивающие такого поиска называются каталогами, колекциями ссылок и т.п.
Иначе дело обстоит с поиском по усечениям слов. Например, InfoSeek и InfoRES рассматривают все слова запроса как правые усечения. В некоторых известных системах возможность поиска по усечениям просто не реализована (Excite, Lycos). Но в большинстве систем для маскирования правого усечения слова достаточно поставить символ "*" (AltaVista, Northern Light, Rambler).
Дальше всех в этом отношении пошла система Northern Light, обеспечивающая маскирование не только правых частей слов в запросах-символ "*" можно устанавливать в любой части слова запроса. В системе допустимо даже маскрование одной буквы слова запроса. Для этого используется символ "%", который также может устанавливаться в любой части слова запроса.
Некоторые системы нечувствительны к регистрам букв в словах запросов. К таким системам относится Northern Light и InfoRes. При этом система InfoRes не различает между собой даже латинские и кириллические буквы одинакового написания, что в некоторых случаях упрощает ввод запросов. Однако в большинстве приведенных выше систем "чувствительность" к регистрам включается при употреблении хотя бы одной прописной буквы в слове запроса.
Поиск по слово-формам является результатом серьезного лингвистического анализа и реализован в двух русскоязычных системах - Апорт и Яndex. В системе Апорт независимо от того, в какой грамматической форме указано слово в запросе, оно находится в базе данных во всех своих формах. В этой системе запрос "ребенок шел" эквивалентен запросу "дети идут". В системе Яndex если слово участвует в запросе, то учитываются также все его формы по правилам русского языка. Для поиска по конкретному слову, а не всем словоформам, пред ним ставится символ "!".
Многие системы способны реализовывать контекстный поиск заключаемой в кавычки фразы, то есть по фрагментам текста(строгим словосочетаниям). Такая способность - это реализация неявно указанных с помощью кавычек операторов контекстной близости.

Использование логических операторов

Для ввода запросов со сложной логикой, как правило, требуется использование булевых и контекстных операторов, скобок, указание полей и т.п. Для большинства случаев (75% как было уже сказано) этого не требуется. Потому некоторые поисковые службы создали по два поисковых интерфейса - простой (по умолчанию) и расширенный (называемый в разных системах детальным, мощным или профессиональным). По такому пути пошли AltaVista, Lycos, Info Seek, Excite, Rambler.
Во всех рассматриваемых системах реализованы булевые операторы AND, OR и NOT, а также работа со скобками. Однако в двух из них - AltaVista и Excite оператор NOT записывается в виде "AND NOT" - таким образом, подчеркивается его бинарность (в математической логике оператор NOT - унарный и не может относиться к двум операндам).
В режимах простого поиска булевы операторы реализуются не всегда указанием их в явном виде. Например, система HotBot воспринимает по умолчанию пробел между словами запроса как оператор AND. В то же время при указании на экране поиска опции "any of the words" пробел в этой системе воспринимается как OR. В системах Апорт и InfoReS пробел также воспринимается как AND. Кроме того, в системе Апорт допускается использование операторов "+" и "-" перед словами, фактически как синонимов операторов AND и NOT соответственно. Точно так же используются эти операторы в AltaVista, Lycos и Excite. В системе Rambler использование символов "+" и "-" имеет иной смысл: они используются для увеличения и уменьшения весового значения слов.
Операторы контекстной близости
Большинство профессиональных поисковых систем обеспечивают выполнение операций контекстной близости, одна из реализаций которой - поиск выражений в кавычках (см.выше).
Например, в системе HotBot реализована только возможность поиска по фразам в кавычках, в AltaVista реализован оператор NEAR(-), обеспечивающий нахождение документов, у которых два слова находятся на расстоянии не более 10 слов.
В системе LYCOS функции контекстной близости получили наибольшее развитие и реализованы с помощью четырех операторов: ADJ, NEAR, FAR и BEFORE. ADJ обеспечивает близость двух слов в тексте в любом порядке; NEAR позволяет находить документы, в которых слова-операнды удалены не более, чем на 25 слов; FAR - оператор противоположный по смыслу оператору NEAR, т.е. исключает близость терминов запроса в пределах 25 слов текста документа; BEFORE похож на оператор ADJ, только с учетом порядка встречаемости терминов в тексте.
Официально решен вопрос контекстной близости в системе Рамблер. При желании минимизировать расстояние между поисковыми терминами используется служебное слово "$near:", за которым следуют два операнда - значения самих слов.