По опубликованным результатам исследования компании Netcraft, количество серверов
в Интернет на 1997 год составляло 1 млн. В соответствии с данными NUA Internet
Surveys, в настоящее время их насчитывается уже около 5 млн. Количество WEB-страниц
на них превышает 600 млн.
Возникает вопрос, как конкретному пользователю выбрать необходимые ему данные
в Сети и не "захлебнуться" в этом океане информации, получив богатый
"улов"? Существует несколько подходов, соответствующих возможной тактике
пользователя.
Первый из них можно условно назвать "серфингом". Зацепившись за одну
из WEB-страниц, адрес которой пользователю был известен изначально, он проходит
по ссылкам с этой страницы на любую глубину. Вариант достаточно распространенный,
однако его вряд ли можно считать оптимальным во всех случаях.
Второй подход принято называть "браузингом". Это расширение серфинга,
в том смысле, что пользователь в качестве стартовой страницы использует Интернет-каталог,
т.е. один из WEB-серверов, на котором представлена классификация сетевых ресурсов.
Третий подход состоит в использовании сетевых информационно-поисковых систем.
В этом случае пользователь может самостоятельно с клавиатуры своего компьютера
вводить запросы, анализировать результаты поиска, осуществлять переходы к необходимым
ресурсам.
Поиск по словам
Все профессиональные сетевые информационно-поисковые системы обеспечивают выполнение
основных логических и контекстных операторов, однако каждый из систем характерны
особенности, которые, как правило, отражены в инструкциях по поиску. Ниже приведены
основные функциональные возможности современных поисковых систем и отражены
нюансы отдельных реализаций.
Все поисковые системы обеспечивают поиск хотя бы по одному слову. Средства навигации
в Интернет, не обеспечивающие такого поиска называются каталогами, колекциями
ссылок и т.п.
Иначе дело обстоит с поиском по усечениям слов. Например, InfoSeek и InfoRES
рассматривают все слова запроса как правые усечения. В некоторых известных системах
возможность поиска по усечениям просто не реализована (Excite, Lycos). Но в
большинстве систем для маскирования правого усечения слова достаточно поставить
символ "*" (AltaVista, Northern Light, Rambler).
Дальше всех в этом отношении пошла система Northern Light, обеспечивающая маскирование
не только правых частей слов в запросах-символ "*" можно устанавливать
в любой части слова запроса. В системе допустимо даже маскрование одной буквы
слова запроса. Для этого используется символ "%", который также может
устанавливаться в любой части слова запроса.
Некоторые системы нечувствительны к регистрам букв в словах запросов. К таким
системам относится Northern Light и InfoRes. При этом система InfoRes не различает
между собой даже латинские и кириллические буквы одинакового написания, что
в некоторых случаях упрощает ввод запросов. Однако в большинстве приведенных
выше систем "чувствительность" к регистрам включается при употреблении
хотя бы одной прописной буквы в слове запроса.
Поиск по слово-формам является результатом серьезного лингвистического анализа
и реализован в двух русскоязычных системах - Апорт и Яndex. В системе Апорт
независимо от того, в какой грамматической форме указано слово в запросе, оно
находится в базе данных во всех своих формах. В этой системе запрос "ребенок
шел" эквивалентен запросу "дети идут". В системе Яndex если слово
участвует в запросе, то учитываются также все его формы по правилам русского
языка. Для поиска по конкретному слову, а не всем словоформам, пред ним ставится
символ "!".
Многие системы способны реализовывать контекстный поиск заключаемой в кавычки
фразы, то есть по фрагментам текста(строгим словосочетаниям). Такая способность
- это реализация неявно указанных с помощью кавычек операторов контекстной близости.
Использование логических операторов
Для ввода запросов со сложной логикой, как правило, требуется использование
булевых и контекстных операторов, скобок, указание полей и т.п. Для большинства
случаев (75% как было уже сказано) этого не требуется. Потому некоторые поисковые
службы создали по два поисковых интерфейса - простой (по умолчанию) и расширенный
(называемый в разных системах детальным, мощным или профессиональным). По такому
пути пошли AltaVista, Lycos, Info Seek, Excite, Rambler.
Во всех рассматриваемых системах реализованы булевые операторы AND, OR и NOT,
а также работа со скобками. Однако в двух из них - AltaVista и Excite оператор
NOT записывается в виде "AND NOT" - таким образом, подчеркивается
его бинарность (в математической логике оператор NOT - унарный и не может относиться
к двум операндам).
В режимах простого поиска булевы операторы реализуются не всегда указанием их
в явном виде. Например, система HotBot воспринимает по умолчанию пробел между
словами запроса как оператор AND. В то же время при указании на экране поиска
опции "any of the words" пробел в этой системе воспринимается как
OR. В системах Апорт и InfoReS пробел также воспринимается как AND. Кроме того,
в системе Апорт допускается использование операторов "+" и "-"
перед словами, фактически как синонимов операторов AND и NOT соответственно.
Точно так же используются эти операторы в AltaVista, Lycos и Excite. В системе
Rambler использование символов "+" и "-" имеет иной смысл:
они используются для увеличения и уменьшения весового значения слов.
Операторы контекстной близости
Большинство профессиональных поисковых систем обеспечивают выполнение операций
контекстной близости, одна из реализаций которой - поиск выражений в кавычках
(см.выше).
Например, в системе HotBot реализована только возможность поиска по фразам в
кавычках, в AltaVista реализован оператор NEAR(-), обеспечивающий нахождение
документов, у которых два слова находятся на расстоянии не более 10 слов.
В системе LYCOS функции контекстной близости получили наибольшее развитие и
реализованы с помощью четырех операторов: ADJ, NEAR, FAR и BEFORE. ADJ обеспечивает
близость двух слов в тексте в любом порядке; NEAR позволяет находить документы,
в которых слова-операнды удалены не более, чем на 25 слов; FAR - оператор противоположный
по смыслу оператору NEAR, т.е. исключает близость терминов запроса в пределах
25 слов текста документа; BEFORE похож на оператор ADJ, только с учетом порядка
встречаемости терминов в тексте.
Официально решен вопрос контекстной близости в системе Рамблер. При желании
минимизировать расстояние между поисковыми терминами используется служебное
слово "$near:", за которым следуют два операнда - значения самих слов.