Интеллектуальная поисковая система Nigma.ru - результат работы научного коллектива, состоящего из студентов и аспирантов факультетов ВМиК и психологии МГУ им.М.В.Ломоносова - официально запущена в статусе альфа-версии (т.е. самой ранней версии). Несмотря на то, что работы над поисковой системой продолжаются лишь 2.5 месяца, членами команды уже разработаны оригинальные алгоритмы ранжирования результатов, полученных от набора поисковых систем, с поддержкой русской морфологии и двухуровневая кластеризация.
Морфология реализована через отсылку в поисковые системы дублирующих запросов, в которых приведены все распространенные морфологические формы запрашиваемых слов. При этом, в отличие от имеющихся реализаций русской морфологии для поисковых систем, предлагаемый алгоритм не сокращает, а наоборот - увеличивает количество найденных документов, т.к. морфологически измененный запрос объединяется с исходным.
Релевантность же также увеличивается (см. запрос <почта>), т.к. используются специальные алгоритмы объединения результатов. Позиция найденной ссылки в результатах поиска отображается в виде <Поисковая система: позиция> (например, "Google: 5" означает, что ссылка находится на пятом месте в поисковой системе Google), а ссылки от морфологически измененных запросов - в виде <Поисковая система-M: позиция> (например, "Google-M: 10" - десятая ссылка в морфологически измененном запросе).
Результаты поиска объединяются с помощью специального алгоритма, причем только те результаты, которые Nigma.ru успевает получить от поисковых систем за 1.5 секунды (в очень редких случаях - за 5 секунд). Соответственно, алгоритм не выделяет какие-то поисковые системы таким образом, что результаты поиска от них имеют большую значимость, чем от других, т.к. нет гарантии, что за это время система успеет обработать от них результаты. Вместо этого, для их объединения используется статистическая информация о русском Интернете, такая как посещаемость (на базе публичных счетчиков) и цитируемость сайтов. Кроме того, учитываются другие специфичные для российского Интернета и русского языка особенности при объединении результатов.
Дмитрий Гришин, генеральный директор Mail.ru: "Нам интересно поддерживать этот научный проект, т.к. мы считаем, что развитие поисковых технологий будет способствовать развитию всего российского сегмента сети Интернет. Обмен научным опытом позволит нам совершенствовать наши коммерческие технологии, функционирующие в рамках портала Mail.ru".
|