Новый морфологический анализатор – мощное средство повышения эффективности работы информационно-поисковых систем

21 Июля 2011
Компания «ПОИСК-ИТ» провел презентацию новой версии разработанного компанией морфологического анализатора «ЭлЛин 1.1»
Для большинства естественных языков определено понятие морфологической изменяемости слов, т.е. появление различных форм одного слова в зависимости от контекста. Данное явление сильно выражено в русском языке со сложной системой флексий. Современные информационно-поисковые системы, обрабатывающие документы на русском языке, должны это учитывать.
В качестве источника достоверной информации о слове морфологический анализатор использует словарь. Если случается, что слово в словаре отсутствует, обработку проводят правила стемминга для автоматического выделения его основы.
Новый программный продукт представляет собой мощное средство, обеспечивающее решение следующих задач:
• получение нормализованной формы слова;
• получение всех морфологических форм слова;
• получение информации о словоформе (часть речи, падеж и т.д.).
Для поддержки специфических предметных областей продукт обладает возможностью создания тематических словарей. На данный момент общий словарь содержит более 3 миллионов словоформ.
Особенностью продукта является наличие специальной версии для информационно-поисковых систем, отличающейся более высокой скоростью обработки (до 500 000 слов в секунду) и удобством интеграции.
Информационно-поисковая система с интегрированной поддержкой морфологии (имеющая в составе морфологический анализатор) обеспечивает, в частности, достижение следующих целей:
• увеличение полноты поиска; Повышение точности поиска;
• использование более простого и понятного пользовательского интерфейса;
• снижение объема индексной информации.
Эффективность работы морфологического анализатора как элемента информационно-поисковой системы была на практике продемонстрирована на презентации при интеграции с программным продуктом Autonomy IDOL Server версии 7.x.x. В результате их совместного использования удалось повысить точность поиска более чем на 50%.
«Новый морфологический анализатор существенно повысит качество поставляемых нашей компанией на российский рынок информационно-аналитических систем и поисковых программных средств»,– отметил генеральный директор НТЦ «ПОИСК-ИТ» Алексей Любимов.
Шеина Ольга
НТЦ
O_sheina@poisk-it.ru
O_sheina@poisk-it.ru
www.poisk-it.ru