Как быть с расхождением в лемматизации из-за того, что в морфологическом словаре глаголы совершенного и несовершенного вида могут быть слиты в одну статью? Так, наш парсер для глаголов типа "закопает" выдаст лемму "закапывать" вместо "закопать".
Лемматизация глаголов
Сообщений 1 страница 3 из 3
Поделиться22010-02-26 01:47:58
Да, я близко знакома с этой проблемой. Обсуждаемый сейчас вариант решения - что у оценщиков есть возможность отнести такие расхождения к категории "спорный вопрос грамматической теории" - и в дальнейшем при количественной оценке точности не штрафовать их. Что вы думаете?
Поделиться32010-02-26 19:12:28
Безусловно, люди-оценщики могут отнести такие расхождения к категории "спорный вопрос грамматической теории", но по хорошему оценивать точность надо бы программно. Программе нужно как-то указать, за какие расхождения штрафовать, а за какие нет. В данном случае расхождения возможны у нескольких тысяч глаголов, все их перечислять затруднительно.
Нам кажется , что по крайней мере для таких глаголов можно выработать простые требования к формированию леммы: это должен быть инфинитив того же вида, что и анализируемая словоформа. Породить такую лемму будет несложно, а число расхождений из-за "спорных вопросов" снизится в десятки/сотни раз. Если это требование будет озвучено, мы подстроим под него анализатор.