Соревнование морфологических парсеров

Информация о пользователе

Привет, Гость! Войдите или зарегистрируйтесь.


Вы здесь » Соревнование морфологических парсеров » Морфология » Вопросы к списку грамматических категорий


Вопросы к списку грамматических категорий

Сообщений 1 страница 8 из 8

1

Возникло несколько вопросов по поводу списка грамматических категорий (см. первое сообщение в этой теме и особенно появившийся сегодня расширенный вариант.

1) В инструкции решено не указывать возвратность. Значит, надо понимать так, что:
исследовать и исследоваться в идеальном варианте разбора получат одинаковую грамматическую характеристику
исследующий и исследующийся, вероятно, будут различаться граммемой залога
и тогда (последовательно проводя это решение)
исследуемый и исследующийся получат одинаковую грамматическую характеристику, включающую граммему pass.
Правильно ли такое понимание инструкции?

1а) Если действительно, как я понимаю предложенную систему разметки,
исследующий и исследующийся будут различаться граммемой залога, нужно ли указывать граммему pass при формах надеящийся, гордящийся? Здравый смысл подсказывает, что нет (т.е. хороший анализатор должен с помощью своего словаря отождествлять возвратные глаголы, не являющиеся пассивными формами). Но как тогда быть в случае разбиравшийся, где, кажется нельзя исключить полноценную пассивную интерпретацию (например, Примеры, разбиравшиеся на каждом занятии vs Студенты, разбиравшиеся в своем предмете)? (мне кажется, что эти примеры показывают, что разметка должна быть более прямолинейной, например, за счет введения граммемы refl, которая примет на себя основную нагрузку разграничения форм во всех приведенных примерах)

2) В инструкции предлагается указывать залог для деепричастий. Надо ли это понимать так, что граммемой залога предполагается различить разбор форм исследуя (act) и исследуясь (pass)? (то есть и здесь, как в причастиях, возвратность предлагается представить как пассивность)

3) Предлагается не давать оценку по таким категориям, как
...сравнительная/превосходная форма прилагательного и наречия
Хотелось бы для себя понять, чтО именно это означает.
Означает ли это, что последние слова в предложениях
Он бежал быстро
и
Он бежал быстрее
должны, в идеальном разборе, получить одинаковую грамматическую характеристику?
И как тогда предполагается разбирать последние слова в предложениях
Эта задача трудная
и
Эта задача труднее
Получается, что в первом случае это
A    f,sg,nom
а во втором просто
A
Это имеется в виду?

Или, может быть, предлагается все быстрее, труднее и т.п. разбирать как особую часть речи - недифференцированную (т.е. общую для прилагательных и наречий) сравнительную степень. Это, на мой взгляд, было бы несколько логичнее, но не следует непосредственным образом из инструкции.

Сергей Коваль

0

2

Уточню, что мы обсуждаем проект инструкции по ручной разметке золотого стандарта, с которым будут сравниваться парсеры. Но все это имеет прямое отношение к составу категорий на дорожке Морфология.

Для начала процитирую А. Бонч:
Общая идея: из списка лемма+морф. категории должна однозначно восстанавливаться словоформа. Некоторые категории могут быть выражены внутри леммы, тогда их можно не прописывать отдельно. Если категория есть предмет вариации (как падеж) или  же  вообще не выражается в лемме, но выражается в словоформе (как время у глагола), то они должны быть обязательно  выделены.

1) формы исследовать и исследоваться будут различаться леммами (вторая заканчивается на -ся, первая нет), т.е. на дорожке Лемматизация они будут различаться, на дорожках POS и Морфология - совпадать.
Помету pass предлагается указывать только в причастиях. Так как причастия на -ющ- считаются активными, форма исследующийся получит помету act и будет отличаться от исследуемый на лемму и тег act/pass.
Подводный камень здесь вот какой: если у участников в исходной системе есть пометы act и pass для (непричастного) залога глагола (апельсины отправляют/отправляются бочками) и они их не вычистят, то в формах причастий им будет засчитана ошибка.

0

3

>2) В инструкции предлагается указывать залог для деепричастий. Надо ли это понимать так, что граммемой залога предполагается >различить разбор форм исследуя (act) и исследуясь (pass)? (то есть и здесь, как в причастиях, возвратность предлагается >представить как пассивность)
Нет, это была ошибка, в деепричастиях в таком случае залог не указывается.

0

4

Боюсь, что эти формы придется исключить из оценки, потому что разные системы дают для них разную лемматизацию и соответственно разные грамматические теги.
быстрее    быстро     ADV,сравн
быстрее    быстрее   ADV
Если так, то формы типа быстрее будут оцениваться только по дорожке POS, отсюда и "неопределенность" правил для ручной разметки.

S_Koval написал(а):

3) Предлагается не давать оценку по таким категориям, как
...сравнительная/превосходная форма прилагательного и наречия
Хотелось бы для себя понять, чтО именно это означает.
Означает ли это, что последние слова в предложениях
Он бежал быстро
и
Он бежал быстрее
должны, в идеальном разборе, получить одинаковую грамматическую характеристику?
И как тогда предполагается разбирать последние слова в предложениях
Эта задача трудная
и
Эта задача труднее
Получается, что в первом случае это
A    f,sg,nom
а во втором просто
A
Это имеется в виду?

Лично я против выделения отдельной категории, то есть против нейтрализации по POS (прилагательного и наречия).

S_Koval написал(а):

Или, может быть, предлагается все быстрее, труднее и т.п. разбирать как особую часть речи - недифференцированную (т.е. общую для прилагательных и наречий) сравнительную степень. Это, на мой взгляд, было бы несколько логичнее, но не следует непосредственным образом из инструкции.

0

5

Боюсь, что эти формы придется исключить из оценки, потому что разные системы дают для них разную лемматизацию и соответственно разные грамматические теги.
быстрее    быстро     ADV,сравн
быстрее    быстрее   ADV

Добавте сюда ещё и "быстрый"

0

6

по поводу разметки "золотого стандарта" и омоформ. 

относительно -ся
Скажите пожалуйста, по каким формальным правилам "тупая машина" должна отличить
"В клубе показываются кинофильмы" (показывать pass)
и
"На горизонте показываются корабли" (показываться act)
?

Возможно есть такие правила. Буду признательна, если Вы поможете мне стать менее невежественной.

0

7

>>Скажите пожалуйста, по каким формальным правилам "тупая машина" должна отличить
>>"В клубе показываются кинофильмы" (показывать pass)
>>и
>>"На горизонте показываются корабли" (показываться act)
>>?

Насколько мне известно, таких формальных правил не существует, и "тупая машина" здесь бессильна. А "умная машина" могла бы ,например, сделать выбор на основании статистических закономерностей: кинофильмы показывают pass, а на горизонте что-то показывается act. Конечно, сбор такой статистики - весьма нетривиальная задача.

0

8

Галина написал(а):

относительно -ся
Скажите пожалуйста, по каким формальным правилам "тупая машина" должна отличить
"В клубе показываются кинофильмы" (показывать pass)
и
"На горизонте показываются корабли" (показываться act)
?

Я знаю только два достаточно жестких критерия
1) если в предложении есть пассивная конструкция с субъектом в творительном падеже: Кинофильмы показываются механиком (ср. Механик показывает кинофильмы), то форма пассивная.
2) если не существует форм без -ся, то это глагол на-ся.
Во многих контекстах, однако, допустимы обе интерпретации (в зависимости от того, можем ли мы вообразить себе неназванный, хотя бы обобщенный субъект (ср. В клубе показывают кинофильмы) или нет).
В некоторых грамматических теориях для возвратных глаголов вводится признак среднего залога (медий), в подражание санскриту и др-греческому. В частности, он принят в разметке ряда корпусов НКРЯ (но формы причастий там противопоставляются отдельно как актив-пассив).

0


Вы здесь » Соревнование морфологических парсеров » Морфология » Вопросы к списку грамматических категорий


Рейтинг форумов | Создать форум бесплатно