Все слова размечаются через табуляцию в формате:
слово-табуляция-лемма-табуляция-часть_речи-табуляция-грамматические_признаки-конец_строки
например:
привык привыкнуть V m,sg,past
Разметке подлежат все орфографические слова, то есть, грубо говоря, все что пишется русскими буквами.
Несловарные элементы (знаки препинания, слова, записанные латинскими буквами, другая
псевдографика, html-теги) разметке не подлежит - эти строки имеют формат
несловарное_слово-конец_строки
например:
.
<p>
Вы вправе определять самостоятельно, считать или не считать слово орфографическим в трудных случаях (например, "Смирноff" или "IT-технологии").
Слова, которые записываются через дефис, вы вправе считать одним словом или двумя (в частности, "из-за", "какой-то", "плащ-палатка" обычно входят в
словари и считаются одним словом, а "полуземлянки-полухаты" - нет). В связи с этим вы вправе менять разделение текста на строчки (определять границы слов), склеивать или разбивать слова. Составные предлоги и союзы (в которых слова разделены пробелами: "в течение", "потому что") трактуются как два отдельных слова.
Каждому орфографическому слову приписывается один разбор. Если словоформа может иметь несколько возможных разборов, выбирается тот, который соответствует смыслу данного слова в контексте. Если контекст не позволяет вам разрешить неоднозначность, вы должны дать один из возможных разборов по своему выбору. Вы вправе оставить слово без разбора в случае, если совершенно не понимаете, как его разбирать, или пропустить одну из позиций (табуляция сохраняется).
В сложных случаях рекомендуется обращаться к Грамматическому словарю А.А.Зализняка или к Национальному корпусу русского языка ruscorpora.ru (подкорпус со снятой грамматической омонимией).
Лемма - это исходная форма слова, например, инфинитив у глагола, именительный падеж единственное число мужской род у имени прилагательного. Леммой имен пар или наборов предметов (например, "сапоги", "зубы") считается форма единственного числа. Лемма существительного соответствует форме множественного числа, если оно pluralia tantum или претерпевает серьезный сдвиг значения в форме мн. числа по сравнению с единственным (ср. "осадок" и "осадки").
Часть речи. В данной разметке используется упрощенная система частей речи:
S — существительное (яблоня, лошадь, корпус, вечность)
A — прилагательное (коричневый, таинственный, морской)
V — глагол (пользоваться, обрабатывать)
PR — предлог (под, напротив)
CONJ — союз (и, чтобы)
ADV — прочие несклоняемые слова (наречие + предикатив + вводное слово + частица + междометие, здесь же местоимения-наречия и предикативы-наречия: "где-то")
Местоимения и числительные не рассматриваются в оценке и тем самым, неважно, как вы их обозначите, однако рекомендуется система НКРЯ:
SPRO - местоимения-существительные (я, всё)
APRO - местоимения-прилагательные (мой, какой)
NUM - количественные и собирательные числительные (два, двое)
ANUM - порядковые числительные (первый, десятый, один).
Морфология (грамматические_признаки).
В категориях ADV,PR,CONJ поле остается пустым. Морфология указывается только для S,A,V,SPRO,APRO,NUM,ANUM.
Здесь также используется сокращенный набор признаков:
род - m, f, n
падеж - nom, gen, dat, acc, ins, loc
число - sg, pl
время/наклонение/причастие/деепричастие - pres, past, imper, inf, partcp, ger
залог - act, pass (указываются только в формах причастий: причастия на -ущ-/-ющ-/-ащ-/-ящ- и -вш-/-ш- имеют помету act, на -ем-/-ом-/-им- и -енн-/-анн-/-янн-/-т- имеют помету pass)
лицо - 1p, 2p, 3p
NB формы типа "пишу" и формы типа "напишу" объединяются в форму непрош. времени (pres), формы типа "пойдемте" считаются формами imper, формы имен из серии "пойти в солдаты" считаются nom, "в году" (второй предложный, местный) - loc
счетная форма (два шар/а) - gen
слова общего рода (врач) - указывается mf (в зачет не входит)
формы "второго родительного" типа "попить чаю" - указывается gen2 (в зачет не входит)
звательный падеж - указывается voc (в зачет не входит)
сравнительные степени на ПО- (попроще) - не входят в оценку, рекомендуется лемматизировать без по-
Список категорий, по которым НЕ БУДЕТ оценки (преимущественно классифицирующие категории): в разметке не указывается
переходность глагола
вид глагола
одушевленность имен
переходный/непереходный глагол
краткая/полная/сравнительная/превосходная форма прилагательного и наречия
возвратность глагола
залог: указывается только в формах причастий и деепричастий.