Комментарии участников к блиц-опросу

1.
БД: некорректный вопрос, т.к. все взможные фамилии и географические
названия невозможно определить, кроме того в рамках задачи анализа
морфологического парсера невозможно выделить в отдельную категорию
составные имена
в любом случае важно наличие правильной леммы (лучше единственной)
организаторы сами-то имеют представления о правильном разборе хотя бы по
следующему списку:
-- Ростов-на-Дону
-- Камень-на-Оби
-- Эр-Рияд
-- Лодейное Поле
-- Нью-Васюки

НГ:
Не дело морфологиии решать, что такое в данном контексте "Орел" или "макаров".

МК:
Определение того, является ли данное слово именем собственным или нет
- это не задача морфологического анализатора. Это выявляется на этапе
разбора по словам (возможно, с применением какой-то синтаксической
информации).

Морфологический анализатор должен уметь разбирать имена собственные
при условии, что он уже знает, что это имя собственное или что слово
может быть именем собственным, в любом случае ему тут нужна подсказка.

Если бы была синтетическая дорожка со словами, для которых заранее
известно, что они являются именами собственными, то можно было бы
сделать это элементом оценки. Если делать такую дорожку - то вариант
"а".

Если такую дорожку не делать, то вариант "с" - не разбирать совсем.

Считаю, что разбирать как нарицательные - нечестно к тем, кто умеет
разбирать их правильно.

2.
БД: правильный ответ был бы "b. разбирать целиком", но список должен
быть согласован со всеми!
поэтому надо выбирать ответ
c. исключить из оценки

АП:
разбирать пословно. Иначе это получается синтаксис!

3.
ВС:
Хочу отметить, что при разметке позиций слова могут возникнуть следующие проблемы:
- перевод строки может рассматриваться либо как 2 символа (CR LF в Windows ) либо как один (LF в Unix, CR в Mac), причем представление может меняться при переносе текстов от одной системы к другой. Поэтому представление перевода строки должно быть стандартизовано, иначе у участников может возникнуть рассинхронизация на 1 символ с каждой строкой.
- в UTF-8 пробелы, знаки препинания и латиница кодируются 1 байтом, а кириллические символы – двумя. Если начальную/конечную позицию считать в байтах, то в UTF-8 кодировке строки “Иван Петров» Иван будет стоять в позиции 0, а Петров – в позиции 9, а не 5. Поэтому следует решить, в чем указывать смещение относительно начала текста – в байтах (что естественно) или в символах (которые имеют разную длину)
- и разумеется, склейка нескольких пробелов в один, трех точек в троеточие, удаление пустых строк тоже приведет к рассинхронизации, если это не будет стандартизировано

ЭК:
Кстати, любая предложенная разметка не предполагает информации о разделителях
(например, при разделителях табуляцией), ну или как минимум предполагает отделение информации о них (это возможно в случае XML).

МК:
Нет. Соображения - чисто эгоистические: участникам делать меньше
работы, меньше вероятность сделать ошибку. Чтобы писать этот код 1
раз, а не 15, предлагаю проводить синхронизацию результатов на стороне
организаторов. Случай, в котором разметка может не совпадать, вроде бы
1 - объединение нескольких (вероятно, идущих подряд?) токенов в 1.
Этот случай вполне можно предусмотреть и определять автоматически. Но
тут еще посоветоваться с теми участниками, у кого реализован какой-то
хитрый разбор.

4. БД:
я уже не раз писал - иеще раз повторю - все это чушь с рейтингом
интерес представляют результаты во всей полноте, со всеми деталями
процедуры
иначе - на все результаты организаторы получат вполне справедливый
упрек, что "что-то насчитали, причем все неправильно"

ВС:
Поскольку все делается в первый раз и скорее всего возникнут проблемы при сравнении результатов, то до круглого стола больше хотелось бы знать о проблемах и способах их решения, чем о самих результатах.

5. БД:
в РОМИП принято:
d. это добровольное дело каждого участника, а не организаторов.
да и вообще, какие могут быть a) и b), если уже введены псевдонимы
скажу больше - если будет a) и b) - просто не буду участвовать - не
хочу бессмысленно ругаться непонятно с кем и непонятно за что
мы морфологию свою практически с 2000 года не меняли - кроме
исправления ошибок кода - нет нужды
я готов поучаствовать в НАУЧНОМ ИССЛЕДОВАНИИ, но не имею желания
участвовать в КОММЕРЧЕСКОМ СОРЕВНОВАНИИ

Соревнование морфологических парсеров

Меню навигации

Пользовательские ссылки

Информация о пользователе

Комментарии участников к блиц-опросу

Сообщений 1 страница 1 из 1

Поделиться12010-02-27 02:16:39