Варианты:
простой (через табуляцию, одной словоформе/знаку препинания и т.п. соответствует одна строка)
XML (прототип можно посмотреть здесь).
За табуляцию - 4 За XML - 3 Любой - 1
Обсуждение
АЕ: xml, однозначно, так как он может быть расширяем до бесконечности по мере усложнения выдаваемой информации.
МК: Не вижу смысла в расширяемом формате, раз предполагается какая-то унификация/ограничение результатов.
СШ: XML, но идентификаторы бы я сделал вложенными:
<doclist docID="1">
<term termID="1.1" status="word">
ОЛ: слова, записанные через дефис, одна система может разобрать как одно слово, другая, как два слова. Может быть проблема выравнивания.
БД: собственно, самый простой и самый сложный вопрос - что есть "слово". несомненно, разметка должна быть ассоциирована с фрагментом и, даже, возможно, несвязным! например: "... аудио- и радиотехника ..." - вполне допустим "правильный" разбор в виде "АУДИО//АУДИОТЕХНИКА И РАДИОТЕХНИКА". то же будет наблюдаться в текстах с орфографическими ошибками - когда в "нормальное" слово вставляется пробел, или, наоборот, несколько слов склеиваются вместе, а также для текстов с переносами, особенно с переносами во внутренних столюцах таблиц(!), что часто любят делать в нормативных актах.
НГ: Времени остается мало, и мы все намаемся с non-wellformed XML, разной интерпретацией атрибутов и т.п. Это лишние сложности.
Предложения Алексея Полякова:
XML
Морфологическая разметка для слов базового языка имеет следующий формат:
<w id='номер слова' n='число разборов' graph='графематика'>
словоформа
<gloss lem='лемма' lex='признаки лексемы' gram='признаки словоформы' flex='парадигмы'/>
<gloss lem='лемма' lex='признаки лексемы' gram='признаки словоформы' flex='парадигмы'/>
</w>
Разметка для иноязычных слов имеет следующий формат:
<w lang='lat | digit'>словоформа</w>
Пунктуационные знаки обрамляются тегами:
<c>..</c>
Границы предложений обозначаются тегами:
<se>..</se>
Полный список тегов и их значений описан в отдельном документе: Parser_tags.xls
Форматы - предшествующая дискуссия
Страница: 1
Сообщений 1 страница 1 из 1
Поделиться12010-02-17 20:15:42
Страница: 1