Варианты:
  простой (через табуляцию, одной словоформе/знаку препинания и т.п. соответствует одна строка)
  XML (прототип можно посмотреть здесь).
За табуляцию - 4      За XML - 3      Любой - 1
Обсуждение
АЕ: xml, однозначно, так как он может быть расширяем до бесконечности по мере усложнения выдаваемой информации.
МК: Не вижу смысла в расширяемом формате, раз предполагается какая-то унификация/ограничение результатов.
СШ: XML, но идентификаторы бы я сделал вложенными:
  <doclist docID="1">
  <term termID="1.1" status="word">
ОЛ: слова, записанные через дефис, одна система может разобрать как одно слово, другая, как два слова. Может быть проблема выравнивания.
БД: собственно, самый простой и самый сложный вопрос - что есть "слово". несомненно, разметка должна быть ассоциирована с фрагментом и, даже, возможно, несвязным! например: "... аудио- и радиотехника ..." - вполне допустим "правильный" разбор в виде "АУДИО//АУДИОТЕХНИКА И РАДИОТЕХНИКА". то же будет наблюдаться в текстах с орфографическими ошибками - когда в "нормальное" слово вставляется пробел, или, наоборот, несколько слов склеиваются вместе, а также для текстов с переносами, особенно с переносами во внутренних столюцах таблиц(!), что часто любят делать в нормативных актах.
НГ: Времени остается мало, и мы все намаемся с non-wellformed XML, разной интерпретацией атрибутов и т.п. Это лишние сложности.
Предложения Алексея Полякова:
XML
Морфологическая разметка для слов базового языка имеет следующий формат:
<w id='номер слова' n='число разборов' graph='графематика'>
        словоформа
        <gloss lem='лемма' lex='признаки лексемы' gram='признаки словоформы' flex='парадигмы'/>
        <gloss lem='лемма' lex='признаки лексемы' gram='признаки словоформы' flex='парадигмы'/>
</w>
Разметка для иноязычных слов имеет следующий формат:
        <w lang='lat | digit'>словоформа</w>
Пунктуационные знаки обрамляются тегами:
        <c>..</c>
Границы предложений обозначаются тегами:
        <se>..</se>
Полный список тегов и их значений описан в отдельном документе: Parser_tags.xls