Синтаксически аннотированные корпуса русского языка

*     Синтаксически размеченный корпус ИППИ РАН, доступен с сайта www.ruscorpora.ru

*     Корпуса (2.5 млн предложений) синтаксически размеченных предложений для русского языка, выполненных в формализме Link Grammar Parser -  Link Grammar Parser см. http://www.link.cs.cmu.edu/link/index.html) – разработчик Сергей Протасов.

Материалы по оценке и сравнению работы синтаксических анализаторов

*     EVALITA http://www.evalita.it/

*     AMALGAM – http://www.scs.leeds.ac.uk/amalgam/amalgam/amalghome.htm

В рамках проекта разрабатываются ресурсы по сравнению основных синтаксических разборов, используемых в английской корпусной лингвистике.

Со страницы http://www.scs.leeds.ac.uk/amalgam/amalgam/multi-parsed.html можно посмотреть разборы разных систем для одного и того же корпуса предложений

Примеры зарубежных синтаксически аннотированных корпусов (трибанков)

*     Penn Treebank  -

http://www.ldc.upenn.edu/ldc/online/treebank/

самый известный пример банка синтаксических деревьев, аннотаций которого является де-факто стандартом для синтаксического анализа в формализме непосредственных составляющих.

Сейчас на сайте представлены и синтаксически аннотированные корпуса для других языков, а также для исторического корпуса английского языка:

*      Penn Parsed Corpus of Middle English (PPCME)

*      Penn Chinese Treebank

*      Penn Korean Treebank

*      Prague Dependency Treebank

*      Arabic Syntactic/Predicate-Argument annotation

Этот трибанк выступает стандартом для синтаксического аннотирования во многих других проектах, а также в качестве Золотого стандарта при оценке методов синтаксической разметки.

*     Prague Dependency Treebank –

http://ufal.mff.cuni.cz/pdt2.0/

один из самых известных примеров синтаксически размеченного корпуса в формализме деревьев зависимостей для славянских языков.

Проект Институт формальной и прикладной лингвистики, физико-математический факультет, Карлов университет, Прага, Чехия (ÚFAL MFF UK)

О корпусе можно подробней узнать, например, из статьи «Синтаксически аннотированный корпус чешского языка. The Prague Dependency Treebank. Недолужко А. Гаич Я. и др. Статья доступна по адресу http://www.dialog-21.ru/dialog2008/materials/html/62.htm и др.

*     Банки синтаксических деревьев для разных языков, доступные с сайта проекта VISL

Корпуса доступны по адресу http://corp.hum.sdu.dk/

Языки: датский, французский, португальский, эстонский, эсперанто

*     Подробный список существующих трибанков и ссылок на них по разным языкам представлен в Википедии по адресу http://en.wikipedia.org/wiki/Treebank

Демонстрация возможностей синтаксического анализа on-line для русского языка

*     Рабочая группа Aot.ru

http://aot.ru/demo/synt.html -

результаты анализа поверхностного синтаксиса в виде системы составляющих

возможен неполный синтаксический анализ

*     Демонстрация синтаксического анализа компании "Диктум" (компания, создающая технологии анализа текстов на естественном языке)

http://www.dictum.ru/ru/syntax/blog -

демонстрация пошагового построения дерева зависимостей для русского языка

*     Link Grammar Parser для русского языка –

Демонстрация возможностей синтаксического анализа on-line для других языков: некоторые ссылки

Систем автоматического синтаксического анализа для английского, для которых доступна on-line демонстрация возможностей синтаксического анализа очень много. Ниже приводятся ссылки на некоторый из них.

*     Link Grammar Parser:

http://www.link.cs.cmu.edu/link/dict/introduction.html  - сайт с описанием системы

http://www.link.cs.cmu.edu/link/submit-sentence-4.html  -

*     Дерево зависимостей http://www.connexor.com/demo/

Многоязычный синтаксический анализ в формализме деревьев зависимости. Языки: английский, французский, немецкий, испанский, итальянский, голландский, датский, норвежский, финский.

*     Проект VISL

The online demo shows how Machinese analyses language. The featured components are Machinese Phrase Tagger and Machinese Syntax. The supported languages are English, French, German, Spanish, Italian, Dutch, Swedish, Danish, Norwegian and Finnish.

Ссылки на различные синтаксические анализаторы с их краткими характеристиками

http://faculty.washington.edu/dillon/GramResources/GramResources.html - очень полезный сайт для тех, кто интересуется различными технологиями автоматической морфологической и синтаксической разметки. С этого сайта можно зайти на различные страницы демо-версий автоматического морфологического и синтаксического анализа разных языков, а также посмотреть описания соответствующих систем

 

Примеры обзоров синтаксических анализаторов и синтаксически размеченных корпусов, а также ссылок на существующие анализаторы и трибанки

http://en.wikipedia.org/wiki/Treebank - на странице Википедии

(а) можно узнать о трибанках,

(б) !!! на этой странице приводится очень подробный список ссылок на существующие трибанки для разных языков

http://www.dialog-21.ru/dialog2007/materials/html/44.htm - статья, представленная на Международной конференции ДИАЛОГ по компьютерной лингвистике